近年来,对微博进行信息挖掘已经成为一个热门话题。本章节首先对微博上的相关研究工作进行介绍。然后介绍微博上的情感分析法。
最后对不平衡的分类问题的解决方法做了简要介绍。
微博的相关研究由于微博的数据量之大、用户数之多以及数据的高效性和实时性,使得微博成为信息挖掘的一个重要的数据来源。对于同样拥有庞大用户群和海量实时数据的新浪微博和Twitter,两者有如下区别。
从评论方式来看,Twitter用户在评论微博时需要“@”被评论用户并直接发布新的微博,这样用户对他人微博的评论会被其他粉丝直接看到。
而新浪微博既可以选择只在评论微博下方进行评论,或者评论的同时又发布新的微博,如果选择只在评论微博下方进行评论,则其他人不会直接看到该评论。
因此新浪微博的评论方式更加灵活,用户可以自由选择。同时对评论信息的取也更加方便。
从微博的内容来看,新浪微博包含文字、图片形式的表情符号,可以随意插入链接、图片、视频等;而Twitter只包含文字和链接。因此,新浪微博相比于Twitter的内容更为多样、丰富,表现力更强。
无论是在微博还是在Twitter上,国内外许多学者都进行了各个方面的数据挖掘工作,供了许多有价值的信息和结论。
Java等人通过对Twitter社交网络的拓扑结构、地理分布属性以及用户的行为进行了研究,他们通过研究发现,尽管Twitter是2006年发布,但是直到2007年3月Twitter获得了SXSW会议的网络奖之后,才开始流行起来。
相关工作2007年5月之后,Twitter的用户数的新增速率放缓,但是每个月的新帖子数都呈现比上个月多一倍的趋势。
他们还研究了Tweets的节点数、连接数、节点的出度和入度等属性,认为在微博社交网络节点中,存在大量的彼此间熟悉的用户群体,用户关注的人数与关注用户的粉丝数呈指数分布。
用户加入Twitter通常来自于朋友的邀请,新朋友的添加通常来自对其他用户信息的浏览并添加朋友的朋友。
用户间的交流信息也验证了网络中用户高度相关的特性。通过对用户的地理位置分布数据研究,他们发现Twitter在美国、欧洲和亚洲最受欢迎,其中哦那个,东京、纽约和旧金山是最使用Twitter最多的城市。
欧洲和亚洲的网络社区相比于北美社区有更高的相关性。对于用户意图,他们归类为用户日常生活状态的更新、分享信息、交流以及发布新闻。
他们还发现具有相同兴趣爱好的用户通常为加入同一个社区,进行交流分享共同喜爱的事物。
与不同的是,中的研究中发现,有些名人用户可以获得大量的粉丝,却关注很少的用户,因此拥有超过一万的用户人数高于指数分布。
他们认为,Twitter相比于Flickr和Yahoo!等社交平台关注度更低,Twitter更侧重于信息的传播和交流。
同时微博中存在的小世界现象和转发等用户之间关联的行为也显示了微博对信息的挖掘供了海量的有价值的数据来源。
Teevan等人根据网络中的搜索引擎的查询日志和微博中的搜索日志研究了用户搜索微博的目的。
他们发现,对人名的搜索占据了所有搜索的很大部分,而且对同一个人物、事件的搜索可能更趋向于在同一时期出现。
因此他们认为,用户对某一个人物或者事件的关注度总是在一个相对集中的时间范围内。微博可以优化搜索功能以高用户的体验度。Thelwall等人研究了微博事件与微博情感的关系。
微博上的情感分析他们发现,重要的事件通常伴随着负向情感强度的增加,尽管他们只对一个时间段的微博进行了实验,但是在该时间段上的微博说明负向情感通常是Twitter上热门事件的核心,尽管正向情感也有所增加,但是正向情感的增加不如负向情感增加的强烈。
然而,Twitter中全局的情感很弱,因此他们认为不宜将情感的重要性过于夸大。同时,他们分析发现,只有不到13%的Tweets表达了个人的观点和情感,剩余的Tweets表达了幽默、同情、愤世嫉俗、不关心、分析事件或者供信息。
因此他们认为,Twitter的使用不代表用户对某一事件的观点倾向,而是根据个人的目标(例如产生幽默感或者应用分析技能)对这些事件产生的应对。这个结论也是他们工作的主要理论的推断。
丁兆云等人总结了在微博上的研究工作现状。他们认为,微博上的研究分为以下几个方面:微博话题事件的分析,包括事件的检测和跟踪、首事件与突发事件的检测、对一个话题生成摘要和构建话题模型;微博上的情感分析。
微博信息检索和推荐;微博用户之间关系的分析和挖掘,包括关注和转发的形成的研究、关系的预测;微博的信息传播,包括传播机制、传播的案例和堆某一事件传播的检测跟踪等。
微博中的影响力分析,用户因为受到其他用户的影响而做出行为上的改变的研究;还有微博自身特性、地理位置、微博可信度等的研究。
情感分析法主要分为采用机器学习的方法和非机器学习的方法,在这两种方式中,又可以细分为情感分析是否和微博内容的主题相关。
根据情感类别的不同,又有正负向分类的粗粒度情感分类,和具体情绪的细粒度情感分类。本节着重介绍采用机器学习方式进行情感分析的国内外学者现阶段的研究方法,对其他方式进行情感分析的方法也做简要介绍。
同时他们对微博时间对情感分类的影响也做了实验,发现当训练集与测试集数据处于同一时期时,分类效果明显优于训练集与测试集数据处于不同时期的分类模型。
他们认为,采用庞大的、多样的数据集可以解决数据集话题、领域和时间所带来的问题。他们对利用正负向表情符号对训练数据集进行自动标注,并抽取出包含表情符号的字符窗口训练模型。
参考文献:陈强, 何炎祥, 刘续乐, 等. 基于句法分析的跨语言情感分析. 北京大学学报 [J]:自然科学版. 2014. 50(1), pp.55-60.欧阳纯萍, 阳小华, 雷龙艳,等. 多策略中文微博细粒度情绪分析研究. 北京 大学学报[J]:自然科学版. 2014. 50(01),pp.67-72.