下面是舆情分析领域的几个基础术语的定义,也可认为是研究方向,也为文本挖掘的任务和文献查找提供了思路。
舆情:通常是指较多群众关于现实社会及社会中各种现象、问题所表达的信念、态度、意见和情绪表现的总和;简而言之就是社会舆论和民情。一个严格定义是:舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会态度。舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。
事件(Event ):在特定时间、特定地点发生的事情。
主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。
专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。
热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。其主要特点如下:
热点可以分为绝对热点和相对热点。其中,绝对热点为在某段时间内文档数量超过某个固定阈值的主题;相对热点为按照某种排序方式排名靠前的若干个主题。
主题检测任务:从信息流中自动检测出最新的主题,并将报道及时地按照主题组织起来,是主题检测和追踪(Topic Detection and Tracking,TDT)的一个任务。
热点自动发现任务:也可叫做热点检测,就是如何从不断涌现的网上舆情中及时发现新发生的热点信息,并对其进行持续追踪。热点检测任务可以在主题检测任务的基础之上,加入时间和数量两个因素的分析来解决热点发现的问题。
热点分析任务:在热点自动发现任务的基础上,对自动发现的热点进行深入分析,从多方面、多角度综合分析和展现当前的舆情热点。研究内容包括:舆情热点的关键词和摘要提取、情感分析、传播分析、趋势分析和关联分析等任务。
文本情感分析:指通过计算机技术自动分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、愤怒和恐惧等。在不同的文献中,情感分析也被称作情感分类、褒贬分类、观点提取、观点摘要、情绪分析、情感识别、情感计算等。同时,情感是一个很广泛的词汇,在不同场合研究者往往采用不同的词汇来表达,比如观点(Opinion)、情感(Sentiment)、情绪(Emotion/Affect)等。
文本褒贬分析:指通过计算机技术自动分析文本信息所包含的褒贬因素,即褒义或贬义,有时也包括例如喜欢或讨厌、正面或负面等因素。本任务是文本情感分析任务的一个子集,即文本情感分析研究的情感因素范围更广泛,不只包括褒贬因素,还包括快乐或悲伤、愤怒和恐惧、温馨或诧异等情绪因素。
主题检测与追踪(TDT)的三项主要任务分别为:
新闻主题检测就是从新闻信息流中自动检测出各个主题,将每篇新闻报道划归到相应的主题,并且能够实时地针对新到的新闻报道检测新的主题。
新闻主题追踪则是从新闻报道流中追踪那些讨论目标新闻主题的相关报道,目标新闻主题通常没有明确定义,而是仅由少数(通常2-4个)新闻报道代表,系统根据这几个新闻报道可以学习到一些关于该主题的先验知识。