网络舆情热点信息自动发现方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

—4—

网络舆情热点信息自动发现方法

郑魁1,2，疏学明2，袁宏永2

(1. 中国科学技术大学火灾科学国家重点实验室，合肥 230026；2. 清华大学公共安全研究中心，北京 100084)

摘要：根据公共安全网络舆情研究的需求，将中文分词技术应用于突发事件应急管理中，提出基于ICTCLAS 分词技术的网络舆情热点信息的自动发现方法。该方法读入新闻文本并进行分词和词频统计，从词频表中去除停用词，合并多单位关键词得到突发事件热点信息关键词列表，对网络信息及时进行检索，为突发事件应急决策提供技术支持。通过1个突发事件的实例验证了该方法的实用性和可靠性。关键词：网络舆情；突发事件；公共安全；热点信息；中文分词

Hot Spot Information Auto-detection Method of

Network Public Opinion

ZHENG Kui 1,2, SHU Xue-ming 2, YUAN Hong-yong 2

(1. State Key Laboratory of Fire Science, University of Science and Technology of China, Hefei 230026;

2. Center for Public Safety Research, Tsinghua University, Beijing 100084)

【Abstract 】According to the needs of network public opinion research in public safety, using Chinese word segmentation technology in the field of emergency management, this paper presents a hot spot information auto-detection method of network public opinion based on ICTCLAS, which inputs the text of the news corpus, uses Chinese word segmentation and word frequency statistics, gives the hot spot information list of keywords through the removal of stop words and the merged of multiple keywords. It is verified through two emergency examples that the practicality and reliability of the method.

【Key words 】network public opinion; emergency; public safety; hot spot information; Chinese word segmentation

计算机工程Computer Engineering 第36卷第3期

Vol.36 No.3 2010年2月

February 2010

·博士论文·

文章编号：1000—3428(2010)03—0004—03

文献标识码：A

中图分类号：TP309.2

网络舆情是社会舆情的一个重要组成部分，不仅反映了某些社会群体或阶层的社会政治态度，而且是社情民意的一个重要表现[1]。因此，建立网络舆情分析系统，及时、全面地掌控社情民意，对于提高决策的民主化与科学化，对于维护社会的稳定，都具有十分重要的意义。

根据公共安全研究的需求，清华大学公共安全研究中心自主开发了网络舆情监测与预警系统。但是，现有的网络舆情监测与预警系统监控的范围被限定在使用者所给出的关键词中，由于使用者的知识、信息的来源、对突发事件的关注程度等诸多人为的主观因素所产生的局限性，致使系统无法监测使用者未知的突发事件。因此，通过计算机对突发事件的新闻进行整理，自动查找出热点事件的关键词，及时更新网络舆情系统使用者的公共安全词频库，就可以实现对突发事件的实时跟踪。

本文提出了一种基于中文分词技术的热点信息自动发现方法并用1个实例进行了验证。

1 中文分词技术及其应用

英文以词作为单位，中文以字作为单位。英语中词与词之间由空格来区分开，比较容易识别；而在汉语中，词汇是由若干个字组合而成的，一句话中能够起到间隔作用的仅仅是标点符号，词汇与词汇之间没有相区分的符号。现有的分词算法主要分为3大类：(1)机械式分词法，它是基于字典及词库匹配技术；(2)词频统计分词法，它基于词汇的频度统计；(3)智能分词法，关键技术在于知识的理解[2]。中文分词应用的领域很广泛，涵盖了机器翻译、自动分类、自动摘要等多个方面，在处理中文信息时，几乎都需要用到中文分词技术。

本文使用了中国科学院计算技术研究所研制的分词系统ICTCLAS [3]。该系统是目前应用较为广泛的一种中文分词技术，它基于层叠型隐式马尔科夫模型，包括了切分、标注、命名实体识别等功能，使用角色模型(role model)的方法进行命名实体识别，不仅有较高的分词准确率，分词效率也较好。

2 网络舆情热点信息的自动发现方法

2.1 基本流程

网络舆情热点信息自动发现方法的基本流程见图1。具体步骤如下：

Step1 读入新闻文本文件。从网络上获取的新闻HTML 页面经过一定的格式转化与内容过滤后，形成网络舆情监控与预警系统的语料库中的新闻文本文件，采用文件/文件夹的方式进行存储，使用Java 的I/O 类从系统中读取每个新闻文本文件的正文内容，并将其作为字符串保存在本地变量SourceText 中。

基金项目：国家自然科学基金资助项目“面向公共安全的网络舆情预警方法研究”(70773069)；国家“十一五”科技支撑计划应急平台基金资助重大项目

作者简介：郑魁(1982－)，男，博士研究生，主研方向：网络舆情监控；疏学明，助理研究员、博士；袁宏永，教授、博士收稿日期：2009-07-10 E-mail ：zhengkui@