第五章 网络舆情检测技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实用文档
一、数据采集基本技术
(二)网页去重 在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数 据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成 为提高数据质量的关键技术之一。 在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。
战
实用文档
1 网络舆情监测数据采集
实用文档
实用文档
一、数据采集基本技术
(一)网络爬虫 网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的程 序或者脚本。 (1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这 个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。 (2)增量型爬虫(incremental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取 过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。 (3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大 的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型 的爬虫。
实用文档
一、数据分析基本技术
(二)文本挖掘技术 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程, 它已经 成为数据挖掘中一个日益流行而重要的研究领域。 与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是, 文本挖掘所研究 的文本数据库由来自各种数据源的大量文档组成, 包括新闻文章、研究论文、书籍、期刊、报告、 专利说明书、会议文献、技术档案、政府出版物、数字图书馆、技术标准、产品样本、电子邮件消 息、web页面等。
实用文档
三、数据采集常用方法
(一)网页搜索策略 广度优先搜索策略 最佳优先搜索策略 深度优先搜索策略
实用文档
三、数据采集常用方法
(二)网页更新策略 历史参考策略 用户体验度策略 聚类抽样策略
实用文档
2 网络舆情监测数据分析
实用文档
一、数据分析基本技术
(一)全文检索技术 全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文 检索需要具备建立索引和提供查询的基本功能。此外,现代的全文检索系统还需要具有方便的用户 接口、面向WWW的开发接口、二次应用开发接口等。在功能上,全文检索系统核心具有建立索引、 处理查询返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。 在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外 围应用系统等共同构成了全文检索系统。
实用文档
一、数据采集基本技术
(三)分布式技术 面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。 常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。 主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服 务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universal resource locator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave 服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要 负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。 在对等式分布爬虫(peer to peer)体系中,服务器之间不存在分工差异,每台服务器都承担着一 样的功能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。
实用文档
文本挖掘技术在网络舆情信息分析中的应用:
对网络舆情进行描述 对网络舆情的关联性进行分析 对网络舆情信息的真实性进行判断分析,对传播主体的意图及态度倾向进行推论 对网络舆情的产生原因进行分析 预测和推论网络舆情信息的产生和变化趋势
实用文档
二、数据分析原理
(一)全文检索技术原理 目前全文搜索引擎通常使用倒排索引技术。倒排索引(inverted index),也常被称为反向索引、 置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文 档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
第五章
网络舆情监测技术
实用文档
导言
网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者 和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网 络舆情监测的影响,是十分必要的。
实用文档
CONTENTS
1 网络舆情监测数据采集 2 网络舆情监测数据分析 3 网络舆情监测可视化技术 4 大数据时代网络舆情监测技术遇到的挑
实用文档
二、数据分析原理
(二)文本挖掘技术原理 (1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。 (2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向 特定应用目标的知识或模式。 (3)模式评估与表示为最后一个环节,是利用已经定义好的ຫໍສະໝຸດ Baidu估指标对获取的知识或模式进行评 价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和 改进,然后再进行新一轮的发现。
实用文档
网络爬虫的特性:
(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。 (2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。 (3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫系统 自身有一套健壮的容错机制。 (4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。
实用文档
二、数据采集原理
实用文档
二、数据采集原理
网络爬虫的基本工作流程如下: (1)首先选取一部分精心挑选的种子URL。 (2)将这些URL放入待抓取URL队列。 (3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,将URL对应的网页下 载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 (4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入 下一个循环。
一、数据采集基本技术
(二)网页去重 在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数 据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成 为提高数据质量的关键技术之一。 在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。
战
实用文档
1 网络舆情监测数据采集
实用文档
实用文档
一、数据采集基本技术
(一)网络爬虫 网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的程 序或者脚本。 (1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这 个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。 (2)增量型爬虫(incremental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取 过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。 (3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大 的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型 的爬虫。
实用文档
一、数据分析基本技术
(二)文本挖掘技术 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程, 它已经 成为数据挖掘中一个日益流行而重要的研究领域。 与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是, 文本挖掘所研究 的文本数据库由来自各种数据源的大量文档组成, 包括新闻文章、研究论文、书籍、期刊、报告、 专利说明书、会议文献、技术档案、政府出版物、数字图书馆、技术标准、产品样本、电子邮件消 息、web页面等。
实用文档
三、数据采集常用方法
(一)网页搜索策略 广度优先搜索策略 最佳优先搜索策略 深度优先搜索策略
实用文档
三、数据采集常用方法
(二)网页更新策略 历史参考策略 用户体验度策略 聚类抽样策略
实用文档
2 网络舆情监测数据分析
实用文档
一、数据分析基本技术
(一)全文检索技术 全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文 检索需要具备建立索引和提供查询的基本功能。此外,现代的全文检索系统还需要具有方便的用户 接口、面向WWW的开发接口、二次应用开发接口等。在功能上,全文检索系统核心具有建立索引、 处理查询返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。 在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外 围应用系统等共同构成了全文检索系统。
实用文档
一、数据采集基本技术
(三)分布式技术 面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。 常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。 主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服 务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universal resource locator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave 服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要 负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。 在对等式分布爬虫(peer to peer)体系中,服务器之间不存在分工差异,每台服务器都承担着一 样的功能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。
实用文档
文本挖掘技术在网络舆情信息分析中的应用:
对网络舆情进行描述 对网络舆情的关联性进行分析 对网络舆情信息的真实性进行判断分析,对传播主体的意图及态度倾向进行推论 对网络舆情的产生原因进行分析 预测和推论网络舆情信息的产生和变化趋势
实用文档
二、数据分析原理
(一)全文检索技术原理 目前全文搜索引擎通常使用倒排索引技术。倒排索引(inverted index),也常被称为反向索引、 置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文 档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
第五章
网络舆情监测技术
实用文档
导言
网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者 和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网 络舆情监测的影响,是十分必要的。
实用文档
CONTENTS
1 网络舆情监测数据采集 2 网络舆情监测数据分析 3 网络舆情监测可视化技术 4 大数据时代网络舆情监测技术遇到的挑
实用文档
二、数据分析原理
(二)文本挖掘技术原理 (1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。 (2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向 特定应用目标的知识或模式。 (3)模式评估与表示为最后一个环节,是利用已经定义好的ຫໍສະໝຸດ Baidu估指标对获取的知识或模式进行评 价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和 改进,然后再进行新一轮的发现。
实用文档
网络爬虫的特性:
(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。 (2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。 (3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫系统 自身有一套健壮的容错机制。 (4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。
实用文档
二、数据采集原理
实用文档
二、数据采集原理
网络爬虫的基本工作流程如下: (1)首先选取一部分精心挑选的种子URL。 (2)将这些URL放入待抓取URL队列。 (3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,将URL对应的网页下 载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 (4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入 下一个循环。