第五章 网络舆情监测技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基础概念:索引
统一资源定位符(Uniform Resource Locator,URL)是对可以 从互联网上得到的资源的位置和访问方法的一种简洁的表示,是 互联网上标准资源的地址。互联网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它 。只要能够对资源定位,系统就可以对资源进行各种操作,如存 取、更新、替换和查找其属性。
面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的 时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式 分布爬虫和对等式分布爬虫。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(三)分布式技术
1.主从式分布爬虫(master-slave) ➢ 是分布式技术中最传统的也是最常见的一种形式,它指不同的服务
➢ 广度优先策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层 次的搜索。
2.最佳优先搜索策略
➢ 按照一定的网页分析算法,预测候选URL与目标网页的相似度,并选取最好 的一个或几个URL进行抓取。只访问经过网页分析算法预测为“有用”的网 页。
3.深度优先策略
➢ 从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进 入。
第五章 网络舆情监测技术
主讲来自百度文库XXX
导言
网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业 知识,对于新闻与传播的从业者和研究者而言,掌握网络舆情监测相关 的基本技术原理,把握技术的基本发展方向以及它们对于网络舆情监测 的影响,是十分必要的。
目录
第一节 网络舆情监测数据采集 第二节 网络舆情监测数据分析 第三节 网络舆情监测可视化技术 第四节 大数据时代网络舆情监测技术遇到的挑战
基础概念:索引
在关系数据库中,索引是一种单独的、物理的对数据库表中一列 或多列的值进行排序的一种存储结构,它是某个表中一列或若干 列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指 针清单。索引的作用相当于图书的目录,可以根据目录中的页码 快速找到所需的内容。
第一节 网络舆情监测数据采集
将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进 已抓取URL队列。 ➢ (4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待 抓取URL队列,从而进入下一个循环。
第一节 网络舆情监测数据采集
三、数据采集常用方法
(一)网页搜索策略
1.广度优先搜索策略
一、数据采集基本技术
(一)网络爬虫
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的 规则自动地抓取互联网信息的程序或者脚本。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(一)网络爬虫
1.网络爬虫的类型 ➢ (1)批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬
虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数 据采集系统中最简单的爬虫系统。 ➢ (2)增量型爬虫:增量型爬虫会保持持续不断的抓取,对于已经抓 取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集 系统中最常用的爬虫系统。 ➢ (3)垂直型爬虫:垂直型爬虫只关注特定主题或特定行业的网页, 其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。 一般只有垂直行业分析才会需要此类型的爬虫。
第一节 网络舆情监测数据采集
二、数据采集原理
第一节 网络舆情监测数据采集
二、数据采集原理
网络爬虫的基本工作流程如下:
➢ (1)首先选取一部分精心挑选的种子URL。 ➢ (2)将这些URL放入待抓取URL队列。 ➢ (3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,
在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。 当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复
判断,如果判断是近似重复网页,则按一定策略进行处理,如直接 丢弃、打上相似标签。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(三)分布式技术
分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的 计算能力才能解决的问题分成许多小的部分,然后把这些部分分配 给许多计算机进行处理,最后把这些计算结果综合起来得到最终的 结果。
器承担着不同的角色,其中有一台专门的master服务器来维护待抓 取的URL(universal resource locator,统一资源定位符)队列, 它负责每次将URL分发到不同的slave服务器,而slave服务器则负责 实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分 发URL之外,还要负责调解各个slave服务器的负载情况,以免某些 slave服务器过于清闲或者劳累。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(三)分布式技术
1.主从式分布爬虫(master-slave)
第一节 网络舆情监测数据采集
一、数据采集基本技术
(三)分布式技术
2.对等式分布爬虫(peer to peer) ➢ 对等式分布爬虫体系中,服务器之间不存在分工差异,每台服务器
都承担着一样的功能,各自负责一部分URL的抓取工作。由于没有 URL服务器存在,如何分工就成了主要问题。
种非正常情况,二是爬虫系统自身有一套健壮的容错机制。 ➢ (4)友好性:包括两方面,一是保护网站的部分私密性,二是减少
被抓取网站的网络负载。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(二)网页去重
在当今的互联网环境中,有相当大比例的内容是完全相同或者大体 相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后 续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为 提高数据质量的关键技术之一。
第一节 网络舆情监测数据采集
一、数据采集基本技术
(一)网络爬虫
2.网络爬虫的特性 ➢ (1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。 ➢ (2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数
量来缩短抓取周期。 ➢ (3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各