互联网大数据采集与处理的关键技术研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

互联网大数据采集与处理的关键技术研究

中国工商银行股份有限公司数据中心（北京）金雯婷张松

随着社交网络、电子商务、移动互联网等信息通信技术的快速普及使用，基于新兴信息技术的商务应用和金融服务创新（如网上支付、移动支付、第三方支付等）也呈现出爆发式增长趋势。据中国互联网信息中心(CNNIC) 于2014年7月21日发布的《第34次中国互联网络发展状况统计报告》显示，截至2014年6月，我国使用网上支付的用户规模达到2.92亿，较2013年底增加3208万人，半年度增长率为12.3%。根据易观国际的一项研究表明，2014年第二季度中国第三方互联网支付市场交易规模达18406.6亿元，同比增长了64.1%。

在互联网新兴技术普及应用的过程中，越来越多的用户数据产生、散布在互联网的各个角落，产生了大体量（Volume）、多样化（Variety）、高速度（Velocity）和低价值（Value）等大数据概念（big data），并渗透到每一个行业和业务职能领域，为下一步商业和金融服务创新浪潮奠定了数据基础。

传统的数据挖掘、分析处理方法和工具，在非结构化、高速化的大数据处理要求面前显得过于乏力，需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。

互联网网页数据是大数据领域的一个重要组成部分，是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径，为互联网和金融服务创新提供了丰富的数据基础，因此，对互联网网页的大数据处理流程和技术进行探索具有重要意义。

互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点，我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储，尤其在网页数据的采集和处理方面，存在亟须突破的若干关键技术。

一、网页大数据采集和处理的基本流程

互联网网页数据采集就是获取互联网中相关网页内容的过程，并从中抽取出用户所需要的属性内容。互联网网页数据处理，就是对抽取出来的网页数据进行内容和格式上的处理，进行转换和加工，使之能够适应用户的需求，并将之存储下来，以供后用。

互联网的网页大数据采集和处理的整体过程如图1所示，包含四个主要模块：Web爬虫(Spider)、数据处理(Data Process)、爬取URL队列(Url Queue)和数据。

这四个主要模块的功能如下。

爬虫(Spider)：从Internet上抓取网页内容，并抽取出需要的属性内容。

数据处理(Dp-data Process)：对爬虫抓取的内容进行处理。

URL队列(Url Queue)：为爬虫提供需要抓取数据网站的url。

数据(Data)包含三方面:①Site Url,需要抓取数据网站的Url信息；②Spider Data,爬虫从网页中抽取出来的数据；③Dp Data,经过dp处理之后的数据。

70FINANCIAL COMPUTER OF CHINA

中国金融电脑

科技管理

2014.11整个web 数据采集和处理的基本步骤如下：（1）将需要抓取数据的网站的url 信息(Site Url)写入Url Queue；

（2）爬虫从URL 队列中获取需要抓取数据的网站的Site Url 信息；

（3）爬虫从Internet 抓取与Site Url 对应的网页内容，并抽取出网页特定属性的内容值；

（4）爬虫将从网页中抽取出的数据(Spider Data)写入数据库；

（5）dp 读取Spider Data，并进行处理；

（6）dp 将处理之后的数据(Dp Data)写入数据库。

二、数据采集的基本流程与关键技术

1.数据采集的整体框架

Web 爬虫的整个抓取过程如图2所示，主要包

括六个模块：网站页面(Site Page)，链接抽取(Url Extractor)，链接过滤(Url Filter)，内容抽取(Content Extractor)，爬取URL 队列(Site Url Frontier)和数据。

这六个模块的主要功能如下。

网站页面(Site Page)：获取网站的网页内容。链接抽取(Url Extractor)：从网页内容中抽取出该网站正文内容的链接地址。

链接过滤(Url Filter)：判断该链接地址的网

页内容是否已经被抓取过。

内容抽取(Content Extractor)：从网页内容中抽取所需属性的内容值。

URL 队列(Url Queue)：为爬虫提供需要抓取数据网站的url。

数据(Data)包含三方面：Site Url，需要抓取数据网站的url 信息；Spider Url，已经抓取过数据的网页url；Spider Content，经过抽取的网页内容。

2.数据采集的基本流程

整个数据采集过程的基本步骤如下：

（1）将需要抓取数据的网站的url 信息(Site Url)写入Url Queue；

（2）爬虫从URL 队列中获取需要抓取数据的网站的Site Url 信息；

（3）获取某个具体网站的网页内容；

图1 web 数据采集和处理

FCC

图2 web 数据采集

（4）从网页内容中抽取出该网站正文页内容的链接地址；

（5）从数据库中读取已经抓取过内容的网页地址(Spider Url)；

（6）过滤url。将当前的url和已经抓取过的url进行比较；

（7）如果该网页地址没有被抓取过，则将该地址写入(Spider Url)数据库；如果该地址已经被抓取过，则放置对这个地址的抓取操作；

（8）获取该地址的网页内容，并抽取出所需属性的内容值；

（9）将抽取的网页内容写入数据库。

3.数据采集的关键技术——链接过滤

链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中，可以采用布隆过滤器来实现对链接的过滤。

布隆过滤器(Bloom Filter)的基本思想是：当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。

布隆过滤器在空间和时间方面都有巨大的优势：

（1）在复杂度方面，布隆过滤器存储空间和插入/查询时间都是常数（即复杂度为O(k)）；

（2）在关系方面，散列函数相互之间没有关联关系，方便由硬件并行实现；

（3）在存储方面，布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。

布隆过滤器的具体实现方法是，已经抓取过的每个url，经过k个hash函数的计算，得出k个值，再和一个巨大bit数组的这k个位置的元素对应起来(这些位置数组元素的值被设置为1)。在需要判断某个url是否被抓取过时，先用k个hash函数对该url计算出k个值，然后查询巨大的bit数组内这k个位置上的值，如果全为1，则是已经被抓取过，否则没有被抓取过。

三、数据处理的基本流程与关键技术

1.数据处理的整体框架

数据处理的整个过程如图3所示，主要包括四个模块：分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据。

图3 数据处理

这四个模块的主要功能如下。

分词：对抓取到的网页内容进行切词处理。

排重：对众多的网页内容进行排重。

整合：对不同来源的数据内容进行格式上的整合。

数据：包含两方面的数据，Spider Data（爬虫从网页中抽取出来的数据）和Dp Data（在整个数据处理过程中产生的的数据）。

2.数据处理的基本流程

整个数据处理过程的基本步骤如下：

（1）对抓取来的网页内容进行分词；

（2）将分词处理的结果写入数据库；

（3）对抓取来的网页内容进行排重；

（4）将排重处理后的数据写入数据库；

（5）根据之前的处理结果，对数据进行整合；

（6）将整合后的结果写入数据库。

3.数据处理的关键技术——排重

排重就是排除掉与主题相重复项的过程，网页排

72FINANCIAL COMPUTER OF CHINA