互联网大数据采集与处理的关键技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

互联网大数据采集与处理的关键技术研究

中国工商银行股份有限公司数据中心(北京) 金雯婷 张松

随着社交网络、电子商务、移动互联网等信息通信技术的快速普及使用,基于新兴信息技术的商务应用和金融服务创新(如网上支付、移动支付、第三方支付等)也呈现出爆发式增长趋势。据中国互联网信息中心(CNNIC) 于2014年7月21日发布的《第34次中国互联网络发展状况统计报告》显示,截至2014年6月,我国使用网上支付的用户规模达到2.92亿,较2013年底增加3208万人,半年度增长率为12.3%。根据易观国际的一项研究表明,2014年第二季度中国第三方互联网支付市场交易规模达18406.6亿元,同比增长了64.1%。

在互联网新兴技术普及应用的过程中,越来越多的用户数据产生、散布在互联网的各个角落,产生了大体量(Volume)、多样化(Variety)、高速度(Velocity)和低价值(Value)等大数据概念(big data),并渗透到每一个行业和业务职能领域,为下一步商业和金融服务创新浪潮奠定了数据基础。

传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。

互联网网页数据是大数据领域的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对互联网网页的大数据处理流程和技术进行探索具有重要意义。

互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术。

一、网页大数据采集和处理的基本流程

互联网网页数据采集就是获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。互联网网页数据处理,就是对抽取出来的网页数据进行内容和格式上的处理,进行转换和加工,使之能够适应用户的需求,并将之存储下来,以供后用。

互联网的网页大数据采集和处理的整体过程如图1所示,包含四个主要模块:Web爬虫(Spider)、数据处理(Data Process)、爬取URL队列(Url Queue)和数据。

这四个主要模块的功能如下。

爬虫(Spider):从Internet上抓取网页内容,并抽取出需要的属性内容。

数据处理(Dp-data Process):对爬虫抓取的内容进行处理。

URL队列(Url Queue):为爬虫提供需要抓取数据网站的url。

数据(Data)包含三方面:①Site Url,需要抓取数据网站的Url信息;②Spider Data,爬虫从网页中抽取出来的数据;③Dp Data,经过dp处理之后的数据。

70FINANCIAL COMPUTER OF CHINA

71

中国金融电脑

科技管理

2014.11整个web 数据采集和处理的基本步骤如下:(1)将需要抓取数据的网站的url 信息(Site Url)写入Url Queue;

(2)爬虫从URL 队列中获取需要抓取数据的网站的Site Url 信息;

(3)爬虫从Internet 抓取与Site Url 对应的网页内容,并抽取出网页特定属性的内容值;

(4)爬虫将从网页中抽取出的数据(Spider Data)写入数据库;

(5)dp 读取Spider Data,并进行处理;

(6)dp 将处理之后的数据(Dp Data)写入数据库。

二、数据采集的基本流程与关键技术

1.数据采集的整体框架

Web 爬虫的整个抓取过程如图2所示,主要包

括六个模块:网站页面(Site Page),链接抽取(Url Extractor),链接过滤(Url Filter),内容抽取(Content Extractor),爬取URL 队列(Site Url Frontier)和数据。

这六个模块的主要功能如下。

网站页面(Site Page):获取网站的网页内容。链接抽取(Url Extractor):从网页内容中抽取出该网站正文内容的链接地址。

链接过滤(Url Filter):判断该链接地址的网

页内容是否已经被抓取过。

内容抽取(Content Extractor):从网页内容中抽取所需属性的内容值。

URL 队列(Url Queue):为爬虫提供需要抓取数据网站的url。

数据(Data)包含三方面:Site Url,需要抓取数据网站的url 信息;Spider Url,已经抓取过数据的网页url;Spider Content,经过抽取的网页内容。

2.数据采集的基本流程

整个数据采集过程的基本步骤如下:

(1)将需要抓取数据的网站的url 信息(Site Url)写入Url Queue;

(2)爬虫从URL 队列中获取需要抓取数据的网站的Site Url 信息;

(3)获取某个具体网站的网页内容;

图1 web 数据采集和处理

FCC

图2 web 数据采集

(4)从网页内容中抽取出该网站正文页内容的链接地址;

(5)从数据库中读取已经抓取过内容的网页地址(Spider Url);

(6)过滤url。将当前的url和已经抓取过的url进行比较;

(7)如果该网页地址没有被抓取过,则将该地址写入(Spider Url)数据库;如果该地址已经被抓取过,则放置对这个地址的抓取操作;

(8)获取该地址的网页内容,并抽取出所需属性的内容值;

(9)将抽取的网页内容写入数据库。

3.数据采集的关键技术——链接过滤

链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中,可以采用布隆过滤器来实现对链接的过滤。

布隆过滤器(Bloom Filter)的基本思想是:当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。

布隆过滤器在空间和时间方面都有巨大的优势:

(1)在复杂度方面,布隆过滤器存储空间和插入/查询时间都是常数(即复杂度为O(k));

(2)在关系方面,散列函数相互之间没有关联关系,方便由硬件并行实现;

(3)在存储方面,布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。

布隆过滤器的具体实现方法是,已经抓取过的每个url,经过k个hash函数的计算,得出k个值,再和一个巨大bit数组的这k个位置的元素对应起来(这些位置数组元素的值被设置为1)。在需要判断某个url是否被抓取过时,先用k个hash函数对该url计算出k个值,然后查询巨大的bit数组内这k个位置上的值,如果全为1,则是已经被抓取过,否则没有被抓取过。

三、数据处理的基本流程与关键技术

1.数据处理的整体框架

数据处理的整个过程如图3所示,主要包括四个模块:分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据。

图3 数据处理

这四个模块的主要功能如下。

分词:对抓取到的网页内容进行切词处理。

排重:对众多的网页内容进行排重。

整合:对不同来源的数据内容进行格式上的整合。

数据:包含两方面的数据,Spider Data(爬虫从网页中抽取出来的数据)和Dp Data(在整个数据处理过程中产生的的数据)。

2.数据处理的基本流程

整个数据处理过程的基本步骤如下:

(1)对抓取来的网页内容进行分词;

(2)将分词处理的结果写入数据库;

(3)对抓取来的网页内容进行排重;

(4)将排重处理后的数据写入数据库;

(5)根据之前的处理结果,对数据进行整合;

(6)将整合后的结果写入数据库。

3.数据处理的关键技术——排重

排重就是排除掉与主题相重复项的过程,网页排

72FINANCIAL COMPUTER OF CHINA

相关文档
最新文档