【最新整理】大数据采集的技术方法.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.3大数据采集 的技术方法
1
2
3
4
1.系统日志 采集方法
2.网络数据 采集方法
3.其他数据 采集方法
Your Text
1.系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如以下三种。这些系统均采 用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
Facebook的Scribe
(2)数据采集和处理的基本步骤
①将需要抓取数据 网站的URL信息写
入URL队列
②爬虫从URL队列 中获取需要抓取数 据网站的Site URL
信息
③爬虫从Internet 抓取对应网页内容, 并抽取其特定属性
的内容值
④爬虫将从网页中 抽取出的数据写入
数据库
⑤Dp读取Spider Data(数据), 并进行处理; ⑥Dp将处理后的 数据写入数据库
3.其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过 与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
THANK YOU
Hadhoop的Chukwaቤተ መጻሕፍቲ ባይዱ
Cloudra的Flume
Facebook的Scribe
Scribe是facebook开源的日志收集系统,在facebook内部 已经得到大量的应用。它能够从各种日志源上收集日志, 存储到一个中央存储系统 (可以是NFS,分布式文件系统 等)上,以便于进行集中统计分析处理。它为日志的“分 布式收集,统一处理”提供了一个可扩展的,高容错的方 案。
Hadhoop的Chukwa
主要部件
(1)代理:负责采集最原始的数据, 并发送给收集器。 (2)适配器:直接采集数据的接口和 工具。 (3)收集器:负责收集代理收送来的 数据,并定时写入集群中。 (4)MapReduce分析 (5)多路分配器:负责对数据的分类、 排序和去重。
2.网络数据采集方法
(1)四个主要模块及功能
网络爬虫
从Internet上抓取网页内容, 并抽取出需要的属性内容。
URL队列
为爬虫提供需要抓取数 据网络的URL
数据处理
对爬虫抓取的内容进行处理
数据
① Site Url, 需要抓取数据 网站的 Url 信息; ② Spider Data, 爬虫从网页中抽取出 来的数据; ③ Dp Data, 经过 dp 处理之后的数据
Scribe架构
(1)Scribe agent scribe agent实际上是一个thrift client。 向scribe发送数据的 唯一方法是使用thrift client,scribe内部定义了一个thrift接口, 用户使用该接口将数据发送给server。 (2)scribe scribe接收到thrift client发送过来的数据,根据配置文件,将 不同主题的数据发送给不同的对象。 (3)存储系统 存储系统实际上就是scribe中的store。
相关文档
最新文档