大数据的来源与数据采集方法..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一些视频、音频设备等 产生的数据
如一些大型超市,通过监控器观 察消费者在超市购物的整个流程, 从而对商品进行合理摆放,促进 对某些商品的间接促销。
企业内部本身的 一些行业数据等 等。
大数据的数据采集方法
系统日志采集方法
很多互联网企业都有自己的海量数据采集工具,多 用于系统日志采集,如Hadoop的Chukwa, Cloudera 的Flume,Facebook 的Scribe等,这些 工具均采用分布式架构,能满足每秒数百MB的日志 数据采集和传输需求。
其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的 数据,可以通过与企业或研究机构合作,使用特定系统接口 等相关方式采集数据。
大数据的来源
社交媒体
如微博、微信、人人网、facebook等,通过这些大 众常用的社交平台,可以分析用户平时在这些社交 媒体上的行为动向,归纳出用户的喜好或关注点, 这些能够wenku.baidu.com企业挖掘用户需求提供重要依据。
越来越多的机器配备了连续测量和报告 运行情况的装置。这些机器传感数据也 属于大数据的范围。
网络数据采集方法:对非结构化数据的 采集
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网 站上获取数据信息。该方法可以将非结构化数据从网页中抽 取出来,将其存储为统一的本地数据文件,并以结构化的方 式存储。它支持图片、音频、视频等文件或附件的采集,附 件与正文可以自动关联。
除了网络中包含的内容之外,对于网络流量的采集可以使用 DPI或DFI等带宽管理技术进行处理。