大数据研究现状
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
选题理由:移动互联网和云计算都是我们可以触及到的东西,而大数据是一个抽象的概念,现在媒体总在说大数据时代的到来,那大数据到底是什么,为什么它如此受关注,为何它对人们的生活和生产具有如此深刻的影响,借这个机会我也想深入地了解了一下,并在此与大家分享有关大数据的知识。
最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
何为大数据
大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。
所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理,并将其整理成为人类所能解读的信息。
当今世界经济中,企业为了发现新的盈利长机会,更加依赖来自消费者的喜好和见解。在发现和挖掘这些喜好和见解的过程中,产生数量巨大、结构复杂、类型众多的数据,这些数据通过集成共享,交叉复用,成为有价值的经济信息资源,形成一种智力资源和知识服务能力。
大数据有多大how big is big data
大,即海量,巨型。
领域内的大多数专业人士认为TB(太字节,百万兆)或PB级是目前大数据的基准。但也有业内人士认为无法为大数据定义一个具体的数量级,因为当今科技迅猛发展,今天的“大”可能是明天的“正常”数量。也就是说大数据是附着在人力和技术基础设施无法跟上公司的数据需求步伐的情况下的主观标签。
各大公司的数据情况
Google 公司通过大规模集群和MapReduce软件,每个月处理的数据量超过400PB。
百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。
Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据
淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。
Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。
工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8ZB(1ZB=1021Byte)其中75%来自于个人。互联网数据中心(IDC)认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB
数据如此膨胀,大数据的处理及应用成为企业经营及价值创造上非常重要的课题。
大数据特点:3V
Volume:数据量大:目前一般认为PB级以上数据看成是大数据;
Variety:种类多:包括文档、视频、图片、音频、数据库数据等;
Velocity:速度快:数据生产速度很快,要求数据处理和I/O 速度很快;
Veracity:真实性:数据是完整的和可信任,并能自信地用它来做出关键的决定的能力的组织。
大数据处理流程
数据采集:数据抽取(ETL)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集合中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NoSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析等。
数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类(Clustering)、描述和可视化、复杂数据类型挖掘
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
大数据涉及的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据的分析方法
1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。
当前发展情况:
研究现状:2012 年3 月29 日,美国政府启动“Big Data Research and Development Initiative”计划,6个部门拨款2亿美元,争取增加100倍的分析能力从各种语言的文本中抽取信息。
美国能源部(DOE) 项目举例: