科普版浅谈大数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
运营商在大数据中做的相关工作
在运营商的实践过程当中,我们对数据挖掘、数据处理、数据分析的实时性需求越 来越迫切。
大数据方面我们同时关注分析型的产品和交易型的产品。分析型产品目前主要基于 Hadoop,在 Hadoop 这块我们目前结合自己需求做中国移动的分支 BCHadoop,我们现 在把 BCHadoop 也做了一个开源,在今年 CCF 的创业大赛上,我们中国移动出的这两道 题基本上在中国移动 BCHadoop 上进行实现。另外我们在 Hadoop 基础之上做了做了一 个数据仓库和一个数据挖掘系统,主要基于中国移动自己的经营需求做了分类规则等等 的方法,在社区文本挖掘方面做了相关算法和工具,在搜索引擎方面也做了一些工作。
比如医疗信息、财务信息通常要保存 7 年,而有些使用大数据存储的用户却希 望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分 析大都是基于时间段进行。 灵活性
大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保 证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。
还欠银行4807元,而且还不包括房贷利息。 顾客:那我先去附近的提款机提款。 客服:陈先生,根据您的记录,您已经超过今日提款限额。 顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到? 客服:大约30分钟。如果您不想等,可以自己骑车来。 顾客:为什么? 客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记
大数据的定义
大数据的概念可以用一句话概括:以场景化应用为根本,以云存储、云计 算、Hadoop 等先进技术为工具,以数据监测为基础,以关联预测为核心的企 业数据化管理新模式。
从技术层面来说:大数据指在云存储、云计算的前提下,运用 Hadoop 等 技术对 Exabyte/Zettabyte 级别的非结构化数据进行实时处理与深度挖掘的运算 模式;
数据挖掘
数据挖掘(Data Mining),也称数据融合、模式识别,即从大量的、不完全 的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知 道的、但又有潜在价值的信息和知识的过程。
这个定义包括以下几层含义: 1) 数据源必须是真实的、大量的、含噪声的; 2) 发现的是用户感兴趣的知识; 3) 发现的知识要可接受、可理解、可运用; 4) 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
而用户(无论个人或组织)所需要做的便是像今天下载手机 App 一样,选择 相应的数据服务端,付费,享受“ N=All”的实时数据所带来的深刻洞察与行动 指南。
设想二 大数据浪潮席卷全行业
个人的生活数据将被实时采集上传,饮食、健康、出行、家居、医疗、购物、 社交,大数据服务将被广泛运用并对用户生活质量产生革命性的提升,一切服务 都将以个性化的方式为每一个“你”量身定制,为每一个行为提供基于历史数据 与实时动态所产生的智能决策。
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
设想一 数据服务如水即开即用
Google、百度、亚马逊等巨头将建立起完善的大数据服务基础 架构及商业化 模式,从数据的存储、挖掘、管理、计算等方面提供 一站式服务,将各行各业的 数据孤岛打通互联。
在用户与数据服务商之间是算法提供商,他们雇佣专业领域的 精英人才与数 据科学家,通过数据挖掘的方式,寻找事物间的联系 ,如基因集与疾病的对应关 系,大气状况如何影响农作物收成,以及某一款酒类广告如何带动鲜花的销售。
数据挖掘常用方法
利用数据挖掘进行数据分析的常用方法主要有分类、回归分析、聚类、关联 规则、特征、变化和偏差分析、Web 页挖掘等, 分别从不同的角度对数据进行 挖掘。
“啤酒”和“尿布”两个看上去没有关系的商品放在一起进行销售、并获得 了很好的销售收益,这种现象就是卖场中商品之间关联性,研究“啤酒与尿布” 关联的方法就是关联规则分析法,又称“购物篮分析”。商品相关性分析是购物 篮分析中最重要的部分,在数据分析行业,将购物篮的商品相关性分析称为“数 据挖掘算法之王”。
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
大数据时代,数据挖掘是最为关键的工作。 大数据的核心并非数据的体量,而是如何进行价值挖掘,大数据将改变传统的 个人生活与商业模式。大数据其实就是一堆杂乱无章的数据,本身是无法产生任何 作用的,如果想让其产生价值,就需要运用一些处理方法,而数据挖掘是处理这些 海量数据的关键技术。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识 的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识。大数据的方向 应在数据分析及挖掘领域,多维数据分析应该会成为未来趋势。
从应用层面来说:大数据注重对全量数据的分析处理,以关联预测为核心, 以场景化应用为先导,侧重对客户行为的监控与洞察,通过数据挖掘分析,助 力企业优化经营决策。
大数据的几个关键问题(1/2)
大数据的“4V 特性”(大体量、多样性、时效性、精确性)决定了大数据的 处理首先要解决以下几个关键问题: 容量问题
有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场 右侧骑着这辆摩托车。 顾客当即晕倒。
大数据应用的一个案例
啤酒与尿布的故事 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但
是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这是一个发生在美国 沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇 女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫Fra Baidu bibliotek买完尿布之 后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很 多的。
设想三 人工智能全面渗透人类生活
从苹果的 Siri 到 Google 的机器翻译,再到百度的深度学习及“百度大脑”,商业 与技术的频繁互动将极大提升人工智能的进化速度。机器将得以理解人类文字、语音、 图像、动作甚至表情背后的微妙含义,并以大数据为支撑,为人类提供效率与个性兼 备的决策与服务;
想象一次旅行,人工智能分析你以往出行记录以及近期生活轨迹,结合对各大旅 游景点、交通状况、天气预测等数据分析,提供给你最贴合心意的目的地,规划好线 路的无人驾驶车辆依照行程将你送至景点,并根据你的行程及时调配车辆接送。所有 的酒店、餐饮、服务都已经依照你的生活数据进行深度订制。
某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的 安全标准和保密性需求。
大数据的几个关键问题(2/2)
成本问题 对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成
本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的 部件。 数据的积累
顾客:你怎么知道我会喜欢吃这种的? 客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。 顾客:好。那我要一个家庭特大号比萨,要付多少钱? 客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚
刚做了心脏搭桥手术,还处在恢复期。 顾客:那可以刷卡吗? 客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在
浅谈大数据
预测未来最好的方法,就是去创造 未来。
——Peter F. Drucker
目录
1 认识大数据 2 大数据与数据挖掘分析 3 大数据的未来
有关大数据的一个笑话
某披萨店的电话铃响了,客服人员拿起电话: 客服:XXX披萨店,您好,请问有什么需要我为您服务? 顾客:你好,我想要一份…… 客服:先生,烦请您先把您的会员卡号告诉我。 顾客:16846146…… 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是 2642****,您公司电话是46666***,您的手机号是1391234****。请问 您想用哪一个电话付费? 顾客:你为什么知道我所有的电话? 客服:陈先生,因为我们联机到CRM系统。 顾客:我想要一个海鲜披萨…… 客服:陈先生,海鲜披萨不适合您。 顾客:为什么? 客服:根据您的医疗记录,你的血压和胆固醇都偏高。 顾客:那你们有什么可以推荐的? 客服:您可以试试我们的低脂健康披萨。
这里所说的“大容量”通常可达到 PB 级的数据规模,存储系统的扩展一定 要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。 延迟问题
“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类 相关的应用。有很多“大数据”应用环境需要较高的 IOPS 性能,比如 HPC 高性 能计算。 安全问题
在传统领域大数据同样将发挥巨大作用:帮助农业根据环境气候土壤作物状 况进行超精细化耕作;在工业生产领域全盘把握供需平衡,挖掘创新增长点;交 通领域实现智能辅助乃至无人驾驶,堵车与事故将成为历史;能源产业将实现精 确预测及产量实时调控。
大数据将成为国家间竞合关系 的最高依据,同时也是最高机密,数据战争将 成为战争的主要形式。