第1章大数据的起源和发展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

价值密度低(Value)
• 挖掘大数据的价值类似沙里淘金比如用户评价分析,几百万 的评价记录,真正有借鉴意义的就几句比如视频监控,每天 产生24小时的视频数据,真正有价值的就几秒钟。
1.3 大数据的来自百度文库成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据的构成
大数据 = 海量数据 + 复杂类型的数据
数据收集
数据存储
(1)利用大数据 的开放性,全面 收集各种多源异 构数据集; (2)从数据质量角 度分析数据源的 准确性、一致性、 及时性、相关性 等特性,以获取 高质量的数据。
(1)用冗余配置、 分布化和云计算技 术对数据进行预处 理;
(2)存储时对数据 进行分类,通过过 滤和去重,减少存 储量,并加入便于 检索的标签。
大体量(Volume)
• 在2006 年,个人用户才刚刚迈进TB 时代,全球一共新产生了约180EB 的数据;在2011 年,这个数字达到了1.8ZB 。而根据知名市场研究机 构IDC 的预测,到2020 年,整个世界的数据总量将会增长44 倍,达到 35.2ZB(1ZB=10 亿TB)。
多样性(Variety)
(1)黑客可收 集更多有用信息 ,大数据分析让 攻击更精准; (2)大数据为 黑客发起攻击提 供了更多机会。
挑战三:大数据分析人才紧缺
专业人才匮乏
(1)数据分析行业在 国内还处于起步阶段; (2)缺少创新型、多 学 科 交 叉 型 、 优 秀 IT 人 才; (3)我国每年人才缺 口达12万,远远不能满 足市场需求。
1.大数据起源
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
2.大数据在计算机科学中处于最前沿
3.大数据定义
• 定义一:大数据指的是那些大小超过标准数据库工具软件能够收集、存储、管理
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。
海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交 媒体数据构成。它包括了呼叫详细记录CDR、设备和传 感器信息、GPS和地理定位映射数据、通过管理文件传 输Manage File Transfer协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等等。可 以告诉我们未来会发生什么。
第1章 大数据的起源和发展
1 大数据起源及定义
2 大数据特征
3
大数据构成
4 大数据面临的机遇和挑战
1.1 大数据起源及定义
1.大数据起源
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了 一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长 速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网 (传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股 市、保险)、电信(通话、短信)都在疯狂产生着数据。
• 互联网最为本质的一点,就是网民真实的展示了个人的想法,并能迅速 为人所知。心理学家说人类的细微行为,直接暴露内心的想法。挖出真 正有价值的“钻石”——数据挖掘和预测性分析,成为了决定组织在新 时代成败的关键
• 如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,是 “大数据”时代的核心问题
和分析的数据集。
—— 摘自麦肯锡
• 定义二:在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传
统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、
搜索、共享、分析和可视化。
—— 摘自WIKI
• 定义三: "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"
海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。
1.4 大数据面临的机遇和挑战
机遇一:如何使用数据资产?
• 包括个人信息、消费记录在内的海量数据当中,蕴含着大量有价值的信 息,可以为企业经营、管理提供参考
• 互联网、移动互联网、物联网、车联网等等各种数据来源大 数据的数据结构更加多样化:
• 图像、视频、微博 • 评价、邮件 • PDF、office文档(word, excel, ppt) • 手机呼叫、短信 • 网页点击 • 搜索(html,搜索行为) • 地图gps……
非结构化数据增长率就达80%,而传统的数据样式:多半是数 据库表和xml。
根据IDC 监测,人类产生的数据量正在呈指数级增 长,大约每两年翻一番,这个速度在2020 年之前 会继续保持下去。这意味着人类在最近两年产生的 数据量相当于之前产生的全部数据量。
TB PB
EB ZB
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人 力所能处理的范畴
大数据时代正在来临…
指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理
范围和大小、迫使用户采用非传统处理方法的数据
集。
—— 摘自Gartner
• 定义四:大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,
从而产生新的科学研究方法、新的管理决策方法、新的经济增长方式、新的社会
发展方式等等。
人才培养
(1)在各高校建立面向 大数据的人才培养体系; (2)加强对数学、统计 学、数据分析、商业分析 和自然语言处理的学习, 培养数据科学家。 (3)加强校企业合作, 联合培养人才,以解人才 之急。
所以我们要勤恳读书 古人说“书中自有黄 ”通过阅读科技书籍 培养逻辑思维能力; 通过阅读文学作品, 培养文学情趣; 通过阅读报刊,我们
机遇二:大数据赋予我们洞察未来的能力?
• 马云成功预测2008 年经济危机 • “2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧 美对中国采购在下滑。海关是卖了货,出去以后再获得数 据;而我们提前半年时间从询盘上推断大数据带来的机遇 判断出世界贸易发生变化了。”
挑战一:大数据中有用信息的准确提取
每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互
联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
数据量增加
1.大数据起源
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、 半结构化数据爆发式的增长
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话, 足够一个人昼夜不息的读5.5 年…
每天会有 2.88 万个小时的视频上传到Youtube,足够一个 人昼夜不息的观看3.3 年…
推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信 息,这些消息足够一个人昼夜不息的浏览16 年…
—— 摘自复旦大学朱扬勇教授
1.2 大数据特征
大数据的4V特征
大体量(Volume)、多样性(Variety)、快速化(Velocity)、价值 密度低(Value)”就是“大数据”的显著特征,简称4V特征。
大体量(Volume)
• 数据基本单位换算: • 1B(byte 字节)= 8b(bit 位) • 1KB(Kilobyte 千字节)=1024B • 1MB(Megabyte,简称“兆”)=1024KB • 1GB(Gigabyte, 简称“吉”,又称“千兆”)=1024MB • 1TB(Trillionbyte,简称“太”)=1024GB≈10^3GB • 1PB(Petabyte,简称“拍”字节)=1024TB≈10^6GB • 1EB(Exabyte,简称“艾”字节)=1024PB≈10^9GB • 1ZB(Zettabyte,简称“泽”字节)= 1024EB≈10^12GB
快速化(Velocity)
• 每秒钟,人们发送290封电子邮件; • 每分钟人们在youtube上传20小时的视频; • 人们每月在总共在facebook上浏览7000亿分钟; • 移动互联网网用户发送和上传的数据量达到1.3exabytes,
相当于10的18次方; • 每秒淘宝商城成交178笔订单 • …… • 实时股票分析(过期无用) • 实时路况信息(过期无用) • …… • 数据的快速产生和实时响应是一大特征
数据处理
大数据的复杂性 使得难以用传统 的方法描述与度 量,需要将高维 图像等多媒体数 据降维后度量与 处理,利用上下 文关联进行语义 分析,从大量动 态及可能模棱两 可的数据中综合 信息,并导出可 理解的内容。
可视化呈现
(1)可视化目的 是使结果更直观 以便于洞察。 (2)目前计算机只 能针对小规模、 结构化或类结构 化的数据进行分 析,无法深层次 数据挖掘。 (3)现有的数据挖 掘算法在不同行 业中难以通用。
挑战二:大数据的信息安全
隐私泄露风 险加剧
(1)大量数据 的集中存储增加 了其泄露的风险; (2)一些敏感 数据的所有权和 使用权并没有清 晰界定。
现有存储与安防 措施带考验
(1)复杂的数据 存储在一起,可 能造成企业安全 管理不合规; (2)安全防护手 段更新升级慢, 存在漏洞。
数据本身成 为攻击手段
相关文档
最新文档