大数据与数据挖掘培训

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升
云计算的兴起
网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起
网络技术的发展
智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用
Biblioteka Baidu联网
练习题
• 促进大数据技术到来的主要因素有那些? • 大数据时代的到来主要是由于网上的数据量大规模增加( )
• 大数据不仅是网络业的未来,而且是整个社会和经 济发展的未来。
• 社交网络的发展
• 简单地说,社交网络是在互联网上与其他人相联系的一个平台。 社交网 络站点通常围绕用户的基本信息而运作,用户基本信息是指有关用户喜 欢的事、不喜欢的事、兴趣、爱好、学校、职业或任何其他共同点的集 合。通常,这些站点提供不同级别的隐私控制。社交网络的目标是,通 过一个或多个共同点将一些人相互联系起来而建立一个群组。
大数据与数据挖掘
第二部分 大数据
大数据体系
• 大数据概念 • 大数据行业应用 • 数据分析与挖掘 • 大数据技术
数据的大小
• 物理属性的数据
公斤、公里、升等
• 信息属性的数据
位 (Bit)是量度信息的基本单位,只有0、1两种二进制状态。 8位(bit)组成一个字节 (1Byte,8bit),能够容纳一个英文字符,而一个汉字需要两个字
练习题
• 3PB=( ? )GB
• 假设《红楼梦》含标点87万字(不含标点853509字),1GB 约等 于(?)部红楼梦?1TB 约等于(?)部?
• 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据 235TB ),1EB = (?)倍美国国会图书馆存储的信息量
大数据时代的到来主要有以下一些原因
• 莫里斯航海图表
UPS的快速定位系统
• UPS快递多效地利用了地理定位数据。为了使总部能及时了在车 辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器 和GPS。这些设备方便了公司监督管理员工并优化行车线路。
• UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来 的。设计了尽量少左转的路线,因为左转要求货车在交叉路口穿 过去,所以更容易出事故。而且,货车往往需要等待一会儿才能 左转,也会更耗油,因此,减少左转使得行车的安全性和效率都 得到了大幅提升。
• 国外:Facebook, twitter
• Facebook2012年拥有大约6.29亿用户,他们通过上千亿的朋友关系网相 互连接。这个巨大的社交网络覆盖了大约10%的全球总人口。
• 国内:新浪微博,微信,人人网
• 社交网络的理论基础
• 1967年,哈佛大学的心理学教授米尔格伦(1934~1984)创立了六度分割 理论,简单地说:“你和任何一个陌生人之间所间隔的人不会超过六个 ,也就是说,最多通过六个人你就能够认识任何一个陌生人。”按照六 度分隔理论,每个个体的 社交圈都不断放大,最后成为一个大型网络 。这是社会性网络(Social Networking)的早期理解。
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展
智能终端的普及 电子商务、社交网络、电子地图等的全面应用
物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及
电子商务、社交网络、电子地图等的全面应用
我国社交网络的发展
• E-mail点对点
• 人与人之间可以通过电子邮件交流
• BBS点对面
• BBS将点对点形式演变为点对面,降低交流成本。实现了个人的分散信息 向可共享的聚合信息的进步。天涯、猫扑、西祠胡同等产品都是BBS时代 的典型企业。2006年年以前,资本主要关注BBS及博客形态的社交网络产 品,但是后期来看,这类企业的发展多不尽人意。
早期的大规模数据应用
• 文本资料的数字化
• 将文本资料转化成数字信息存储,可进行搜索,传播。
• 亚马逊数字图书馆
• 文本资料的数字化 • 亚马逊的数字图书馆
• 地理方位的数字化
• 对地理位置的数据化需要满足一些前提条件:需要能精确地测量相关区 域内的每一块地方;需要一套标准的标记体系;需要收集和记录数据的 工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收 集。只有具备了这些,才能把位置信息当成数据来存储和分析。
节(2Byte,16bit)的存储空间。
一页书籍:10KB 一张低分辨率照片:100KB 一次胸透视:10MB 一张CD光盘:500MB 一部高质量电影:1GB
大数据
• 何为大?—数据度量 1Byte = 8 bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
硬件成本的降低
网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低
网络带宽的提升
云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
相关文档
最新文档