大数据与数据挖掘培训课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我国社交网络的发展
• E-mail点对点
• 人与人之间可以通过电子邮件交流
• BBS点对面
• BBS将点对点形式演变为点对面,降低交流成本。实现了个人的分散信息 向可共享的聚合信息的进步。天涯、猫扑、西祠胡同等产品都是BBS时代 的典型企业。2006年年以前,资本主要关注BBS及博客形态的社交网络产 品,但是后期来看,这类企业的发展多不尽人意。
大数据与数据挖掘
第二部分 大数据
大数据wenku.baidu.com系
• 大数据概念 • 大数据行业应用 • 数据分析与挖掘 • 大数据技术
数据的大小
• 物理属性的数据
公斤、公里、升等
• 信息属性的数据
位 (Bit)是量度信息的基本单位,只有0、1两种二进制状态。 8位(bit)组成一个字节 (1Byte,8bit),能够容纳一个英文字符,而一个汉字需要两个字节
硬件成本的降低
网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低
网络带宽的提升
云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
• 国外:Facebook, twitter
• Facebook2012年拥有大约6.29亿用户,他们通过上千亿的朋友关系网相 互连接。这个巨大的社交网络覆盖了大约10%的全球总人口。
• 国内:新浪微博,微信,人人网
• 社交网络的理论基础
• 1967年,哈佛大学的心理学教授米尔格伦(1934~1984)创立了六度分割 理论,简单地说:“你和任何一个陌生人之间所间隔的人不会超过六个 ,也就是说,最多通过六个人你就能够认识任何一个陌生人。”按照六 度分隔理论,每个个体的 社交圈都不断放大,最后成为一个大型网络 。这是社会性网络(Social Networking)的早期理解。
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升
云计算的兴起
网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起
网络技术的发展
智能终端的普及 电子商务、社交网络、电子地图等的全面应用 物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展
智能终端的普及 电子商务、社交网络、电子地图等的全面应用
物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及
电子商务、社交网络、电子地图等的全面应用
早期的大规模数据应用
• 文本资料的数字化
• 将文本资料转化成数字信息存储,可进行搜索,传播。
• 亚马逊数字图书馆
• 文本资料的数字化 • 亚马逊的数字图书馆
• 地理方位的数字化
• 对地理位置的数据化需要满足一些前提条件:需要能精确地测量相关区 域内的每一块地方;需要一套标准的标记体系;需要收集和记录数据的 工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收 集。只有具备了这些,才能把位置信息当成数据来存储和分析。
• 莫里斯航海图表
UPS的快速定位系统
• UPS快递多效地利用了地理定位数据。为了使总部能及时了在车 辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器 和GPS。这些设备方便了公司监督管理员工并优化行车线路。
• UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来 的。设计了尽量少左转的路线,因为左转要求货车在交叉路口穿 过去,所以更容易出事故。而且,货车往往需要等待一会儿才能 左转,也会更耗油,因此,减少左转使得行车的安全性和效率都 得到了大幅提升。
(2Byte,16bit)的存储空间。
一页书籍:10KB 一张低分辨率照片:100KB 一次胸透视:10MB 一张CD光盘:500MB 一部高质量电影:1GB
大数据
• 何为大?—数据度量 1Byte = 8 bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
• 社交网络的发展
• 简单地说,社交网络是在互联网上与其他人相联系的一个平台。 社交网 络站点通常围绕用户的基本信息而运作,用户基本信息是指有关用户喜 欢的事、不喜欢的事、兴趣、爱好、学校、职业或任何其他共同点的集 合。通常,这些站点提供不同级别的隐私控制。社交网络的目标是,通 过一个或多个共同点将一些人相互联系起来而建立一个群组。
物联网
大数据时代的到来主要有以下一些原因
硬件成本的降低 网络带宽的提升 云计算的兴起 网络技术的发展 智能终端的普及 电子商务、社交网络、电子地图等的全面应用
物联网
练习题
• 促进大数据技术到来的主要因素有那些? • 大数据时代的到来主要是由于网上的数据量大规模增加( )
• 大数据不仅是网络业的未来,而且是整个社会和经 济发展的未来。
练习题
• 3PB=( ? )GB • 假设《红楼梦》含标点87万字(不含标点853509字),1GB 约等
于(?)部红楼梦?1TB 约等于(?)部? • 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据
235TB ),1EB = (?)倍美国国会图书馆存储的信息量
大数据时代的到来主要有以下一些原因