大数据的处理和分析课件(PPT 48页)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 信息滞后两周对一种飞速传播的疾病是致命的, 它使得公共卫生机构在疫情爆发的关键时期难以 有效发挥作用
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 在这种流感爆发的几周前,谷歌的工程师在《自 然》杂志发表引人注目的论文,令公共卫生官员 和计算机科学家感到震惊
– 因为文章不仅预测了流感在全美的传播,而且具 体到特定的地区和州
经关联分析,可发现顾客经常同时购买的商品:尿布牛奶
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 在总数据量相同的情况下,与个别分析独立的小 型数据集相比,将各个小型数据集合并后进行分 析可得出许多额外的信息和数据关系性,可用来 察觉商业趋势、避免疾病扩散、打击犯罪、测定 实时交通路况或判定研究质量等
大数据的处理和分析
课程内容
• 课程内容(本次讲座与下述内容关系不大)
围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力
2. 程序理论关心的问题 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、
– 速度快(Velocity)。 数据往往以数据流的形式动 态快速地产生,具有很强的时效性,用户只有把 握好对数据流的掌控才能有效利用这些数据。例 如,一天之内需要审查500万起潜在的贸易欺诈案 件;需要分析5亿条日实时呼叫的详细记录,以预 测客户的流失率
大数据的魅力
• 大数据的特点
– 体量巨大(Volume) 数据集合的规模不断扩大, 已从GB(1024MB)到TB(1024GB)再到PB级,甚至 已经开始以EB和ZB来计数。至今,人类生产的 所有印刷材料的数据量是200PB。未来10年,全 球大数据将增加50倍,管理数据仓库的服务器的 数量将增加10倍
– 这样的用途正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2009年出现了一种称为甲型H1N1的新流感病毒, 在短短几周内迅速传播开来,全球的公共卫生机 构都担心一场致命的流行病即将来袭
– 美国也要求医生在发现甲型H1N1病例时告知疾病 控制与预防中心。但人们从患病到求医会滞后, 信息传到疾控中心也需要时间,因此通告新病例 往往有一两周的延迟。而且疾控中心每周只进行 一次数据汇总
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
ຫໍສະໝຸດ Baidu
9
面包、尿布、牛奶、盐
10
茶叶、鸡蛋、小甜饼、尿布、牛奶
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 谷歌把5000万条美国人最频繁检索的词条与疾控 中心在2003年到2008年间季节性流感传播期间的 数据进行比较,以确定相关检索词条,并总共处 理了4.5亿(?)个不同的数学模型
– 在把得出的预测与2007年和2008年美国疾控中心 记录的实际流感病例进行对比后,筛选了45条检 索词条的组合,并把它们用于一个特定的数学模 型后,其预测与官方数据相关性高达97%
也上网搜索,谷歌流感趋势项目通过记录搜索有关 “流感”词条的地区和频率,并分析其与流感在时间 和空间上的传播之间的联系,追踪到流感广泛传播 的地区,进而预测流感可能爆发的高危地区。即当 某地区在网上搜寻与流感有关信息的人日益增多, 很可能意味着该地区有许多人患上流感类疾病
– 因为流感趋势项目能够近乎实时地估计流感活动 情况,故它比其他系统能够更早地发现流感疫情
– 谷歌是通过观察人们在网上的搜索记录来完成这 个预测的,这种方法以前一直是被忽略的
– 谷歌保存了多年来所有的搜索记录, 每天有来自全 球30亿条搜索指令(仅谷歌有这样的数据资源),如 此庞大数据资源足以支撑和帮助它完成这项工作
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 原理十分简单 现在大家都有上网搜索信息的习惯,连头痛感冒
– 因此当2009年甲型H1N1流感爆发时,与滞后的官 方数据相比,谷歌成为一个更有效及时的指示者
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 这是当今社会所独有的一种新型能力:以一种前 所未有的方式,通过对海量数据的分析,获得巨 大价值的产品和服务,或深刻的洞见
– 大数据不仅会变革公共卫生,也会变革商业、变 革思维,改变政府与民众关系的方法,… ,开启 重大的时代转型
形式语义、类型论、程序验证、程序分析等
3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资源
讲座提纲
• 大数据的魅力
– 数据挖掘、大数据、大数据案例、大数据的特点
• 大数据时代的思维变革
– 样本和全体、精确性和混杂性、因果关系和相关 关系
• 大数据的处理
– 几种主要处理方式、MapReduce编程模型
– 类型繁多(Variety) 数据种类繁多,并且被分为 结构化、半结构化和非结构化的数据。半结构化 和非结构化数据,包括传感器数据、网络日志、 音频、视频、图片、地理位置信息等,占有量越 来越大,已远远超过结构化数据
大数据的魅力
• 大数据的特点
– 价值密度低(Value)。 数据总体的价值巨大,但 价值密度很低。以视频为例,在长达数小时连续 不断的视频监控中,有用数据可能仅一二秒。另 一极端是各数据都有贡献,但单个数据价值很低
• 大数据的分析
– 关键技术概述、PageRank初步
大数据的魅力
• 数据挖掘
– 数据挖掘的定义 1. 从数据中提取出隐含的过去未知的有价值的潜
在信息 2. 从大量数据或者数据库中提取有用信息的科学
– 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理数据挖掘数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 在这种流感爆发的几周前,谷歌的工程师在《自 然》杂志发表引人注目的论文,令公共卫生官员 和计算机科学家感到震惊
– 因为文章不仅预测了流感在全美的传播,而且具 体到特定的地区和州
经关联分析,可发现顾客经常同时购买的商品:尿布牛奶
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 在总数据量相同的情况下,与个别分析独立的小 型数据集相比,将各个小型数据集合并后进行分 析可得出许多额外的信息和数据关系性,可用来 察觉商业趋势、避免疾病扩散、打击犯罪、测定 实时交通路况或判定研究质量等
大数据的处理和分析
课程内容
• 课程内容(本次讲座与下述内容关系不大)
围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力
2. 程序理论关心的问题 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、
– 速度快(Velocity)。 数据往往以数据流的形式动 态快速地产生,具有很强的时效性,用户只有把 握好对数据流的掌控才能有效利用这些数据。例 如,一天之内需要审查500万起潜在的贸易欺诈案 件;需要分析5亿条日实时呼叫的详细记录,以预 测客户的流失率
大数据的魅力
• 大数据的特点
– 体量巨大(Volume) 数据集合的规模不断扩大, 已从GB(1024MB)到TB(1024GB)再到PB级,甚至 已经开始以EB和ZB来计数。至今,人类生产的 所有印刷材料的数据量是200PB。未来10年,全 球大数据将增加50倍,管理数据仓库的服务器的 数量将增加10倍
– 这样的用途正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2009年出现了一种称为甲型H1N1的新流感病毒, 在短短几周内迅速传播开来,全球的公共卫生机 构都担心一场致命的流行病即将来袭
– 美国也要求医生在发现甲型H1N1病例时告知疾病 控制与预防中心。但人们从患病到求医会滞后, 信息传到疾控中心也需要时间,因此通告新病例 往往有一两周的延迟。而且疾控中心每周只进行 一次数据汇总
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
ຫໍສະໝຸດ Baidu
9
面包、尿布、牛奶、盐
10
茶叶、鸡蛋、小甜饼、尿布、牛奶
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 谷歌把5000万条美国人最频繁检索的词条与疾控 中心在2003年到2008年间季节性流感传播期间的 数据进行比较,以确定相关检索词条,并总共处 理了4.5亿(?)个不同的数学模型
– 在把得出的预测与2007年和2008年美国疾控中心 记录的实际流感病例进行对比后,筛选了45条检 索词条的组合,并把它们用于一个特定的数学模 型后,其预测与官方数据相关性高达97%
也上网搜索,谷歌流感趋势项目通过记录搜索有关 “流感”词条的地区和频率,并分析其与流感在时间 和空间上的传播之间的联系,追踪到流感广泛传播 的地区,进而预测流感可能爆发的高危地区。即当 某地区在网上搜寻与流感有关信息的人日益增多, 很可能意味着该地区有许多人患上流感类疾病
– 因为流感趋势项目能够近乎实时地估计流感活动 情况,故它比其他系统能够更早地发现流感疫情
– 谷歌是通过观察人们在网上的搜索记录来完成这 个预测的,这种方法以前一直是被忽略的
– 谷歌保存了多年来所有的搜索记录, 每天有来自全 球30亿条搜索指令(仅谷歌有这样的数据资源),如 此庞大数据资源足以支撑和帮助它完成这项工作
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 原理十分简单 现在大家都有上网搜索信息的习惯,连头痛感冒
– 因此当2009年甲型H1N1流感爆发时,与滞后的官 方数据相比,谷歌成为一个更有效及时的指示者
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 这是当今社会所独有的一种新型能力:以一种前 所未有的方式,通过对海量数据的分析,获得巨 大价值的产品和服务,或深刻的洞见
– 大数据不仅会变革公共卫生,也会变革商业、变 革思维,改变政府与民众关系的方法,… ,开启 重大的时代转型
形式语义、类型论、程序验证、程序分析等
3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资源
讲座提纲
• 大数据的魅力
– 数据挖掘、大数据、大数据案例、大数据的特点
• 大数据时代的思维变革
– 样本和全体、精确性和混杂性、因果关系和相关 关系
• 大数据的处理
– 几种主要处理方式、MapReduce编程模型
– 类型繁多(Variety) 数据种类繁多,并且被分为 结构化、半结构化和非结构化的数据。半结构化 和非结构化数据,包括传感器数据、网络日志、 音频、视频、图片、地理位置信息等,占有量越 来越大,已远远超过结构化数据
大数据的魅力
• 大数据的特点
– 价值密度低(Value)。 数据总体的价值巨大,但 价值密度很低。以视频为例,在长达数小时连续 不断的视频监控中,有用数据可能仅一二秒。另 一极端是各数据都有贡献,但单个数据价值很低
• 大数据的分析
– 关键技术概述、PageRank初步
大数据的魅力
• 数据挖掘
– 数据挖掘的定义 1. 从数据中提取出隐含的过去未知的有价值的潜
在信息 2. 从大量数据或者数据库中提取有用信息的科学
– 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理数据挖掘数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果