大数据的处理和分析计算机科学导论十讲59页PPT
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2009年谷歌把研究成果发表在《自然》杂志上, 这篇引人注目的论文令公共卫生官员和计算机科 学家感到震惊
– 文章不仅预测了流感在全美的传播,而且具体到 特定的地区和州
– 并且预测非常及时,不像疾病预防控制中心的信 息会有一两周的延迟(因为人们从患病到求医会 滞后,信息从医院传到疾控中心也需要时间,疾 控中心每周只进行一次数据汇总)
– GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项
– 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
11
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 关键技术概述、PageRank初步
4
大数据的魅力
• 数据挖掘
– 数据挖掘的定义 1. 从数据中提取出隐含的、过去未知的、有价值
的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学
– 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理数据挖掘数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结5果
• 这样的搜索引擎无疑极大地方便了人们的生活
和工作
8
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息
1、不要轻言放弃,否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
大数据的处理和分析计算机科学导论十讲 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
9
面包、尿布、牛奶、盐
10
茶叶、鸡蛋、小甜饼、尿布、牛奶
经关联分析,可发现顾客经常同时购买的商品:尿布牛7 奶
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 例如: Google每天有来自全球30亿条搜索指令
• 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有
6
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
9
面包、尿布、牛奶、盐
10
Байду номын сангаас
茶叶、鸡蛋、小甜饼、尿布、牛奶
– 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
– 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合
– 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97%
– 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的
小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 – 这正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法
10
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2008 年 11 月 谷 歌 公 司 启 动 “ 谷 歌 流 感 趋 势 ”(Google Flu Trends, GFT) 项目
– 信息滞后两周对一种飞速传播的疾病是致命的13
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 在论文发表后的几周内,出现了一种称为甲型 H1N1的新流感病毒,它在短短几周内迅速传播开 来,全球的公共卫生机构都担心一场致命的流行 病即将来袭
大数据的处理和分析
计算机科学导论第十讲
计算机科学技术学院 陈意云
0551-63607043, /~yiyun/
课程内容
• 课程内容
围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 本次讲座与这些内容关系 2. 程序理论关心的问题 不大 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等
3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资3源
讲座提纲
• 大数据的魅力
– 数据挖掘、大数据、大数据案例、大数据的特点
• 大数据时代的思维变革
– 样本和全体、精确性和混杂性、因果关系和相关 关系
• 大数据的处理
– 几种主要处理方式、MapReduce编程模型
• 大数据的分析
– 如果这些搜索数据能准确地反映人们的生活和工
作状况,那么就有可能利用这些信息来察觉商业
趋势、避免疾病扩散、打击犯罪、测定实时交通
路况和预测选举结果等
9
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2009年谷歌把研究成果发表在《自然》杂志上, 这篇引人注目的论文令公共卫生官员和计算机科 学家感到震惊
– 文章不仅预测了流感在全美的传播,而且具体到 特定的地区和州
– 并且预测非常及时,不像疾病预防控制中心的信 息会有一两周的延迟(因为人们从患病到求医会 滞后,信息从医院传到疾控中心也需要时间,疾 控中心每周只进行一次数据汇总)
– GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项
– 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
11
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 关键技术概述、PageRank初步
4
大数据的魅力
• 数据挖掘
– 数据挖掘的定义 1. 从数据中提取出隐含的、过去未知的、有价值
的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学
– 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理数据挖掘数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结5果
• 这样的搜索引擎无疑极大地方便了人们的生活
和工作
8
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息
1、不要轻言放弃,否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人,常是愿意 去做,并愿意去冒险的人。“稳妥”之船,从未能从岸边走远。-戴尔.卡耐基。
梦 境
3、人生就像一杯没有加糖的咖啡,喝起来是苦涩的,回味起来却有 久久不会退去的余香。
大数据的处理和分析计算机科学导论十讲 4、守业的最好办法就是不断的发展。 5、当爱不能完美,我宁愿选择无悔,不管来生多么美丽,我不愿失 去今生对你的记忆,我不求天长地久的美景,我只要生生世世的轮 回里有你。
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
9
面包、尿布、牛奶、盐
10
茶叶、鸡蛋、小甜饼、尿布、牛奶
经关联分析,可发现顾客经常同时购买的商品:尿布牛7 奶
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息
– 例如: Google每天有来自全球30亿条搜索指令
• 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有
6
大数据的魅力
• 数据挖掘
– 典型事例:购物篮分析
顾客
一次购买商品
1
面包、黄油、尿布、牛奶
2
咖啡、糖、小甜饼、鲑鱼
3
面包、黄油、咖啡、尿布、牛奶、鸡蛋
4
面包、黄油、鲑鱼、鸡
5
鸡蛋、面包、黄油
6
鲑鱼、尿布、牛奶
7
面包、茶叶、糖、鸡蛋
8
咖啡、糖、鸡、鸡蛋
9
面包、尿布、牛奶、盐
10
Байду номын сангаас
茶叶、鸡蛋、小甜饼、尿布、牛奶
– 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
– 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合
– 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97%
– 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的
小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 – 这正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法
10
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 2008 年 11 月 谷 歌 公 司 启 动 “ 谷 歌 流 感 趋 势 ”(Google Flu Trends, GFT) 项目
– 信息滞后两周对一种飞速传播的疾病是致命的13
大数据的魅力
• 大数据案例—谷歌预测冬季流感的传播
– 在论文发表后的几周内,出现了一种称为甲型 H1N1的新流感病毒,它在短短几周内迅速传播开 来,全球的公共卫生机构都担心一场致命的流行 病即将来袭
大数据的处理和分析
计算机科学导论第十讲
计算机科学技术学院 陈意云
0551-63607043, /~yiyun/
课程内容
• 课程内容
围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 本次讲座与这些内容关系 2. 程序理论关心的问题 不大 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等
3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资3源
讲座提纲
• 大数据的魅力
– 数据挖掘、大数据、大数据案例、大数据的特点
• 大数据时代的思维变革
– 样本和全体、精确性和混杂性、因果关系和相关 关系
• 大数据的处理
– 几种主要处理方式、MapReduce编程模型
• 大数据的分析
– 如果这些搜索数据能准确地反映人们的生活和工
作状况,那么就有可能利用这些信息来察觉商业
趋势、避免疾病扩散、打击犯罪、测定实时交通
路况和预测选举结果等
9
大数据的魅力
• 大数据
– 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息