第1章 大数据挖掘及应用概论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
难道你不是在每天享受云计算吗?
腾讯视频 微信 阿里 云安全 E代驾 ……
互联网突破了图灵机的描述范畴
汽车电子
GPS
导航
iPhone
移动电话
PDAs DCs TVs PCs
智能家电
传感器
。。。
互联网上的云计算以交互为中心,此计算机可以影响彼计算机的运行状 态,和物理距离几乎无关; CPU只是网络上一个个自治节点中的可计算部分; 节点可以是异构的,节点之间可存在弱耦合的关系。 集中统一的调度,顺序的、确定的输入,不能描述互联网的工作机理 和交互机理。互联网不等同于一台虚拟的图灵机模型。
引子
2016年每分钟产生的海量数据
6
从图灵计算到云计算的演化
图灵论文 计算机 软件工程 互联网 万维网 网络科学 维基百科 (1936年) (1944年) (1968年) (1984年) (1989年) (1998年) (2001年)
Semantic Web
eCommerce Utility Computing 2000 Cloud Computing Big Data 2008
31
数据挖掘的主要功能分类
32
数据挖掘运用的技术
数据挖掘研究与开发的边缘学科特性,极大地促进 了数据挖掘的成功和广泛应用。近年来,数据挖掘 吸纳了诸如统计学、机器学习、模式识别、数据库 和数据仓库、信息检索、可视化、算法分析、高性 能计算等许多领域的大量技术。
33
大数据挖掘
大数据挖掘在一定程度上降低了对传统数据挖掘 Biblioteka Baidu型以及算法的依赖。 大数据挖掘在一定程度上降低了因果关系对传统 数据挖掘结果精度的影响。 大数据挖掘能够在最大程度上利用互联网上记录 的用户行为数据进行分析。
• 2014年,浙医二院神经外科与浙大求是高等研究院合作的 “脑机接口临床转化应用课题组”实现意念控制机械手臂, 首次用病人颅内植入电极意念控制机械手,并成功完成高 难度的肢体运动“石头、剪刀、布”这一猜拳动作。
人融入到计算系统:常识性知识表达
实现高级智能系统的关键挑战:常识性知识的表达与处理
“Cloud computing”条目
“Cloud computing”条目
reCAPTCHA:人机交互的验证码与OCR系统
CMU( 卡耐基梅隆大学 ) 设计的一个系统, 借助于人类大脑对难以识别的字符的辨 别能力,进行对古旧书籍中难以被 OCR(光学自动识别)识别的字符进行辨别 的技术。 reCAPTCHA 利 用 CAPTCHA 的 原 理 ( 全 自动区分计算机和人类的图灵测试 ) ,借 助于人类大脑对难以识别的字符的辨别 能力,进行对古旧书籍中难以被 OCR 识 别的字符进行辨别的技术。 也 就 是 说 , reCAPTCHA 不 仅 可 以 反 spam( 垃圾邮件 ) ,同时还可以帮助进行 古籍的数字化工作。
----2013年上海工博会“院士圆桌会议”
物质、能量、环境资源不能浪费, 数据资源同样也不能浪费!
大数据智能分析处理面临的挑战
系统平台:大数据集成、大数据隐私、大数据能耗、大数 据管理 分析处理:大数据质量、大数据实时性、大数据采样、大 数据不一致性、大数据超高维性、大数据不确定性
科学范式 第一范式 第二范式 年代 数千年前,亚里 士多德时代 数百年前,牛顿 时代 方法 基于经验的 基于理论研究的 用途 用于描述自然现象 着眼于建立数学模型并进行推广 借助强大的计算能力,可以模拟复杂的 自然现象 利用仪器获取数据或者利用模拟器生成 数据,再利用软件进行处理,将知识或 信息存储在计算机中,科学家利用数据 管理技术和统计方法进行科学发现。
数据信息,人类并没有充分利用
卫星遥感图像,目前用得上的不到5%,剩下的95%都被浪 费了。 虽然人类基因组测序已完成,但其中,现在能读懂的还不到 10%,大部分仍是“天书”。全世界的生命科学界都把基因 测序搬到中国。原因很简单——中国有足够大的样本。然而, 在中国做完测序,数据却被对方拿走、分析。
云计算不是互联网连接起来的一大堆计算机; 云计算改变了人类的生活方式、工作方式和休闲方式,改变了社会的 政治、经济、教育、商务、健康与娱乐机制,已经成为推动新的技术 发明和社会变革的最强大的发动机。
*《国务院关于促进云计算创新发展培育信息产业新业态的意见》国发〔2015〕5号,2015.1.30
Wiki 2001
2007
云计算
大数据
(2007年)
(2008年)
Internet WWW 1989
Mosaic
1999
1995
1993
TCP/IP
ARPANET
1984 WEB Services WEB IP V4 V6 web1.0 web2.0 , web3.0
Packet Hypertext Switching 1965 1964
人成为了OCR工具!
慕课
• 慕课(Massive open online course,MOOC),是一种 在线课程开发模式,它发展于过去的那种发布资源、 学习管理系统以及将学习管理系统与更多的开放网络 资源综合起来的新的课程开发模式。
• 2013年Coursera(目前发展最大的MOOC平台)上注册 的中国用户共有13万人,在2014年达到了65万人。 • 国际MOOC三巨头: Coursera、 edX、 Udacity • 中 国主要 MOOC 平台 :中国大 学 MOOC 、 慕 课网 (imooc)、酷学习(kuxuexi)、 MOOC中国。
• 2015年春节的关键词:“摇一摇、抢红包!”;
• 春节期间微信红包收发总量为32.7亿次,“春晚摇一摇”互动总量超过 110亿次( 22时34分春晚摇一摇互动出现峰值,达到了8.1亿次/分钟);
• 微信红包的发放者,不光是机器,还有大量人的参与;
• 接收者如何判断是人还是机器自动发出的红包?
人融入到计算系统:脑机接口
大数据挖掘及应用
第一章 概论
信息工程学院 高俊波
1
目录
1.1 大数据智能分析处理的普及及应用 1.2 大数据的发展及挑战 1.3 数据挖掘概述
1.4 大数据挖掘的计算框架
1.5 大数据时代“互联网+”的未来:智能互联
2
引子
国务院关于促进云计算创新发展 培育信息产业新业态的意见 国发〔2015〕5号
维基百科
维基之父
Jimmy Wales 1966.8.7--
Lawrence Sanger 1968.7.16 --
Wikipedia 2001年1月15日正式问世,是目前世界上最大的 Wiki系统。其创始人吉米· 威尔士和拉里· 桑格的豪言壮语: “让世界上每个人都能自由分享人类知识的总和。”
维基百科
人类对传统二元空间的认识,形成了自然科学、社会科学,对 数据空间的认识将逐渐形成“数据科学/计算科学”。
在数据空间演化成熟,并被人类深入认识之前,实践和技术的发展正 在倒逼科学的发展,正如现代科学技术的诞生与形成过程。 数据/计算科学,未来也将反过来推动人类文明的进步,正如现代航空 航天、核能技术、电子技术等诸多现代科技对社会发展的推动。
数据/计算科学?
社会科学
网民
人
三元空间世界
世界的演化发展经历了“一元空间”、“二元空间”,正在向 “三元空间”发展:
人类社会诞生之前,世上仅有物理空间(一元); 人类社会形成和发展,产生了社会空间(二元); 人类社会进入信息社会,正逐步形成数据空间(三元):数据成为物质 与能源之外的新型资源。
25
大数据何在?
互联网、云计算的发展催生大数据的出现 事实上,大数据已出现千万年
高精度智能视听觉传感器早已诞生:眼睛、耳朵 遗憾的是:没有数据化、互联
互联网大数据 行业大数据:金融、医疗、保险、交通、气象、制 造、……
物理-数据-社会空间世界
物理空间
数据空间
社会空间
自然科学
• ……,着力突破云计算平台大规模资源管理与调度、运行监 控与安全保障、艾字节级数据存储与处理、大数据挖掘分析 等关键技术,提高相关软硬件产品研发及产业化水平。
3
引子
云计算、大数据成为热搜词
4
云计算是什么?
政界定义:云计算是推动信息技术能力实现按需供给、促进 信息技术和数据资源充分利用的全新业态,是信息化发展的 重大变革和必然趋势。* 学界定义:云计算是基于互联网的相关服务的增加、使用和 交付模式,通常涉及通过互联网来提供动态易扩展且经常是 虚拟化的资源。 观点:云计算是人机交互的互联计算系统。
网络建立起一个人与人可以充分沟通的公用计算环境, 把群体智能融入网络。 大众既是系统的使用者,也是系统的开发者;既是服务 的消费者,也是服务的提供者。 任何用户都可以对自己感兴趣的条目进行编辑,参与到任 意条目中贡献任何的看法。 尽管每个人在条目编辑中可能会出现错误,甚至恶意篡 改,但是在大众参与的情况下,错误与恶意篡改的部分 会被很快纠正过来,大多数条目都保持了相当高的水平。 这与人类社会的进化演化过程何其相似!
1969
1974
Everything is over
人机交互的云计算
传统的网络计算主要是基于互联网的计算;
人机交互的互联计算,强调人对云计算的参与和贡献;
人也作为计算资源介入到计算中去,可以参与云计算的输入、计算处理 过程和输出;
例如:微信红包,
脑机接口, 常识知识表达, ……
人融入到计算系统:微信红包
数量(Volume)、种类(Variety)、速度 (Velocity)、价值(Value)、准确性(Veracity)
大数据的发展及挑战 稠密与稀疏共存:局部稠密与全局稀疏 冗余与缺失并在:大量冗余与局部缺失 显式与隐式均有:大量显式与丰富隐式 静态与动态忽现:动态演进与静态关联 多元与异质共处:多元多变与异质异性 量大与可用矛盾:量大低值与可用稀少
慕课
• 慕课(Massive open online course,MOOC),是一种 在线课程开发模式,它发展于过去的那种发布资源、 学习管理系统以及将学习管理系统与更多的开放网络 资源综合起来的新的课程开发模式。
教育云计算
• 名师共享:名师的高质量教育资源通过互联网为全世界希 望学习的人们所共享。 • 智能导学:通过短视频、碎片化、互动式智能导学等技术 手段继承过去面对面传道、授业、解惑。 • 教育学变革:教师面临下岗失业了吗?? • 什么样的情况下学习MOOC最好?学生们三五成群,一边 听、一边讨论一边学、一边进行创造社会财富。 • 通过MOOC实现了教育全过程的数字化,把教师的传道授 业教学过程、学生的问学求道过程、教师和之间的研讨过 程全部教学活动都存储为海量的非结构化大数据,适合在 云计算环境中开展在线教育。 大学职能:培养人才、科学研究、服务社会 (传授知识、生产知识、使用知识)
图灵计算与云计算的比较 图灵计算
重点关注CPU和操作系统 确定的计算 最优解 统一的调度 机械的执行 可计算模型 人不参与的计算
云计算
重点关注节点间的交互 不确定的计算 尽可能的解 无集中控制、局域偏好依附 有主体行为能力 服务计算模型 人参与的计算
大数据定义
大数据:是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的海量、高增长率和多样化的信息资产。
第三范式
第四范式 (eScience)
几十年前
基于计算的
当今
基于数据探索的
30
知识发现
(1)数据清理:消除噪声和删除不一致数据。 (2)数据集成:多种数据源可以组合在一起,形成数据 集市或数据仓库。 (3)数据选择:从数据库中提取与分析任务相关的数据。 (4)数据变换:通过汇总或聚集操作,把数据变换统一 成适合挖掘的形式。 (5)数据挖掘:使用智能方法提取数据模式。 (6)模式评估:根据某种兴趣度量,识别代表知识的真 正有趣的模式。 (7)知识表示:使用可视化和知识表示技术,向用户提 供挖掘的知识。
数量庞大;
无法用自然语言清晰地描述;
无法形式化描述; 边界界定困难。
人机交互的互联计算可望解决这一难题:数据处理不仅是机器,
还有人的参与(机器人VS人机器,计算机VS计算人)。
云计算引发的社会进步
1. 维基百科:对传统百科全书的挑战
2. reCAPTCHA:一箭双雕的跨界思维
3. 慕课:云计算对传统教育模式的变革