大数据时代的数据挖掘与商务智能(一)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的数据挖掘 与商务智能
火龙果整理 uml.org.cn
1
数据是宝贵的财富,其中蕴含大量有用 的(有助于管理和决策)信息和知识。 计算机和通讯技术的发展,使数据量急 剧增加,人类进入大数据时代。收集、 传输、存储、整合、分析与挖掘数据的 各项技术快速发展。
火龙果整理 uml.org.cn
物联网不仅仅是传感器,物联网是提供支 撑智慧地球的一个基础架构,物联网的存 在使这种基于大数据的采集以及分析变成 了一种可能,这面临着三项挑战。 物联网的边缘计算。 物联网的中间件。 物联网的运营管理平台。
17
无所不在的数据(4)
火龙果整理 uml.org.cn
全球四大卫星导航系统 北斗卫星导航系统 美国的GPS 俄罗斯的格洛纳斯 欧盟的伽利略系统
火龙果整理 uml.org.cn
无所不在的数据(6)
23
火龙果整理 uml.org.cn
网络大数据
网络数据即使不是最原始的大数据源, 也是使用最广泛、认可度最高的大数据 源。网络数据是指用户浏览万维网所产 生的日志信息,是等待分析和挖掘的信 息宝库。 横跨于大量不同行业中的企业组织已经 把那些来自于网站的详细而又处于客户 层面的行为数据源整合入它们自身的企 业数据分析环境中。
大数据现象与新信息世界观 产业界与学术界的关注 “大数据”对社会发展的影响
6
火龙果整理 uml.org.cn
“大数据”的时代背景
从数据谈起
数据无所不在
7
无所不在的数据(1)
火龙果整理 uml.org.cn
• •
70万家企பைடு நூலகம்联网“直报” 统计数据 从2012年2月18日开始, 全国70万家"三上"企业和 房地产开发经营企业将 在统一的数据采集和处 理平台上,通过互联网 直接向国家数据中心或 国家认定的省级数据中 心报送统计数据。
第十、“大数据”推动了对数据处理算法的需求, 提出对数据安全和访问控制的重视,并可有效降低 对现有系统的影响。
14
无所不在的数据(3)
火龙果整理 uml.org.cn
在超市中,数据通过条码扫描机获得。这样的“购 物蓝”数据库由大量的交易记录组成。 15 RFID技术与物联网应用
火龙果整理 uml.org.cn
11
火龙果整理 uml.org.cn
金融业大数据十大趋势
第一、市场数据集变得越来越庞大,业务对数据的 细分粒度要求越来越高,以满足预测模型、业务预 测和交易影响评估的需求。
第二、新的监管和合规要求更强调治理和风险汇报 ,推动了全球性金融机构对更深入和透明的数据分 析需求。
第三、金融机构不断完善自身的企业风险管理框架 ,该基于主数据管理策略开发的框架可协助企业提 高风险透明度,加强风险的可审性和管理力度。
20
无所不在的数据(5)
火龙果整理 uml.org.cn
生物信息学(人类基因组计划) 神经信息学(人类脑计划)
21
生命科学的大数据时代来临
火龙果整理 uml.org.cn
要解决当前生命科学的问题,需要从时空状态 对生老病死进行解读,这就需要大数据,这种 大数据揭示的就是大科学,这种大科学就是人 类发展史上最大的产业。 生命科学已进入大科学、大数据时代,基因资 源是源头。如何去储存这些资源,为未来研究 的使用提供基础成为一个关键问题。 为了适应更庞大数据存储、处理、分析与应用 的要求,深圳华大基因研究院还和国家超算天 津中心、深圳超算中心、广州超算中心等机构 展开战略性合作。下一步,将通过云计算的模 式来组织存储和处理相关数据。 22
13
火龙果整理 第八、大量历史客户支付行为数据的信用风险预测 uml.org.cn 模型正在零售与公司贷款催收中得到大量应用,通 过该技术,银行可以通过对不同客户违约和还款资 料进行分析,对催收次序进行优化。
第九、随着以平板电脑和和智能手机为代表的移动 应用和互联网工具的迅速普及,技术基础设施和网 络在对不同来源、不同标准数据进行处理、编索和 整合方面的压力不断增大。
24
火龙果整理 uml.org.cn
大数据(Big Data)
数据不仅在“量”上疯狂的增长着,在“源” 上也不断的丰富着。 世界上产生的数据,有近 80% 是由个人用户产 生的;据估计,到 2020 年全球将有 500 亿个设 备连入网络,地理位置、网络浏览行为、健康 数据、甚至基因信息等,都成为技术为个体服 务的有效资源,这也意味着商家对每一个用户 都将有精准的了解,真正做到与客户的“零距 离”接触。 正是这种巨大的商业利益的驱使,使得大数据 成为国际一流企业竞相投入使用的竞争利器。
3
火龙果整理 uml.org.cn
大
纲
大数据的时代背景
商务智能与数据科学 基于统计的传统数据分析技术
数据管理与数据挖掘概论
数据挖掘与知识发现技术 典型应用及案例分析
4
火龙果整理 uml.org.cn
第一部分
大数据的时代背景
5
火龙果整理 uml.org.cn
大数据的时代背景
从数据谈起
31
火龙果整理 uml.org.cn
产业界与学术界的关注
本书主要介绍了如何驾驭大数 据浪潮,并详细地介绍了什么 是大数据,大数据为什么重要 ,以及如何应用大数据。
28
火龙果整理 uml.org.cn
产业界与学术界的关注
Data are becoming the new raw material of business: an economic input almost on a par with capital and labor. 数据正逐渐变成商业所需的原材料之一:一 项几乎和资本或劳力一样重要的经济原料。 (Feb. 27th, 2010)
27
火龙果整理 uml.org.cn
产业界与学术界的关注
麦肯锡咨询公司“大数据”研究报告 “Big data: The next frontier for innovation, competition, and productivity” —McKinsey Global Institute, May 2011. 高德纳(Gartner)研究与顾问咨询公司
9
无所不在的数据(2)
火龙果整理 uml.org.cn
低频数据:日数据 高频数据:金融市场 中的逐笔交易数据和 逐秒交易数据。 超高频数据:实时数 据
金融数据(http://www.jrj.com/)
10
金融大数据的挑战与应对
火龙果整理 uml.org.cn
在以网络化和数字化为基本特征的新经 济时代,金融产业日渐回归本质,表现 为金融数据流的产生、交换、存储、分 析以及使用。 大数据对金融业带来了剧烈的挑战冲击 ,我国金融机构需要明确大数据战略的 顶层设计,加强大数据基础设施建设, 实施稳妥的大数据安全策略,方能从容 迎接大数据时代。
国家(省、市)统计局(http://www.stats.gov.cn ) 8
国家统计局推进“大数据”应用
火龙果整理 uml.org.cn
2013年11月19日下午,国家统计局与百度、阿 里巴巴等11家企业签订了大数据战略合作框架 协议,共同推进大数据在政府统计中的应用。
战略合作内容,主要是共同研究探讨建立大数 据应用的统计标准,包括指标定义、口径、范 围、分类等;确定利用企业数据完善、补充政 府统计数据的内容、形式及实施步骤,包括数 据采集、处理、分析、挖掘、发布等。在此基 础上,合作双方将建立战略合作关系。
19
火龙果整理 uml.org.cn
大数据与北斗系统
把短信和导航结合,是中国北斗卫星导航系统的 独特发明。 北斗卫星导航系统的应用目前逐渐形成规模化、 标准化的趋势,已向民用用户全面开放,成功应 用于个人位置服务、气象应用、交通管理、运输 管理、应急救援、精密授时、精细农业等多个行 业。 近期,东南亚四国(泰国、老挝、文莱缅甸)都 于中国政府签订协议,采用我国的北斗导航系统 ,同时中国与巴基斯坦有望在近期签订北斗系统 合作协议,成为第五个使用北斗导航的国家。
12
火龙果整理 第四、金融服务公司都希望能充分利用各种服务交 uml.org.cn 付渠道的海量客户数据,开发新的预测分析模型, 实现对客户消费行为模式进行分析,提高客户转化 率。 第五、在巴西、中国和印度等后发展中市场,经济 和业务增长机会正在超越欧洲和美国,大量投资被 投放到本地和云数据处理基础设施中。 第六、“大数据”在存储和处理框架两方面的优势 将帮助金融服务企业充分掌握业务数据的价值,降 低业务成本并发掘新的套利机会。 第七、面对“大数据”所带来的不断增加的数据量 要求,需要对传统的数据传输工具ETL(提取、转换 和加载)流程进行重新设计。
什么是物联网?
传输
智能
感知
全面感知
利用RFID、传感器、二维码等 能够随时随地采集物体的动态 信息。
可靠传输
通过网络将感知的各种 信息进行实时传送。
智能处理
利用计算机技术,及时地对海量的 数据进行信息控制,真正达到了 人与物的沟通、物与物的沟通。
火龙果整理 uml.org.cn
物联网的大数据挑战
大数据时代,数据分析与数据挖掘作为 一门信息技术,其兴起主要是受数据积 累的增长和对数据分析的需求的驱动。
2
火龙果整理 uml.org.cn
在大数据时代,我们共同探讨数据分析与数 据挖掘的思想、方法和应用前景。 尽量向大家介绍数据分析与数据挖掘的全貌, 给一些资料性的信息。 由于数据分析与数据挖掘涉及的方法广泛, 软件、工具、公司太多,应用太广,此次以 介绍方法为主。
29
火龙果整理 uml.org.cn
产业界与学术界的关注
20世纪大萧条以来,美国作 为世界强国的开放历史,数 据技术浪潮的兴起过程,气 势磅礴,波澜壮阔。美国政 府为什么能,中国到底缺什 么? “大数据”之“大”,并不 仅仅在于“容量之大”,更 大的意义在于:通过对海量 数据的交换、整合和分析, 发现新的知识,创造新的价 值,带来“大知识”、“大 科技”、“大利润”和“大 发展”。 30
2012-7
火龙果整理 uml.org.cn
产业界与学术界的关注
大数据是人们获得新的认知 ,创造新的价值的源泉;大 数据还是改变市场、组织机 构,以及政府与公民关系的 方法。 大数据的核心就是预测。三 个转变。 更多:不是随机样本,而 是全体数据 更杂:不是精确性,而是 混杂性 更好:不是因果关系,而 是相关关系 2013-1
到2020年,北斗卫星导航系统将拥有35颗卫星(已发射16颗), 形成覆盖全球的卫星网络,九省示范应用,LBS。
18
北斗“三步走”的发展战略
火龙果整理 uml.org.cn
GEO(Geosynchronous Eearth Orbit):地球静止轨道卫星 IGSO(Inclined Geosynchronous Satellite Orbit): 倾斜轨道同步卫星 MEO(Medium Earth Orbit):中高轨卫星
25
火龙果整理 uml.org.cn
大数据现象
An Everest Sized Opportunity!
26
数据存储单位及换算关系
火龙果整理 uml.org.cn
容量单位:从K到Y
K—M—G—T—P—E—Z—Y
K Kilo 1K字节 = 1, 024字节 M Meg 1M字节= 1, 048, 576字节 G Giga 1G字节 = 1, 073, 741, 824字节 T Tera 1T字节 = 1, 099, 511, 627, 776字节 P Peta 1P 字节= 1, 125, 899, 906, 842, 624字节 E Exa 1E字节 = 1, 152, 921, 504, 606, 846, 976字节 Z Zetta 1Z字节 = 1, 180, 591, 620, 717, 411, 303, 424字节 Y Yotta 1Y字节 = 1208, 925, 819, 614, 629, 174, 706, 176字节
火龙果整理 uml.org.cn
1
数据是宝贵的财富,其中蕴含大量有用 的(有助于管理和决策)信息和知识。 计算机和通讯技术的发展,使数据量急 剧增加,人类进入大数据时代。收集、 传输、存储、整合、分析与挖掘数据的 各项技术快速发展。
火龙果整理 uml.org.cn
物联网不仅仅是传感器,物联网是提供支 撑智慧地球的一个基础架构,物联网的存 在使这种基于大数据的采集以及分析变成 了一种可能,这面临着三项挑战。 物联网的边缘计算。 物联网的中间件。 物联网的运营管理平台。
17
无所不在的数据(4)
火龙果整理 uml.org.cn
全球四大卫星导航系统 北斗卫星导航系统 美国的GPS 俄罗斯的格洛纳斯 欧盟的伽利略系统
火龙果整理 uml.org.cn
无所不在的数据(6)
23
火龙果整理 uml.org.cn
网络大数据
网络数据即使不是最原始的大数据源, 也是使用最广泛、认可度最高的大数据 源。网络数据是指用户浏览万维网所产 生的日志信息,是等待分析和挖掘的信 息宝库。 横跨于大量不同行业中的企业组织已经 把那些来自于网站的详细而又处于客户 层面的行为数据源整合入它们自身的企 业数据分析环境中。
大数据现象与新信息世界观 产业界与学术界的关注 “大数据”对社会发展的影响
6
火龙果整理 uml.org.cn
“大数据”的时代背景
从数据谈起
数据无所不在
7
无所不在的数据(1)
火龙果整理 uml.org.cn
• •
70万家企பைடு நூலகம்联网“直报” 统计数据 从2012年2月18日开始, 全国70万家"三上"企业和 房地产开发经营企业将 在统一的数据采集和处 理平台上,通过互联网 直接向国家数据中心或 国家认定的省级数据中 心报送统计数据。
第十、“大数据”推动了对数据处理算法的需求, 提出对数据安全和访问控制的重视,并可有效降低 对现有系统的影响。
14
无所不在的数据(3)
火龙果整理 uml.org.cn
在超市中,数据通过条码扫描机获得。这样的“购 物蓝”数据库由大量的交易记录组成。 15 RFID技术与物联网应用
火龙果整理 uml.org.cn
11
火龙果整理 uml.org.cn
金融业大数据十大趋势
第一、市场数据集变得越来越庞大,业务对数据的 细分粒度要求越来越高,以满足预测模型、业务预 测和交易影响评估的需求。
第二、新的监管和合规要求更强调治理和风险汇报 ,推动了全球性金融机构对更深入和透明的数据分 析需求。
第三、金融机构不断完善自身的企业风险管理框架 ,该基于主数据管理策略开发的框架可协助企业提 高风险透明度,加强风险的可审性和管理力度。
20
无所不在的数据(5)
火龙果整理 uml.org.cn
生物信息学(人类基因组计划) 神经信息学(人类脑计划)
21
生命科学的大数据时代来临
火龙果整理 uml.org.cn
要解决当前生命科学的问题,需要从时空状态 对生老病死进行解读,这就需要大数据,这种 大数据揭示的就是大科学,这种大科学就是人 类发展史上最大的产业。 生命科学已进入大科学、大数据时代,基因资 源是源头。如何去储存这些资源,为未来研究 的使用提供基础成为一个关键问题。 为了适应更庞大数据存储、处理、分析与应用 的要求,深圳华大基因研究院还和国家超算天 津中心、深圳超算中心、广州超算中心等机构 展开战略性合作。下一步,将通过云计算的模 式来组织存储和处理相关数据。 22
13
火龙果整理 第八、大量历史客户支付行为数据的信用风险预测 uml.org.cn 模型正在零售与公司贷款催收中得到大量应用,通 过该技术,银行可以通过对不同客户违约和还款资 料进行分析,对催收次序进行优化。
第九、随着以平板电脑和和智能手机为代表的移动 应用和互联网工具的迅速普及,技术基础设施和网 络在对不同来源、不同标准数据进行处理、编索和 整合方面的压力不断增大。
24
火龙果整理 uml.org.cn
大数据(Big Data)
数据不仅在“量”上疯狂的增长着,在“源” 上也不断的丰富着。 世界上产生的数据,有近 80% 是由个人用户产 生的;据估计,到 2020 年全球将有 500 亿个设 备连入网络,地理位置、网络浏览行为、健康 数据、甚至基因信息等,都成为技术为个体服 务的有效资源,这也意味着商家对每一个用户 都将有精准的了解,真正做到与客户的“零距 离”接触。 正是这种巨大的商业利益的驱使,使得大数据 成为国际一流企业竞相投入使用的竞争利器。
3
火龙果整理 uml.org.cn
大
纲
大数据的时代背景
商务智能与数据科学 基于统计的传统数据分析技术
数据管理与数据挖掘概论
数据挖掘与知识发现技术 典型应用及案例分析
4
火龙果整理 uml.org.cn
第一部分
大数据的时代背景
5
火龙果整理 uml.org.cn
大数据的时代背景
从数据谈起
31
火龙果整理 uml.org.cn
产业界与学术界的关注
本书主要介绍了如何驾驭大数 据浪潮,并详细地介绍了什么 是大数据,大数据为什么重要 ,以及如何应用大数据。
28
火龙果整理 uml.org.cn
产业界与学术界的关注
Data are becoming the new raw material of business: an economic input almost on a par with capital and labor. 数据正逐渐变成商业所需的原材料之一:一 项几乎和资本或劳力一样重要的经济原料。 (Feb. 27th, 2010)
27
火龙果整理 uml.org.cn
产业界与学术界的关注
麦肯锡咨询公司“大数据”研究报告 “Big data: The next frontier for innovation, competition, and productivity” —McKinsey Global Institute, May 2011. 高德纳(Gartner)研究与顾问咨询公司
9
无所不在的数据(2)
火龙果整理 uml.org.cn
低频数据:日数据 高频数据:金融市场 中的逐笔交易数据和 逐秒交易数据。 超高频数据:实时数 据
金融数据(http://www.jrj.com/)
10
金融大数据的挑战与应对
火龙果整理 uml.org.cn
在以网络化和数字化为基本特征的新经 济时代,金融产业日渐回归本质,表现 为金融数据流的产生、交换、存储、分 析以及使用。 大数据对金融业带来了剧烈的挑战冲击 ,我国金融机构需要明确大数据战略的 顶层设计,加强大数据基础设施建设, 实施稳妥的大数据安全策略,方能从容 迎接大数据时代。
国家(省、市)统计局(http://www.stats.gov.cn ) 8
国家统计局推进“大数据”应用
火龙果整理 uml.org.cn
2013年11月19日下午,国家统计局与百度、阿 里巴巴等11家企业签订了大数据战略合作框架 协议,共同推进大数据在政府统计中的应用。
战略合作内容,主要是共同研究探讨建立大数 据应用的统计标准,包括指标定义、口径、范 围、分类等;确定利用企业数据完善、补充政 府统计数据的内容、形式及实施步骤,包括数 据采集、处理、分析、挖掘、发布等。在此基 础上,合作双方将建立战略合作关系。
19
火龙果整理 uml.org.cn
大数据与北斗系统
把短信和导航结合,是中国北斗卫星导航系统的 独特发明。 北斗卫星导航系统的应用目前逐渐形成规模化、 标准化的趋势,已向民用用户全面开放,成功应 用于个人位置服务、气象应用、交通管理、运输 管理、应急救援、精密授时、精细农业等多个行 业。 近期,东南亚四国(泰国、老挝、文莱缅甸)都 于中国政府签订协议,采用我国的北斗导航系统 ,同时中国与巴基斯坦有望在近期签订北斗系统 合作协议,成为第五个使用北斗导航的国家。
12
火龙果整理 第四、金融服务公司都希望能充分利用各种服务交 uml.org.cn 付渠道的海量客户数据,开发新的预测分析模型, 实现对客户消费行为模式进行分析,提高客户转化 率。 第五、在巴西、中国和印度等后发展中市场,经济 和业务增长机会正在超越欧洲和美国,大量投资被 投放到本地和云数据处理基础设施中。 第六、“大数据”在存储和处理框架两方面的优势 将帮助金融服务企业充分掌握业务数据的价值,降 低业务成本并发掘新的套利机会。 第七、面对“大数据”所带来的不断增加的数据量 要求,需要对传统的数据传输工具ETL(提取、转换 和加载)流程进行重新设计。
什么是物联网?
传输
智能
感知
全面感知
利用RFID、传感器、二维码等 能够随时随地采集物体的动态 信息。
可靠传输
通过网络将感知的各种 信息进行实时传送。
智能处理
利用计算机技术,及时地对海量的 数据进行信息控制,真正达到了 人与物的沟通、物与物的沟通。
火龙果整理 uml.org.cn
物联网的大数据挑战
大数据时代,数据分析与数据挖掘作为 一门信息技术,其兴起主要是受数据积 累的增长和对数据分析的需求的驱动。
2
火龙果整理 uml.org.cn
在大数据时代,我们共同探讨数据分析与数 据挖掘的思想、方法和应用前景。 尽量向大家介绍数据分析与数据挖掘的全貌, 给一些资料性的信息。 由于数据分析与数据挖掘涉及的方法广泛, 软件、工具、公司太多,应用太广,此次以 介绍方法为主。
29
火龙果整理 uml.org.cn
产业界与学术界的关注
20世纪大萧条以来,美国作 为世界强国的开放历史,数 据技术浪潮的兴起过程,气 势磅礴,波澜壮阔。美国政 府为什么能,中国到底缺什 么? “大数据”之“大”,并不 仅仅在于“容量之大”,更 大的意义在于:通过对海量 数据的交换、整合和分析, 发现新的知识,创造新的价 值,带来“大知识”、“大 科技”、“大利润”和“大 发展”。 30
2012-7
火龙果整理 uml.org.cn
产业界与学术界的关注
大数据是人们获得新的认知 ,创造新的价值的源泉;大 数据还是改变市场、组织机 构,以及政府与公民关系的 方法。 大数据的核心就是预测。三 个转变。 更多:不是随机样本,而 是全体数据 更杂:不是精确性,而是 混杂性 更好:不是因果关系,而 是相关关系 2013-1
到2020年,北斗卫星导航系统将拥有35颗卫星(已发射16颗), 形成覆盖全球的卫星网络,九省示范应用,LBS。
18
北斗“三步走”的发展战略
火龙果整理 uml.org.cn
GEO(Geosynchronous Eearth Orbit):地球静止轨道卫星 IGSO(Inclined Geosynchronous Satellite Orbit): 倾斜轨道同步卫星 MEO(Medium Earth Orbit):中高轨卫星
25
火龙果整理 uml.org.cn
大数据现象
An Everest Sized Opportunity!
26
数据存储单位及换算关系
火龙果整理 uml.org.cn
容量单位:从K到Y
K—M—G—T—P—E—Z—Y
K Kilo 1K字节 = 1, 024字节 M Meg 1M字节= 1, 048, 576字节 G Giga 1G字节 = 1, 073, 741, 824字节 T Tera 1T字节 = 1, 099, 511, 627, 776字节 P Peta 1P 字节= 1, 125, 899, 906, 842, 624字节 E Exa 1E字节 = 1, 152, 921, 504, 606, 846, 976字节 Z Zetta 1Z字节 = 1, 180, 591, 620, 717, 411, 303, 424字节 Y Yotta 1Y字节 = 1208, 925, 819, 614, 629, 174, 706, 176字节