大数据与数据挖掘基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与数据挖掘基本概念
大数据基本概念
大数据特点(4V)
大数据定义
大数据是指从仪器,传感器,互联 网交易,电子邮件,视频,点击流 及其它现有的或将来的数字源所产 生的大型,多样,复杂,纵向和分 布式的数据集 (美国NSF 2012)。
大数据是指用已有的数据库管理工 具,或传统的数据处理方式,难以 解决的超大和复杂的数据集(维基 百科)。
• 规律,作为一种复杂的模式,就体现为流失特征。
商品促销
商品促销
• Target店铺给17岁少女发婴儿尿片和童车的优惠券。
• Target是美国第二大的百货超市,市场经理要求“怎么在孕妇第2个妊娠期就把她们给确 认出来?”
• 建模分析:从一个“迎婴聚会”的登记表中发现了一些极为有趣的数据模式:许多孕妇 在第2个妊娠期会开始买大包装的无香味护手霜,以及大量购买补充钙、镁、锌之类的保 健品。
略 • 产品:数据魔方,淘宝指数 ……
数据魔方与淘宝指数
பைடு நூலகம்像识别
世界杯
百度足球赛事预测模型:对本届世界杯八强和十六强的预测全部正确, 准确度高达100%。小组赛中,其预测准确性达58.33%,要高于微软 语音助手Cortana和必应(Bing)的56.25%。
数据:利用大数据搜索过去5年内全世界987支球队的3.7万场比赛数据, 并将博彩市场数据融入到预测模型中。涉及到19972名球员和1.12亿 条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员 基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还 囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。
大数据时代
大数据时代
新的应用需求
互联网
Facebook , 微 信 , 微博等,亿级用户,状 态更新,每月新增亿级 照片,千万级视频。
公共计算
环保领域数百万传感器的实 时数据传输,“平安”城市中 日新增约1PB监测数据, 大型 公共场所的密集人流监测。
商业服务
全国电子商务网站达 到十几万家,年访客数 达亿级,年交易额几千 亿元。
• 惠普研究院,他们通过抓取Twitter的300万条tweet数据,基于情感分析, 来预测一部电影的票房收入,而结果也是惊人的准确。
淘宝网数据挖掘
• 海量数据(累积数据14P,每日新增数据20T,每天处理1P 数据,包括0.5%新增数据) 11月 11日接受2.15亿用户购物,处理交易1.058亿笔,峰值时达9万笔/分钟
40ZB (泽字节)的数据量约等于地球上沙滩上所有沙粒总和的40倍
小知识
1Byte:一个英文字母 1KB:一个笑话 1MB:一个短篇小說的文字內容 1GB:贝多芬第五乐章交响曲的乐谱內容 1TB:一家大型医院中所有的X光图片资讯量 1PB:50%的全美学术研究图书馆藏书咨询内容
1EB:5EB相当于至今全世界人类所讲过的话 1ZB:全世界海滩上的沙子数量总和 1YB:7000位人类体內的微细胞总和
数据挖掘研究什么
• 从各种类型的海量数据中 • 根据应用目标 • 高效的挖掘出 • 有价值的模式、规律、知识等
数据挖掘在技术上的定义
公认的是W. J. Frawley等给出的定义:
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐 含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
数据源是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要 可接受、可理解、可运用;
数据挖掘从商业角度上的定义
• 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。
• 数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决 策,也是对数据内在和本质的高度抽象与概括,是对数据从理性认识到感性 认识的升华。
全球的大数据
IDC调查的研究报告:全球在2010 年正式进入ZB 时代 2012年全球信息化资料量为2.8ZB (泽字节),其中美国约占全球数据量的32%,西欧占 19%,中国占13%,印度占4%,其他市场合占32% 2020年全球的数据资料存储量将达到40ZB(泽字节),中国将占全球数据产量的22%
• “怀孕预测指数”:选出了25种典型商品的消费数据,构建模型。
• 通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,并早早把对孕 妇的优惠广告加在其他广告内,装作“不知情”地发给顾客。
• 效果:孕期用品销售呈现了爆炸性的增长。
情感分析
• Google心情分析工具,它能从网民的上千万条留言中分类出6种心情,进 而对道琼斯工业指数的变化进行预测,准确率竟达到87%。
新的应用需求
用户行为分析 精准广告分析 海量Web搜索
环境预测分析 智能交通预测 应急人群仿真
销售策略制定 市场行为导向 金融市场分析
大数据时代与各行业的关系
数据挖掘基本概念
数据挖掘中的5W问题
客户流失分析
• 电信公司: 经常面临的问题就是客户流失。需要了解哪些客户容易流失,原因 是什么,能不能在流失之前就找到他们,建立预警系统,分析流失客户和忠诚 客户的差别是什么,即流失特征。例如每月打电话时长递减,投诉后没有反馈 等。通过数据挖掘找出这些特征后,就可以选出可能会流失的客户,争取挽留。
• 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
交叉学科的理论基础
数据挖掘是一门交叉学科,受多个学科影响。它把人们对数据的应用从低层次的简单查 询,提升到从数据库或数据仓库中挖掘知识,提供决策支持,汇集了包括数据库技术、 数理统计、人工智能技术、可视化技术等多学科的知识。
• 真实(淘宝网上的海量数据都是真实的成交数据,具有很高的商业价值)的行业数据挖掘,挖 掘潜在的商机
• 目前已经展开的项目:消费者研究,商家经营策略研究,基于语义分析的评论研究,行业销量 预测等。
• 消费者研究:针对消费者购物行为,实施个性化推荐 • 商家经营策略研究:百万以上的活跃卖家,通过对卖家历史经营数据的挖掘,探寻商家经营策
大数据基本概念
大数据特点(4V)
大数据定义
大数据是指从仪器,传感器,互联 网交易,电子邮件,视频,点击流 及其它现有的或将来的数字源所产 生的大型,多样,复杂,纵向和分 布式的数据集 (美国NSF 2012)。
大数据是指用已有的数据库管理工 具,或传统的数据处理方式,难以 解决的超大和复杂的数据集(维基 百科)。
• 规律,作为一种复杂的模式,就体现为流失特征。
商品促销
商品促销
• Target店铺给17岁少女发婴儿尿片和童车的优惠券。
• Target是美国第二大的百货超市,市场经理要求“怎么在孕妇第2个妊娠期就把她们给确 认出来?”
• 建模分析:从一个“迎婴聚会”的登记表中发现了一些极为有趣的数据模式:许多孕妇 在第2个妊娠期会开始买大包装的无香味护手霜,以及大量购买补充钙、镁、锌之类的保 健品。
略 • 产品:数据魔方,淘宝指数 ……
数据魔方与淘宝指数
பைடு நூலகம்像识别
世界杯
百度足球赛事预测模型:对本届世界杯八强和十六强的预测全部正确, 准确度高达100%。小组赛中,其预测准确性达58.33%,要高于微软 语音助手Cortana和必应(Bing)的56.25%。
数据:利用大数据搜索过去5年内全世界987支球队的3.7万场比赛数据, 并将博彩市场数据融入到预测模型中。涉及到19972名球员和1.12亿 条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员 基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还 囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。
大数据时代
大数据时代
新的应用需求
互联网
Facebook , 微 信 , 微博等,亿级用户,状 态更新,每月新增亿级 照片,千万级视频。
公共计算
环保领域数百万传感器的实 时数据传输,“平安”城市中 日新增约1PB监测数据, 大型 公共场所的密集人流监测。
商业服务
全国电子商务网站达 到十几万家,年访客数 达亿级,年交易额几千 亿元。
• 惠普研究院,他们通过抓取Twitter的300万条tweet数据,基于情感分析, 来预测一部电影的票房收入,而结果也是惊人的准确。
淘宝网数据挖掘
• 海量数据(累积数据14P,每日新增数据20T,每天处理1P 数据,包括0.5%新增数据) 11月 11日接受2.15亿用户购物,处理交易1.058亿笔,峰值时达9万笔/分钟
40ZB (泽字节)的数据量约等于地球上沙滩上所有沙粒总和的40倍
小知识
1Byte:一个英文字母 1KB:一个笑话 1MB:一个短篇小說的文字內容 1GB:贝多芬第五乐章交响曲的乐谱內容 1TB:一家大型医院中所有的X光图片资讯量 1PB:50%的全美学术研究图书馆藏书咨询内容
1EB:5EB相当于至今全世界人类所讲过的话 1ZB:全世界海滩上的沙子数量总和 1YB:7000位人类体內的微细胞总和
数据挖掘研究什么
• 从各种类型的海量数据中 • 根据应用目标 • 高效的挖掘出 • 有价值的模式、规律、知识等
数据挖掘在技术上的定义
公认的是W. J. Frawley等给出的定义:
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐 含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。
数据源是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要 可接受、可理解、可运用;
数据挖掘从商业角度上的定义
• 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大 量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。
• 数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决 策,也是对数据内在和本质的高度抽象与概括,是对数据从理性认识到感性 认识的升华。
全球的大数据
IDC调查的研究报告:全球在2010 年正式进入ZB 时代 2012年全球信息化资料量为2.8ZB (泽字节),其中美国约占全球数据量的32%,西欧占 19%,中国占13%,印度占4%,其他市场合占32% 2020年全球的数据资料存储量将达到40ZB(泽字节),中国将占全球数据产量的22%
• “怀孕预测指数”:选出了25种典型商品的消费数据,构建模型。
• 通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,并早早把对孕 妇的优惠广告加在其他广告内,装作“不知情”地发给顾客。
• 效果:孕期用品销售呈现了爆炸性的增长。
情感分析
• Google心情分析工具,它能从网民的上千万条留言中分类出6种心情,进 而对道琼斯工业指数的变化进行预测,准确率竟达到87%。
新的应用需求
用户行为分析 精准广告分析 海量Web搜索
环境预测分析 智能交通预测 应急人群仿真
销售策略制定 市场行为导向 金融市场分析
大数据时代与各行业的关系
数据挖掘基本概念
数据挖掘中的5W问题
客户流失分析
• 电信公司: 经常面临的问题就是客户流失。需要了解哪些客户容易流失,原因 是什么,能不能在流失之前就找到他们,建立预警系统,分析流失客户和忠诚 客户的差别是什么,即流失特征。例如每月打电话时长递减,投诉后没有反馈 等。通过数据挖掘找出这些特征后,就可以选出可能会流失的客户,争取挽留。
• 按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未 知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
交叉学科的理论基础
数据挖掘是一门交叉学科,受多个学科影响。它把人们对数据的应用从低层次的简单查 询,提升到从数据库或数据仓库中挖掘知识,提供决策支持,汇集了包括数据库技术、 数理统计、人工智能技术、可视化技术等多学科的知识。
• 真实(淘宝网上的海量数据都是真实的成交数据,具有很高的商业价值)的行业数据挖掘,挖 掘潜在的商机
• 目前已经展开的项目:消费者研究,商家经营策略研究,基于语义分析的评论研究,行业销量 预测等。
• 消费者研究:针对消费者购物行为,实施个性化推荐 • 商家经营策略研究:百万以上的活跃卖家,通过对卖家历史经营数据的挖掘,探寻商家经营策