大数据与机器学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何对数据进行挖掘?
数据挖掘步骤
问题 定义 数据收集
数据挖掘 算法执行
结果解释 和评估
数据挖掘案例介绍
啤酒加尿布
• 地点:沃尔玛在美国加州的某连锁店 • 起因:每天销售信息和顾客基本情况的数据库中发现购买婴儿尿布的顾 客多是男性,而且往往也同时购买啤酒 • 经过:重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在两 者之间放上土豆之类的佐酒小食品和男性生活用品 • 结果:上述几种商品销量大增
目录
大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
广告收入是早期的Google主要经济来源,如何精准的投放广告成为焦点
谷歌利用流量优势,利用大数据来优化广告投放策略
记录淘宝网用户的搜索、浏览、购买行为,为用户推荐商品 搜集用户行为,更好的设计淘宝网的用户体验 双11晚会,大数据显示各个省份的销量份额,包括用户购买习 惯等信息
身处大数据时代
目录
wk.baidu.com 大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
互联网发展趋势
大数据的特性
体量Volume 多样性Variety
价值密度Value
已经不是以我们所熟悉G或T为单位来衡量,而是以P、E或 Z为计量单位 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、 报告等)
行业人才需求
摘自搜狐
马云:未来最大的能源不是石油而是大数据
Thanks!
ASG Server ASG Server
To Other Grid Nodes
ASG Server ASG Server Grid Server Grid Server Grid Server ASG Server Grid Server 移动终端 ASG Server ASG Server 移动终端 ASG Server
目录
大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
数据挖掘
产生背景
• 随着数据库技术的飞速发展,快速增长 的海量数据收集、存放在大量数据储存 库中 • 理解他们已经远远超出人的能力 • 数据丰富,但信息缺乏
•推理
复杂的推理、判断能力(智能)
好人与坏人?
好猫与坏猫?
数据
知识
•决策
•识别
机器学习形象的展示
机器学习的案例
alphaGo战胜李世石
Google无人驾驶
目录
大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
7-11的店面普遍不大,但里面的商品基本都能满足我们日常需要
物流信息会详细记录各个店铺的详细情况,包括进货商品种类、数量等,
甚至还包括店铺所处地区的天气、道路等情况来优化物流配送
会根据用户的骑车行为,包括何时何地骑车,从哪到哪,骑行多久,各
个时间段的使用量情况等各个维度的数据来确定单车的集中投放地选在 哪里
To Other Grid Nodes
ASG Server PC用户
邮件服务器
邮件服务器 PC用户
PC用户
Google 大数据处理技术 Google文件系统GFS(Google File System) 并行数据处理MapReduce 结构化数据表BigTable
分布式计算的好处: 成本降低,能用PC机,不用高端服务器和高端存储 可靠性增加 处理数据的能力大大增加
目录
大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
机器学习
学习现象
语言、文字的认知识别 图像、场景、自然物体的认知识别 规则
(e.g 下雨天要带雨伞)
•认知
学习
实时分析而非批量式分析
速度Velocity
数据输入、处理与丢弃 立竿见影而非事后见效
目录
大数据产生的背景与简介 云计算与Google的大数据体系 数据挖掘概念及案例 大数据案例介绍 机器学习简介与案例 大数据与机器学习行业人才需求
什么是云计算
云计算将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需要获取计算力、存储空间和各种 软件服务。 云计算的“云”就是存在于互联网上的服务器集群,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如 应用软件、集成开发环境等)大数据的存储和运算就可以建立在这些云主机当中。