大数据时代的大数据思维资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的大数据思维
茅宁 南京大学管理学院
不讲大数据就“OUT”了
如何理解大数据 技术:大云平移 产业:商业革命 资产:数据资产 思维:管理革命和思维革命 大数据时代:改变我们的生活、工作和思维方式 Gartner公司(3V+1):大数据是指数量大、变 化快和(或)多样化的信息资产,需要新的处理 形式,从而强化决策、促进洞察力和优化流程
大数据内涵的三维度解析
实践
公共(互联网)数据 政务数据 产业(企业)数据 个人(用户)数据(i-data)
大数据特征
技术
数据信息采集、传输、存贮、处理和分析能力 ——云技术、分布式处理技术、存贮技术、感 知技术 ——分析技术:可视化分析、数据挖掘算法、 语义搜索引擎、数据质量与数据管理、预测性 分析
大有大的道理
戴明:除了上帝,任何人都必须用数据来说话 对大部分事物来说,平均值都差强人意 但在决策中,大量个体的平均值往往是最好的 猜猜瓶子里有多少钱? 猜得最准的个人距离正确答案10美元 所有猜测的平均值距离正确答案3美元 365美元
数据、模型和理论的关系
光大是不够的
利用大数据提供优质服务
通过对顾客消费模式的分析,计算出顾客的长期价值 (customer worth) 一个顾客理论上长期会在Harrah’s总共消费多少 26%的客户贡献了82%的收入:前者并不是大多数 赌场一直在争取的金领豪客,而是中产阶级的中老 年顾客(教师、医生、银行职员等) 系统能根据顾客背景资料及历史消费模式计算出顾客 的痛苦点(pain point) 如果他输钱超过痛苦点,今晚的赌博会成为一个痛 苦的回忆,离开Harrah’s后一去不返 实时做出对策:提供免费餐券劝退
哈拉斯娱乐公司的特色
每年在信息系统上的投资超过1亿美元 推行了一套名为“完全回馈”(Total Reward )的会员卡制度,所有消费都用卡 到2010年,已积累超过4000万会员的信息,是 博彩业最大的客户数据库 公司从地方性企业成长为全球最大的博彩公司 (拥有39家本土赌场、13家海外赌场) 2010年改名为凯撒娱乐公司(Caesars Entertainment)
大数据价值
大数据思维
理论
大数据的本质
用母体代替抽样 统计抽样的局限性 用数量代替精确 拥抱混杂性:容错性更强 用相关性代替因果性 知道是什么比知道为什么更重要 演绎与归纳的区别 演绎:通过一般规律推导出具体事实(从因到果) 归纳:从具体事实中总结出一般规律
大数据的启示:决策分析观念的转变
投资决策
电影《永无止境》的故事 一位落魄的作家库珀服用了一种可以迅速提升智力的 神奇蓝色药物,然后他将这种高智商用于炒股 在短时间掌握无数公司资料和背景:将世界上已经存 在的海量数据(包括公司财报、电视、互联网、小道 消息等)挖掘出来 甚至将Face Book、Twitter的海量社交数据挖掘得到普 通大众对某种股票的感情倾向 通过海量信息的挖掘、分析,使一切内幕都不是内幕 ,使一切趋势都在眼前 在10天内赢得了200万美元,神奇的表现让身边的职业 投资者目瞪口呆 启示:如果人类将剩余80%的大脑潜能激发出来
数据并不是越多越好 对数据分析能力的挑战:由人来解读转化为洞察见解 科斯:如果你总是拷问数据,数据迟早会招供的 有一位美国数学家最怕坐飞机 他研究了近20年的统计数据,发现恐怖分子带炸弹上 飞机的概率非常低 但他还是不放心,又做进一步研究,发现两个人同时 带炸弹上飞机的概率为零 于是他坐飞机都自己携带一枚炸弹 水生动物不要羡慕陆生动物的四个蹄子,它真正需要 的是生出一个肺,而不是用腮呼吸
速度( Velocity):实时变化(输入和处理速 度快) 对处理时间的要求 种类(Variety)):多样化(多源异构) 结构化 非结构化:文本、图象等 价值(Value):价值密度低 大海捞针? 数据本身不产生价值,如何分析和利用大数 据对业务产生帮助才是关键 例:Facebook上市前有形资产价值66亿美元, 但估值1040亿美元 2009年-2011年间收集了2.1万亿条获利信息
林彪的大数据思维
辽沈战役期间,林彪要求每天要进行“军情汇报” 由值班参谋读出各单位用电台报告的当日战况和缴获 几乎是重复着千篇一律枯燥无味的数据 一天,参谋汇报当日战况时,林彪突然打断他:“刚 才念的在胡家窝棚那个战斗的缴获,你们听到了吗?” 见无人回答,接连问了三句 为什么那里缴获的短枪与长枪比例比其它战斗略高 为什么那里缴获和击毁的小车与大车的比例比其它 战斗略高? 为什么在那里俘虏和击毙军官与士兵的比例比其它 战斗略高? “我猜想,不,我断定!敌人的指挥所就在这里! 果然,部队很快就抓住了敌方指挥官廖耀湘
传统 抽样数据、局部数据和片面数据 经验、假设和价值观 未来 要全体不要抽样 要效率不要绝对精确 要相关不要因果 分析过去,提醒现在,展望未来
Gary Loveman博士的经历
1989年在MIT获经济学博士学位后在哈佛商学院任教 专长是数据挖掘和服务管理:客户心理分析 数学只是象牙塔里学究们出于个人兴趣的消遣,而对真 实世界的决策没有帮助,这让他一度感到沮丧 1994年在HBR发表一篇文章引起企业关注 1997年接受主营赌场业务的哈拉斯娱乐公司(Harrah’s Entertainment)邀请,担任该公司COO 他只准备待两年,为此请了两年学术假期 再没有返回哈佛大学,2003年接任该公司CEO 关键:使用数学运营赌场
数据量(Volume)
wenku.baidu.com
全量超大规模(海量) K、MB(兆)、G、T、P、E、Z、Y、N、D、C 大数据的起始计量单位至少是P(1000个T) 不仅是规模,更重要的是增长速度 到2012年,人类生产的所有印刷材料数据量是200PB ,全人类历史上说过的所有话的数据量大约是5EB 整个人类文明所获得的全部数据中,有90%是过去两 年内产生的 到了2020年,全世界所产生的数据规模将达到今天 的44倍
茅宁 南京大学管理学院
不讲大数据就“OUT”了
如何理解大数据 技术:大云平移 产业:商业革命 资产:数据资产 思维:管理革命和思维革命 大数据时代:改变我们的生活、工作和思维方式 Gartner公司(3V+1):大数据是指数量大、变 化快和(或)多样化的信息资产,需要新的处理 形式,从而强化决策、促进洞察力和优化流程
大数据内涵的三维度解析
实践
公共(互联网)数据 政务数据 产业(企业)数据 个人(用户)数据(i-data)
大数据特征
技术
数据信息采集、传输、存贮、处理和分析能力 ——云技术、分布式处理技术、存贮技术、感 知技术 ——分析技术:可视化分析、数据挖掘算法、 语义搜索引擎、数据质量与数据管理、预测性 分析
大有大的道理
戴明:除了上帝,任何人都必须用数据来说话 对大部分事物来说,平均值都差强人意 但在决策中,大量个体的平均值往往是最好的 猜猜瓶子里有多少钱? 猜得最准的个人距离正确答案10美元 所有猜测的平均值距离正确答案3美元 365美元
数据、模型和理论的关系
光大是不够的
利用大数据提供优质服务
通过对顾客消费模式的分析,计算出顾客的长期价值 (customer worth) 一个顾客理论上长期会在Harrah’s总共消费多少 26%的客户贡献了82%的收入:前者并不是大多数 赌场一直在争取的金领豪客,而是中产阶级的中老 年顾客(教师、医生、银行职员等) 系统能根据顾客背景资料及历史消费模式计算出顾客 的痛苦点(pain point) 如果他输钱超过痛苦点,今晚的赌博会成为一个痛 苦的回忆,离开Harrah’s后一去不返 实时做出对策:提供免费餐券劝退
哈拉斯娱乐公司的特色
每年在信息系统上的投资超过1亿美元 推行了一套名为“完全回馈”(Total Reward )的会员卡制度,所有消费都用卡 到2010年,已积累超过4000万会员的信息,是 博彩业最大的客户数据库 公司从地方性企业成长为全球最大的博彩公司 (拥有39家本土赌场、13家海外赌场) 2010年改名为凯撒娱乐公司(Caesars Entertainment)
大数据价值
大数据思维
理论
大数据的本质
用母体代替抽样 统计抽样的局限性 用数量代替精确 拥抱混杂性:容错性更强 用相关性代替因果性 知道是什么比知道为什么更重要 演绎与归纳的区别 演绎:通过一般规律推导出具体事实(从因到果) 归纳:从具体事实中总结出一般规律
大数据的启示:决策分析观念的转变
投资决策
电影《永无止境》的故事 一位落魄的作家库珀服用了一种可以迅速提升智力的 神奇蓝色药物,然后他将这种高智商用于炒股 在短时间掌握无数公司资料和背景:将世界上已经存 在的海量数据(包括公司财报、电视、互联网、小道 消息等)挖掘出来 甚至将Face Book、Twitter的海量社交数据挖掘得到普 通大众对某种股票的感情倾向 通过海量信息的挖掘、分析,使一切内幕都不是内幕 ,使一切趋势都在眼前 在10天内赢得了200万美元,神奇的表现让身边的职业 投资者目瞪口呆 启示:如果人类将剩余80%的大脑潜能激发出来
数据并不是越多越好 对数据分析能力的挑战:由人来解读转化为洞察见解 科斯:如果你总是拷问数据,数据迟早会招供的 有一位美国数学家最怕坐飞机 他研究了近20年的统计数据,发现恐怖分子带炸弹上 飞机的概率非常低 但他还是不放心,又做进一步研究,发现两个人同时 带炸弹上飞机的概率为零 于是他坐飞机都自己携带一枚炸弹 水生动物不要羡慕陆生动物的四个蹄子,它真正需要 的是生出一个肺,而不是用腮呼吸
速度( Velocity):实时变化(输入和处理速 度快) 对处理时间的要求 种类(Variety)):多样化(多源异构) 结构化 非结构化:文本、图象等 价值(Value):价值密度低 大海捞针? 数据本身不产生价值,如何分析和利用大数 据对业务产生帮助才是关键 例:Facebook上市前有形资产价值66亿美元, 但估值1040亿美元 2009年-2011年间收集了2.1万亿条获利信息
林彪的大数据思维
辽沈战役期间,林彪要求每天要进行“军情汇报” 由值班参谋读出各单位用电台报告的当日战况和缴获 几乎是重复着千篇一律枯燥无味的数据 一天,参谋汇报当日战况时,林彪突然打断他:“刚 才念的在胡家窝棚那个战斗的缴获,你们听到了吗?” 见无人回答,接连问了三句 为什么那里缴获的短枪与长枪比例比其它战斗略高 为什么那里缴获和击毁的小车与大车的比例比其它 战斗略高? 为什么在那里俘虏和击毙军官与士兵的比例比其它 战斗略高? “我猜想,不,我断定!敌人的指挥所就在这里! 果然,部队很快就抓住了敌方指挥官廖耀湘
传统 抽样数据、局部数据和片面数据 经验、假设和价值观 未来 要全体不要抽样 要效率不要绝对精确 要相关不要因果 分析过去,提醒现在,展望未来
Gary Loveman博士的经历
1989年在MIT获经济学博士学位后在哈佛商学院任教 专长是数据挖掘和服务管理:客户心理分析 数学只是象牙塔里学究们出于个人兴趣的消遣,而对真 实世界的决策没有帮助,这让他一度感到沮丧 1994年在HBR发表一篇文章引起企业关注 1997年接受主营赌场业务的哈拉斯娱乐公司(Harrah’s Entertainment)邀请,担任该公司COO 他只准备待两年,为此请了两年学术假期 再没有返回哈佛大学,2003年接任该公司CEO 关键:使用数学运营赌场
数据量(Volume)
wenku.baidu.com
全量超大规模(海量) K、MB(兆)、G、T、P、E、Z、Y、N、D、C 大数据的起始计量单位至少是P(1000个T) 不仅是规模,更重要的是增长速度 到2012年,人类生产的所有印刷材料数据量是200PB ,全人类历史上说过的所有话的数据量大约是5EB 整个人类文明所获得的全部数据中,有90%是过去两 年内产生的 到了2020年,全世界所产生的数据规模将达到今天 的44倍