互联网与大数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互联网与大数据
概括
大数据,既是“因为小所以大”,也是“因为大所以小”。因为小所以大,是大数据的“有”。因为互联网上有很细节、很海量的数据,在互联网的社会环境下可以通过技术方法在经济可承受的前提下把数据找回来。而因为大所以小,是大数据的“用”。由于有了丰富的数据,各类互联网媒体、服务才可以针对某一个特定用户,给他提供更精准的服务,将传统的“一对多灌输式的广告”变为“个性化推荐”。大数据由后台走向前台
其实,我们一直生活在数据的世界里,但以往受限于技术,主要应用抽样、局部、片面的数据,或者在不能获得实证数据的时候依赖经验、理论、假设等去发现未知领域的规律。而现在,互联网推动了大数据由后台走向前台。
互联网时代最大的意义在于可以做全流量的监测。随着各类社会行为迅速向互联网迁移,物联网、云计算、移动互联网、车联网、手机、平板电脑以及遍布各个角落的各种各样的传感器,使互联网承载远超以往的数据量。从以往数据研究的样本规模看,一般消费者调研采用样本量在400左右,大型消费者调研约有1,000样本,第三方独立机构消费者调研规模在80,000样本以上,中大型网站自有数据可达10,000,000级网络行为。而作为第三方数据机构,缔元信的DDMP平台平均每天跨网采集2亿网民、30亿条网民行为数据。面对互联网的海量信息,数据的作用将远远超出以往。大数据具有导航仪的功用。对于营销者来说,目标受众、目标客户是“谁”已经不重要,重要的是TA的偏好特征和传播相关信息的时机——根据数据判断TA在什么时候需要什么。因此,基于抽样调查+人口学特征的“小样本模式”不再具有指航性。我们也经常把大数据比喻成显微镜,因为大数据提供了从更细的颗粒度层面认知世界的可能和条件。大数据时代之前,我们只能依据小样本或适度抽样后的小数据进行群体规律的知识发现。而真正的大数据,让人类第一次有机会把来自不同地方、不同类型的数据联结起来形成对一个事物的完整描述,就像显微镜一样从更细的颗粒度层面认知世界。亚马逊CTOWernerVogels则将大数据喻为“纠错器”:“长期以来,亚马逊一直通过大数据分析,尝试定位客户和和获取客户反馈。在此过程中,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”互联网时代,大数据还是发动机。互联网不再只是媒体,更是用户不断转化的平台。相应的,营销由独立转为系统性工程,而数据在营销全程中扮演的角色也必然要由参考工具转向驱动发动机。数据驱动的精准营销引擎,将颠覆传统的营销决策模式及营销执行过程,给网络营销行业乃至互联网及传统行业带来革命性的冲击。其实,我们已看到,网络营销的大数据应用正在加速前进。虽然以大数据支撑的RTB(RealTimeBidding,实时竞价)还在起步阶段,垄断媒体形成卖方市场、广告主决策过程并非百分百取决于业务层面价值仍对RTB形成阻力,但RTB
应用越来越成熟,越来越成规模,百度、阿里等也都推出了自己的RTB平台,都足以让我
们相信,RTB一定会成为未来网络广告的主流。而国内的互联网行业,特别是腾讯、阿里、百度等领头企业更在其他业务层面搜集、挖掘数据,进行大数据应用的准备和尝试,更使大数据向网络广告之外的领域渗透。随着大数据时代的来临,抽样调查的主导地位将会被全样本调查所取代,并被逐渐边缘化。我们将有更高的机率准确认识、预测我们想要了解的事物,大至奥巴马竞选、奥斯卡奖项,小到客户的购买倾向、网络营销,海量的大数据中隐藏着我们想要知道的一切。但是,伴随着方法的变革,我们的理念、思维方式、营销方法论势必也要进行变革,这也是一种巨大的挑战。
典型事例
1.大数据与互联网商业:淘宝数据王国的构建
2008年,一个庞大的“大淘宝战略”伴随着阿里妈妈并入淘宝网而正式启动。在这个强调平台化、开放式的“大淘宝”战略中,淘宝所要打造的是一个容纳更多行业在内、层次更为丰富而全面的生态系统。
这其中,既包括了被喻为电子商务“水、电、媒”的支付、信用和物流环节,也将线上线下、纸媒电视等多种与消费者接触的渠道囊括在内。而作为平台将它们串联在一起的淘宝,不仅将以这种方式为越来越多不同规模层次的淘宝卖家提供从营销推广到销售配送的多种选择和整体方案,也将打通这些传统行业中固有的价值传递链条,实现参与各方价值的最大化。同时,淘宝这个单纯的交易平台也将在无形中升级为承载整个“生态圈”的基础服务提供商。
而这一切的基础,就是大数据:在成为开放平台与服务提供商,面向全球开放数据、打造全新盈利模式的过程当中,淘宝利用大数据改变了电商的运作模式,并充分利用自身
平台的这些海量数据构建起一个大数据王国。
大数据王国的建构基础:海量数据的采集与存储
根据淘宝网的数据显示,至2011年底,淘宝网最高单日独立用户访问量超过1.2亿人,比2010年同期增长120%,注册用户数量超过4亿,在线商品数量达到8亿,页面浏览量达到20亿规模,淘宝每天产生4亿条产品讯息,每天活跃数据量已经超过50TB……
大量搜索、浏览、收藏、交易、评价等来自买方、卖方以及网页自身的数据造就了淘宝的海量数据库,这是淘宝打造数据平台与产品,自主研发其海量数据库Ocean Base并逐渐转
型为数据服务商的重要基础。
以交易为核心的海量数据
淘宝网的数据以及流量产生的核心是围绕着买卖双方的交易展开的,以此向外扩展,衍生出海量的相关数据与信息。同时,也正因为这些数据、信息都与交易相关,因此也形
成了极具商业价值的数据信息,为淘宝转型为电商“生态圈”的基础服务提供商、数据服务
商进行数据开发与销售奠定了基础。
通过对用户网上消费行为的全流程追踪,我们大致可以看出淘宝数据的各种产生来源与过程。这些数据的产生从大范围上可以划分为三种。第一种是来自淘宝网外部的数据,主要包括相关的广告点击、搜索引擎的搜索数据、SNS上的推荐与链接、关联软件的操作与推荐。第二种是直接访问带来的相关数据,包括浏览器访问、软件访问等。第三种也是最大的数据来源,即淘宝网站内部的数据产生,这些数据的产生与买卖双方的交易密不可分,同时也围绕着这种交易产生了相关的信息与数据,包括内部搜索、站内SNS社区、页面浏览与点击、会员及用户相关页面、购买与交易数据、后台管理数据以及即时通讯数据信息等。通过对这些数据的存储、运算、管理以及分析,除了用以优化自身的界面、服务、管理和产品之外,淘宝还可以对外提供至少三类具备极大商业价值的数据与信息。第一类是针对消费者,方便其购物与消费的数据信息,包括各类商品及店铺信息、促销信息等;第二类是针对店铺以及卖方,可有效提升其店铺管理及商品销售效果的数据信息,包括消费者的消费行为、网络使用行为、媒体接触及使用行为,市场发展及行业竞争数据与信息等;第三类是可以提供给社会及第三方机构帮助其了解电商企业以及淘宝相关的数据集信息,包
括销售数据、购买数据、交易数据、消费者行为数据等。
自建云存储系统OceanBase
对于淘宝来说,其数据的产生绝大部分来自与卖家与买家,在这其中商品、交易、订单、购物爱好等等是最为核心的数据,这些数据通常是结构化的,并且数据之间存在各种各样的关联。传统的关系数据库曾经是这些数据的最佳载体,然而,随着淘宝业务的快速发展,这些数据急剧膨胀,记录数从几千万条增加到数十亿条,数据量从百GB增加到数TB,未来还可能增加到数千亿条和数百TB,传统的关系型数据库已经无法承担如此海量的数据。Ocean Base作为淘宝研发的云存储系统,自2010年研发以来,其目的就是解决不断增加的结构化数据存储与查询的问题,从而适应全新的数据量级及存储、运算要求。最初,Ocean Base应用于淘宝收藏夹,用于存储淘宝用户收藏条目和具体的商品、店铺信息,每天支持4千万~5千万的更新操作。等待上线的应用还包括CTU、SNS等,每天更新超过20亿条,更新数据量超过2.5TB,并逐步在淘宝内部推广。
对于淘宝来说,Ocean Base云系统是其对各类数据信息进行处理、管理和分析的重要工具,
也是大数据王国建立的一个重要支撑。
数据王国的构建方法:从数据信息到数据产品
如果仅仅有这些海量数据,对这些数据进行了存储和管理,用以优化自身的网页设计、用户体验等,这样略显初级化的数据挖掘还离大数据王国相去甚远。只有掌握了这些数据的运用方法,将其商业价值做到最大化的开发,针对不同群体提供不同服务,才能够满足淘宝网“大淘宝战略”的种种构想,实现其从“单纯的交易平台到‘生态圈’基础服务提供商”
角色的转变,完成其由平台销售向数据销售的盈利模式转变的目标。