当前对大数据仍存在的4个理解误区

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

当前对大数据仍存在的4个理解误区

回顾2016,大数据仍然是国内的舆论焦点,但AI与大数据结合发挥大数据价值成为新热点。我们从Gartner在2015年发布的技术生命周期曲线研究中已经看不见大数据单独出现。机器学习、神经网络作为大数据资源的价值催化剂,成为Gartner技术曲线的新宠儿。2016年的最后几天, Alphago升级版以50战全胜的战绩战震撼了整个围棋界,也刷新了人类对AI(人工智能)的认知。作为一种发展趋势,大数据作为数据基础会融入到更多应用场景中,而大数据和AI技术结合的新应用崭露头角。

大数据资产和深度学习的结合会创造新亮点。以往我们谈大数据的时候,更多是强调存储和管理数据的能力,局限于对于以往历史数据的统计、汇总,未来考虑到神经网络和大数据结合,我们可以发挥大数据更大的想象空间。吴恩达(AndrewNg)先生在NIPS 2016演讲中指出,神经网络能够扩大到无限大的规模并能够依靠这一点引领深度学习。下一个深度学习的大潮在于更加纯粹的端对端的学习,这需要足够多的数据量,才能通过深度学习自身的体征提取来获得结果。

而以下2个领域的持续增长,为AI发展会提供越来越丰富的数据量。

1.社交大数据继续爆发

2016年,社交用户和社交数据的暴涨创造新机遇。通过We Are Social发布的“2016年数字报告”显示,全球社交媒体用户23.1亿人,相当于全球人口的31%;与2015年的数据比较,新增社交媒体用户2.19亿人,年增幅10%。

社交媒体取代传统媒体成为信息流通的主要渠道。因为社交媒体平台用户既是内容的产生者也是传播者,在内容产生、发布和扩散的过程中,这些数据即有可以挖掘知识的丰富内容价值,也有描述个体行为特点的数据价值,可以帮助社交大数据的用户从新角度看待问题。

2.电商大数据的新趋势

2016年最令消费者振奋的节日依然是11.11光棍节,阿里巴巴宣布,2016年天猫双11全球狂欢节总交易额1207亿元。电商取代传统渠道,这种连接全球商家与消费者的商业基础设施的发展趋势明显。围绕电商产生的交易数据和用户评价,不仅描述了资金、信息和物流走向,改变上游的制造、物流与金融配置的效率,而且揭示了用户的消费行为规律,通过实时分析商品相关的数据可以为消费者决策提供参考。

国外某时尚品牌做了一些新尝试,在线下实体店的衣服架上,商家内嵌了一个液晶屏幕显示该商品在线上收获的点赞数量,为消费者采购决策作参考,利用线上线下的数据打通带来全渠道融合式购物体验,

在很多新领域,电商数据、社交数据和AI的融合都有了新应用,比如根据不同旅游目的地信息、用户在社交媒体的评价和目的地的最新动态信息,为用户评估旅行社的旅游产品竞争力是否最佳,进而为消费者推荐合适的旅游产品或者帮助用户规划旅游行程。

总之有规律可循的领域,就可以引入深度学习,以大数据作为基础,提高行业的效率和决策质量。大数据作为技术热点和转型升级的支撑工具,不管是个人、企业和政府都很期待。但2016年在解决用户实际问题的过程中,我发现用户对大数据的理解上存在一些误区,我觉得有必要更清晰地描述出来。

1.大数据分析是自动化的一键式服务

在现实生活中,因为大数据不仅是大,还是很多不同类型的数据合集,通过交叉分析才能发现新规律;另外从数据准备、数据收集、数据清洗、数据加工以及数据专题分析和结果可视化,数据解读到决策调整会分出很多层次。因此,目前大数据分析过程少不了人工的参与才能实现其价值。

2. 某种大数据是企业问题的万能灵药

现实中,原始数据是混乱和残缺的,不同数据源之间缺乏一致性,大数据分析在一定程度上是脏活、苦活和累活,需要做数据的清洗和加工。没有万能灵药的数据,适合指定应用场景的数据就是好数据。因为隐私保护和政府不公开的限制,实践中可以使用的数据是受到限制的,因此,我们必须为不同应用场景选择合适的数据源和分析模型。

3. 大数据分析时代,分析师最重要。

从招聘感受看,数据分析师的薪酬一直在快速上升,数据科学家更是各个企业追求的人才热点。但从我们的实践工作来看,未来大数据分析的能力要开放给基层员工,不能只局限在分析师和领导层使用,实际业务中的人才是决策的主体,在大数据支持下帮助企业提升各个阶层的产出价值是我们的目标。

4、大数据分析,模型越复杂越好

最后,固然实现复杂模型(比如LVM潜变量模型)、模型学习算法会非常酷,但我们的工作关注点要放在提高工作效率、增加收益或者减少支出等实际问题的提出和拆解上,尽可能从简单模型先开始实践,并尽可能用自动化的工具来加快探索的速度。比如,目前我们将科学决策之前的数据准备、数据收集、数据清洗、数据加工以及数据专题分析和结果可视化等过程都先实现高度自动化,为用户节省传统分析中90%的时间和精力投入,方便其将工作重心放在决策环节。

相关文档
最新文档