对大数据分析相关问题的思考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对大数据分析相关问题的思考

引言

随着移动互联网和社交网络的发展,各行业无论大小,都可以轻松产生海量的数据。某些数据分析师表示:如果可以实时、精确地追踪一切数据,并且有足够高效的算法与储存设备,大数据可以分析并解决一切问题。但这样的论点过于理想化,现实情况并不是这样。随着互联网和社交媒体的活跃,数据量已经不是问题,工具和算法也在日新月异地发生着迭代和更新。大数据的应用和分析,也的确让很多企业得到利好,提高了利润。越来越多的问题,在大数据的处理和分析下迎刃而解。无论是用户喜好、销售变化、市场动态、经济形势,甚至是预测天气,动动鼠标就能够了解。但是,大数据真的是神奇并万能的吗?

1 大数据不是万能的

《连线》杂志的前主编Chris Anderson曾经说过:“有了足够的数据,数字本身就能说话”[1],现今的大数据热度,也正好说明了这一种行业内的认知:“数据必然反映事物之间的联系,因此大数据总是能够揭示事物的真理。”但大数据并非真的这么万能。

1.1 大数据不能解决所有的问题

首先,大数据并不能够解决所有的问题,尤其是大数据用于做用户分析的时候。大数据的基础是记录用户在线上的点击和操作,这些数据确实是在反映用户的操作和使用行为,但所思并不等于所想,用户的行为并不完全能够反映用户的意图。

苹果公司在发布iPhone4之前做过一个测试,让大家给白色和黑色的手机投票,白色的票数高出黑色很多。然后苹果公司让这些人从这两种颜色的手机中,选择一种带走,却发现多数人选择了黑色。手机腾讯网每天的新闻排行中点击量最高的多数是明星八卦类的内容。但从用户调研问卷和访谈的结果中发现,明星八卦在用户需要和喜欢的内容中排名很靠下。有的用户,在填写问卷时刚选择了“不喜欢看太八卦的内容”,几分钟之后就在测试页面上打开了“某某明星离婚纠纷”的文章。

而当数据量足够大的时候,如果过分依赖数据的结果,或者把数据的结果理解成用户的“思想”,就很容易做出错误的判断,甚至曲解用户的意图。

1.2 大数据能否客观地反映问题

如果说,大数据无法正确反映用户所思,但总会如实反映用户所做吧。但现实是,大数据可能连这点都做不到。

麻省理工出版的《“R a w D a t a”i s a n Oxymoron》一书中的观点就很有意思,作者认为,“这个世界上根本就不存在‘原始数据’这一说法,‘原始数据’只不过是一种修辞”[2],数据在采集、筛

马 弢

手机腾讯网 北京 100080

摘 要大数据分析作为当下的热点概念,得到越来越多的重视。但大数据不是万能的,它有自身的局限性,过分依赖大数据会产生很多问题。针对这一观点,文章分析列举大数据自身存在的局限性,概括在进行大数据分析时需要注意的问题,提出在做大数据分析时,应当把大数据做“小”的处理方式。

关键词 大数据;数据分析;局限性

选、提取和分析的所有过程中,全部加入了人的主观意识,因此任何数据都不是完全客观的。人们在处理数据时使用的工具和算法都是按照我们给定的逻辑和思路来设计与编写,从最初采集数据的时候,数据就已经被加工过并打上了人为的烙印;因此也就不存在“原始数据”的概念了。我非常同意作者的观点,“人们总是看到他们希望看到的东西”,数据也是这样;因此,对于大数据分析来说,分析师、数据库工程师、系统搭建和使用者,任何一个参与分析和研究的人,都在左右着数据对现实反映的“客观性”和“真实性”。其中任何一环失之毫厘,数据分析的结果就可能差之千里。

1.3 数字无法描述感情

大数据的另一个局限性在于它很难表现和描述用户的感情。大数据在处理人类情感、社会关系、前后关联等问题的时候,表现通常不尽如人意。换句话说,大数据适合做那些“量”的分析,却不善于做“质”的研究。如两个用户在机器上做了完全相同的操作,从计算机和数据分析的角度看,就是完全相同的两个个体。但事实上,他们绝对不会是完全一样的两个人。这也是在做定性分析时,需要找用户面谈的原因。只有当和用户面对面的时候,才可以通过他的动作、表情清楚地知道用户在这么做和这么说的时候是一种什么样的情绪,很多时候这比系统跑出几TB的数据要实用很多。

大数据只能告诉我们用户正在做什么,而不能告诉我们他们在做的时候是怎么想的、背景是怎样的,或者有着什么样的情绪。很多时候数字确实比直觉要严谨,但对于用户分析来说,真正有价值的,恰恰经常是这些严谨的数字难以触达的地方。

2 警惕大数据分析的“陷阱”

从上述看出,大数据并不是神话,行业从业者过高地吹捧大数据,反而会引起很多问题。尤其是对于分析师来说,在应用大数据分析的时候,更要警惕其中的一些“陷阱”。2.1 警惕数据的错误采集方式

采集数据是任何数据分析的第一个环节,如果这个环节出了问题,那么后续的操作,就没有可靠性了。在很多项目中,经常因为使用错误的采集方式而导致错误的分析结论。举个例子,如果对2013年雅安地震的相关数据进行分析,可以发现那个时期微博、微信、人人等社交媒体的数据量激增,这些网站在短时间内就积累了海量的数据,但这些数据却很难反映全部的问题。雅安地震的数据大部分集中在成都等大型城市,这点很好理解,因为大城市的人口密度高、智能手机更加普及、覆盖也更广;而那些相对偏僻的地区,收集的数据则少得可怜,由于电力、通信系统瘫痪,真正受灾最严重的地区则几乎统计不到相关的数据。

这是一个客观条件导致数据收集“部分缺失”的典型例子,这样的数据结构统计出来的结果和分析结论一定无法如实反映全部情况。当然这是一个比较极端的例子,但日常工作中,这种情况也不少见,地域、终端设备、产品的投放渠道等都会直接影响数据的采集过程。现在来看,对于App Store的下载和操作行为,由于苹果系统的封闭性,应用开发者们还没有什么太好的数据采集方式;安卓平台则由于第三方市场参差不齐,所采集到数据的可靠性也很难有保障。

分析师在做数据采集的时候,就需要经常自省,“究竟需要什么样的数据”、“这些数据是否足够”、“数据是从哪里来的”、“其中有多少数据是真正有价值的”,从数据处理的第一个环节就开始减少误差对数据真实性的干扰。

2.2 大数据的冗余、虚假和干扰

大数据的一个显著特点就是庞大的数据量和繁复的数据结构,在一个PB量级的数据库中提取、筛选和分析某个很具体的问题如同大海捞针。这是大数据分析面临的另一个问题。随着数据量的提升,单位数据的价值越来越低,而筛选和分析的成本却越来越高。有些分析师认为,“世界上没有无用或过量的数据,任何数据

相关文档
最新文档