浅谈大数据感想
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一次知道大数据时代这个概念是在大一,本来以为是很高端深远的东西,但是就现在肤浅的认识看,其实就是我们所处的这个时代。所谓大数据,无非就是社会进步、经济进步所导致的一个必然结果,尤其是如今这种非结构式的信息膨胀得很快。首先,对于大数据时代这本书,由于是译本我觉得很多地方读起来没有逻辑有点难理解。但是这本书最好的一点就是较生活化、通俗化地讲述了大数据已经给我们生活带来的变化以及我们还可以利用大数据去改变什么。在这本书中,作者强调了是三个原则:一、不是随机样本,而是全体数据;二、不是精确性,而是混杂性;三、不是因果关系,而是相关关系。
对于第一点,作者是认为小数据通过抽样能够获得更多信息,但随着各种类型数据的不断增多,海量的数据通过抽样去获取信息就没有意义了。我觉得作者不能太过度强调全面数据,因为它毕竟有很多的条件限制,比如是否有能达到的技术支持,是否经济,是否合理,所以并不能一味地追求全面数据所带来的完整信息,至少我认为就现在大部分的数据调查来看,有的时候还是合适才是最好的。还有一点就是我们在收集、分析全面数据的时候也在不断产生新的数据,怎么证明这些新数据不是我们需要的全面数据中的一部分呢。
对于第二点,作者说允许不精确的出现成为了一个亮点,说得来就跟以前我们收集分析都非常精确一样,其实在统计中提到的置信区间、显著性水平这些限制就是一种容错率的概念,也就是说我们一直都是允许不精确的。
第三点其实在讲大数据带来的一个巨大的颠覆在于,人们可以利用数据的相关性直接做出决策而不用拘泥于背后的原因。例如沃尔玛通过调查知道“飓风的时候草莓味蛋挞卖得好”,但是我们根本不知道原因到底是为什么,其实我们也不需要知道,沃尔玛要做的仅仅是在飓风的时候增加草莓蛋挞的库存并且把它摆到显眼的位置就可以了。所以利用大数据我们可以做出很多这样的精明决策,但是数据也逐渐在代替了人做决策,我觉得人类的思想被彻底挑战了。我认为机器对于数据的分析体现相关关系,而因果关系则大部分来自于人为的想法,作者在书中前面部分说到“真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据”,所以重点是人类的思想和人类的运用。我觉得这一点上作者讲得有点前后矛盾。这么多年来,人类一直都在靠因果关系来理解和审视世界,而且事实也证明这没错,其实一旦有人的思维在就是不可能避免因果关系的出
现,我觉得如果太强调相关关系就少了点人文情怀了。
这本书中作者说大数据的核心是预测,我觉得这才是最关键的,因此不用太在意作者所提过的那三个原则,我们知道能用大数据去做什么才更应该被在意,毕竟数据的使用者是我们。作者说量变引起质变,正因为有预测,我们就能预知未知的,就能相对清晰地了解这种质变到底是什么,这也是大数据赋予我们的权利。因此我们可以利用大数据提前知道人们所需要的而去进行改变,这应该也是生活与人本身契合度越来越高,人们觉得生活越来越方便的原因之一。大数据带来的究竟是信号还是噪音,我觉得预测结果是最能够用来反映的证据。尽管贝叶斯定理在预测方面已有非常高的成功率,但作者还是反复强调预测的困难性。如何保证收集信息的准确性?如何构建合适的数学模型和工具?又如何克服预测过程中的私人因素?即使是在大数据时代,这些同样会造成预测偏差。但不可否认,预测已经完全影响到我们的生活。比如人的消费行为预测,电影的票房预测,离职风险预测等等。但大数据时代最无法避免的就是隐私泄露,预测同样是泄密的源头。比如婚外情预测,死亡预测等,它很有可能会对生活造成不好的影响。所以科技与知识都是有两面性的,随着大数据时代的发展,隐私权的基本问题也应该重新被审视,各种法律也应该相应被完善。我们需要发展但也不应该完全由数据推着我们发展,社会的发展依然需要人类文明作为基础。