QuAInS整理“大数据时代数据分析的几个重要问题”

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[QuAInS整理]大数据时代数据分析的几个重要问题

如今大数据时代,人们都在争先恐后地拥抱大数据技术,都热衷于使用高级的数据分析方法(统计分析、数据挖掘、机器学习、人工智能)对数据进行分析,却往往忽视了一些相对基本但却最为重要的问题。作为专业的质量大数据解决方案供应商(数据采集,SPC质量监控,质量分析与创新),萃盈科技(QuAInS)结合牛人的演讲内容,总结了几个问题如下:

问一:统计是干什么的?

答一:统计所做的事情是去伪存真,运用概率方法去描述生活中的不确定性,从而区分信息与噪音。而统计思想则是为了运用对统计的理解帮助我们作出正确的决策。

问二:一个关于抽样的典型问题:有两个总体,其中B总体的数量是A总体的4倍(比如在美国(A)和中国(B)做人口普查抽样),现因分析A的需要,从A中抽取500个样本进行研究。在其他条件相同的情况下,为了对B达到同样的分析精度,需要从B中抽取多少个样本,是500个还是2000个呢?

答二:仍然只需抽500个。其实所需抽取样本量的多少与数据本身的均匀性和抽样方法有关,而与总体本身大小的相关性相对较弱。拿医院抽血检查身体作为例子,医生不会因为病人体重更重而按照比例抽更多的血;对工业生产的质量检验也同样如此:随着批量的增加,我们开始的时候需要抽取更多的样品进行检验,但当抽取的样本量达到一定数量后,就没有太多必要继续扩大抽样数量了。

在数据本身的均匀性足够且抽样方法正确的情况下,统计分析的确是有一定的样本量的要求的,但样本量超过某一个临界点后,其与其背后的总体(大样本)的量的大小的关系几乎可以忽略。

问三:大数据时代是否还需要抽样?

答三:答案是肯定的,原因至少有三个方面:第一,抽样的过程能帮助我们控制数据的质量,在总体数据中,可能存在部分数据缺失或者是异常值的情况,抽样能帮助我们在一定程度上控制数据的质量;第二,用于分析的数据质量的重要性远远大于其数量,因此数据并不是越多越好;第三,事实上,抽样做得好,后面的数据分析工作就会很简单,相反,如果抽样没做好或者说把所有的数据都笼统地纳入分析,往往后面需要用各种复杂的方法进行补救,分析难度大幅提高;第四,抽样还能降低分析数据时运算的难度。

问四:传统统计和大数据统计的主要区别是什么?

答四:传统统计是累集有代表性的个体资料去推测母体的特征,特点是偏差较大、方差较小;大数据统计是寻找有相关性的近似母体去推断个体的特征,特点是偏差较小,方差较大。

问五:辛普森悖论给质量管理的启发是什么?

答五:辛普森悖论向我们揭示了,在进行数据分析的时候,一方面我们需要特别留意样本抽取的科学性;另一方面还需在分析时特别留意对数据的细分。

我们来看质量分析的一个案例:有两台测试机床同时加工零件,机床A加工了350个零件,其中有273个满足要求;机床B加工了350个零件,其中有289个满足要求,看起来B机床的合格率较高;

如果我们来分产品看一下,发现机床A不论是加工大两件还是小零件,表现都要比机床B好很多。

因此,我们在进行质量数据分析时,决不能仅仅从数据输出,还必须紧密结合我们的产品和流程的实际情况。

参考资料:孟晓犁教授在复旦大学问学讲堂上的演讲。孟晓犁教授是哈佛大学文理研究生院院长,原哈佛大学统计系系主任,国际统计学领域最高奖——COPSS总统奖2001年度获得者。

相关文档
最新文档