研读《女士品茶 》的感悟
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研读《女士品茶》的感悟
一本《女士品茶――20世纪统计怎样变革了科学》,的确让人眼前一亮。《女士品茶》名字新颖独到,内容也新意盎然。这取决于作者的构思和目的,萨尔斯伯格说:“我所选择贯穿20世纪统计学复杂理论的主线是与别人不同的。我希望读了本书后能有所启发,去进一步了解统计革命的内涵。”作为一本讲统计学的书,平均数、标准差、估计值、概率、随机、钟型曲线、置信、大数定律、中心极限定理、正态概率分布随机变量等等一系列的概念和术语,自是绵亘不绝,但是不同于其他书的是,这些概念和术语的背后,是一个个统计大师鲜活的形象、是一段段他们探索创新,历尽坎坷的人生故事。故事中穿插着大师们睿智的珍言、友谊的情怀、幽默的细节、个性的遭际……。解读统计大师们的故事,他们的涉猎丰富、知识渊博,研究领域广泛,可以说无所不包。通过研读《女士品茶》一书,结合自己学习和掌握与统计相关的知识,至少让我在以下几个方面有了更深刻的认识:
一、关于统计数据
统计学是一门研究数据的科学,任务是如何有效地收集、整理、和分析这些数据,探索数据内在的数量规律性,对所观察的现象做出推断或预测,直到为采取决策提供依据。统计数据的收集是取得统计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去了用武之地。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。
在收集和整理数据后,特别需要认清数据自身特点对其进行分析。统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程:第一,弄清楚要分析的数据属于什么类型。是连续型,还是非连续型?对于连续型数值,均值具有实际意义,对于非连续性的数值,均值并不具备实际意义,而是频数,百分比才有意义,所以,数据属于连续型时,适用比较均值的显著性检验,若是非连续型的级数类,则适用比较频数、比例的检验方法;其实,数据也可以根据不同情况进行灵活处理,例如:对于满意度的衡量,可以根据不同的需求看为连续型分值,也可以看为几个等级的级数;第二,需要了解样本数据的分布特点,弄清楚样本数据是否服从某一分布,对于分布明确的,可以采用参数检验,而不清楚分布情况的则可以采用非参数检验法;第三,判断要检验差异的两组样本的关系,属于独立样本,还是属于配对样本。独立样本即指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本,样本之间相互独立;而配对样本可以是同一个体在前后两种状态下某种属性的两种状态,也可以是对某事物两个不同侧面或方面的描述,两样本不是相互独立,而是具有相关性。
二、关于抽样调查
生活中充满着统计学的知识。中国有个成语叫“井底之蛙”,由于学历、资历、阅历的限制,实际上我们每一个人都是井底之蛙,只能看见头顶上的那一片天。学会统计后,我
们就可以把头顶上那片天看作是万里蓝天的一个样本。通过抽取这个样本,我们可以看到和了解蓝天、白云、阳光。
《女士品茶》第17章“当部分优于总体时”中提到: 1937 年,政府想得到有关失业率的准确数据,要在全国进行有史以来第一次严肃的随机调查,同时国会授权在1937 年进行失业普查。国会通过了议案,号召失业者填写登记卡,送到当地的邮局。那时,全国失业人口数估计在300 万到1500 万之间,依据对整个调查所作的规划设计,普查局从邮递线路中随机选取2%,然而,即使按2%的比例抽样,普查局也被这样大量的调查问卷难住了:美国邮政服务局(the U. S. Postal Service)曾计划帮他们把问卷分类整理,并制作了一些原始的表格。问卷在最初设计时,还希望收集被调查人口统计和工作经历的详细资料,但是没有人知道该如何来处理这么大量的详细信息。别忘了,那时根本没有电脑,除了用“铅笔+纸张”绘制的表格之外,唯一可指望的就是手动的机械计算器。于是,他们与耶日·奈曼取得了联系,奈曼指出,“我们不必知道或去探讨所有的细节,也不必弄清具体的关系如何”,只需为最重要的问题找到答案就行了。采纳了奈曼的建议,他们抛弃了问卷中复杂而令人困惑的细节,只计算失业的人数。并且普查局作了一系列细致的分析,证实这种随机小样本调查的结论比起以前所用的判断样本要精确得多。[2]
抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
相对于抽样调查,普查工作量大,花费大,组织工作复杂;其调查内容有限,易产生重复和遗漏现象;且由于工作量大而可能导致调查的精确度下降,调查质量不易控制。所以在现实生活中,抽样调查的优越性是全面调查无法比拟的:一是质量性高。可集中力量做深入细致调查并提高调查质量。还可用于只能观察局部单位的调查,如产品的破坏性质量检查,农作物全面成熟前的产量实割实测等;二是经济性好。只调查部分单位(如5%,1%,1‟等),可节约大量人力、物力和费用开支;三是时效性强。可大大缩短调查和整理时间,较快取得调查结果;四是适应面广。在社会经济统计中,抽样调查日益得到广泛应用,如人口普查的事后质量检查,生育率调查,农产量调查,职工和农民家计调查等;五是能够解决全面调查无法或困难解决的问题。如补充和订正全面调查的结果,应用于生产过程中产品质量的检查和控制,用于对总体的某种假设进行检验等等。
三、关于显著性检验
《女士品茶》第11章“假设检验”中提到:“K·皮尔逊常常利用他的卡方拟合优度检验来‘证明’某些数据符合某些特定的分布。在费歇尔把更精确的方法引入到数理统计之后,K·皮尔逊的方法就不再为人接受了。但问题仍然存在。为了知道应该估计哪些参数,为了确定这些参数与所研究的科学问题之间有何关系,我们必须假设该数据符合某一特定的分布。统计学家们常常会利用显著性检验来证明数据符合何种分布。”[2]
在实际操作中,由于人力、物力、时间等问题,一般都用抽样调查的方法抽取一定数量的具有代表性的群体,得出样本数据来进行研究,并对总体特征进行统计推断,在这里面就会存在两个问题,一是样本的特征数量能否反映总体特征?二是两种不同的样本的数量标志参数是否存在差异?只有解决这两个问题,才能正确的推断总体特征,也才能找出不同特征群体的需求差异,这就需要统计学中的显著性检验来解决。
显著性检验(Test of statistical significance),是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不利于或不能支持这一假设的事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。
由于显著性检验的功能在数据分析中的重大作用,显著性检验得到了广泛的应用。
然而在应用之前,首先了解各检验方法的适用范围及其特点是正确使用检验方法的基本前提。许多统计检验方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐等等。这些常用来估计或检验总体参数的方法,统称为参数统计。许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计,相应的,统计检验总体分为参数检验和非参数检验。在选择参数与非参数检验时,首要考虑是数据的分布情况,能确定分布类型的,则可适当选用参数检验,参数检验主要包括包含的方法有:单样本T检验、两独立样本T检验、两配对样本T检验;非参数由于不限制分布,统计方法简便,适用性强,但检验效率较低,应用时应适当加以考虑,非参数检验主要涉及单样本、两独立样本、两配对样本、多独立样本、多配对样本五个方面的非参数检验。不同的检验方法,比较的统计量是不同的。T检验等检验方法都是比较均值;卡方检验、K-S检验等比较频数;曼-惠特尼U检验等是对秩进行比较;符号检验法比较的是前后变化差值的符号。因此,只有了解各检验方法的基本思想及特点,才能正确选取适当的检验方法。
其次,认清研究目的。研究目的是调研中一切实务的根本出发点,做数据分析时同样首要考虑的是研究目的,研究目的也是数据分析的方向,但此时研究目的需要细化,具体到要通过哪些数据,得到什么信息,取得何种结果。例如:希望通过对消费者购买哪些品牌的数据来得出市场占有率的信息。