关于数理统计中若干基本概念的理解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2010年 11月 Journal of Science of Teachers′College and University Nov. 2010文章编号:1007-9831(2010)06-0087-03
关于数理统计中若干基本概念的理解
何道江
(安徽师范大学 数学计算机科学学院,安徽 芜湖 241000)
摘要:正确认识和理解基本概念是学好数理统计的前提和基础.探讨了对总体与统计推断、偏度与峰度以及充分统计量等基本概念的认识与理解,以期对学习数理统计能起到一定的指导作用.关键词:统计总体;统计推断;偏度;峰度;充分统计量
中图分类号:O212.1文献标识码:A doi:10.3969/j.issn.1007-9831.2010.06.029
正确理解一门学科的基本概念是学好这门学科的前提和基础,只有理解了基本概念才能掌握基本方法.数理统计学注重的是统计思想和统计方法[1-4],要想掌握好这些统计思想和统计方法,首先必须正确认识和理解其中的基本概念.在教学过程中发现,不少学生在学习数理统计时把注意力全部集中在统计计算上,盲目地套用教材中现有的统计公式和统计模型,对一些重要的基本概念没有正确认识,甚至出现一些错误的认识和理解,从而导致统计分析的盲目性和错误性.
1 总体与统计推断
总体和样本是数理统计的最基本概念,数理统计的基本任务是通过样本的信息对总体进行统计推断.但在实际问题中,有不少学生对总体的认识不够深入,常常导致统计分析的盲目性.
1.1 正确认识总体是统计推断的前提和基础
研究对象的全体统称为总体.在数理统计中,总体往往用研究对象的一个或若干个数量指标构成的随机变量来刻画.统计问题和统计模型就是针对总体提出来的.统计方法是因对总体的推断需要而产生的,统计思想蕴含在对总体进行推断的一系列统计处理中.
总体的个体之间的差异是造成抽样误差的直接原因.不同总体抽样误差的来源不同,进而采用的统计方法就可能不同.例如:要考察2个城市某年龄段学生的平均身高有无显著性差异,那么这2个城市该年龄段学生的身高就构成了2个总体.现从这2个总体分别抽样,抽样的误差来自于2个总体内部个体之间的差异.要比较这2个总体的均值是否有差异,使用的方法就是常用的两样本t检验.但是,如果要考察某种减肥药的减肥效果,对1组试验者进行试验,观测服药前和服药后的体质量,尽管获得的也是2组数据,但这并非个样问题.因为这里的总体是各试验个体服药后相对于服药前体质量的影响效果构成,这种效果用各个体服药前的体质量与服药后的体质量差值这个指标来反映.而抽样误差就来自于各个体这种差值之间的差异性.在进行统计推断时,应采用的统计方法是配对样本的t检验.由此可见,只有在明确总体之后才能正确运用统计方法来处理统计问题.离开了总体,统计处理将迷失方向.
1.2 基于样本对总体进行统计推断的认识与思考
欲使对总体的推断不会出现任何错误,那只有逐个去观测总体中的所有个体.显然,这是没有意义的,也是不现实的.因此,统计工作者需要进行抽样.样本来自于总体,但它只是总体的一部分,所以样本没有包含总体的所有信息.基于样本对总体作推断,这就是用“部分”来推断“整体”的思想.但是,统计
收稿日期:2010-06-10
基金项目:安徽省高校省级教学研究项目(2007jyxm195)
作者简介:何道江(1980-),男,安徽六安人,讲师,硕士,从事数理统计研究.E-mail:djheahnu@
学中的这种“部分”不是随意收集的,它要求这样的“部分”能够反映“整体”的统计规律和统计特征,不仅要具有“随机性”,而且要具有“代表性”.因此,在统计学中需要研究如何进行抽样调查和试验设计. 在学习统计推断的过程中,需要培养一种思维能力,那就是用“合理”、“近似”代替“正确”、“精确”的思维能力.在统计学中,很多统计分析方法不同于数学中的定理和命题等,因为这些统计方法往往反映的是一些统计思想,不能用是否正确来评价,只能说它们是否合理.只要统计思想合乎逻辑,分析结果合乎实际,这样的统计方法就是可取的.另一方面,统计学者所建立的统计模型只是一种“近似”的模型,这是因为我们对总体的信息往往都了解得甚少,总体的分布始终是未知的,所以不能用是否精确来评价一个统计模型.例如:常用的统计模型是参数结构,这实际上就是对总体分布族的一种近似设定.当然也可以设定为非参数结构.但值得注意的是,非参结构下的推断结果通常没有参数结构下的推断结果好,这是因为参数结构利用了总体分布族这一信息.
2 偏度与峰度
偏度和峰度是一组重要的描述性统计量,它们在统计推断中起着重要的作用.
2.1 偏度
设X 是一随机变量,X 的偏度定义为2323)(µµγ=,其中:k µ是X 的k 阶中心矩.若0>γ,则称X 是正偏的;若0<γ,则称X 是负偏的.偏度常常被认为反映的是随机变量分布在众数两边的对称偏斜性,这也是不少学生对偏度理解的一个误区.实际上,分布在众数两边的对称偏斜性对偏度值的影响是比较有限的,对偏度值影响较大的是分布在其中一个方向上的尾部有拉长趋势的程度.因此,正偏往往更多反映的是分布在右方向的尾部比在左方向的尾部有拉长的趋势,负偏往往更多反映的是分布在左方向的尾部比在右方向的尾部有拉长的趋势.如果5.123µµγ=称为总体的偏度,那么样本的偏度定义为323)ˆννγ=,其中:∑=−=n i i X X n 133(1ν;∑=−−=n i i X X n 1
22)(11ν,γˆ也是γ的一个估计. 例1[5]146
图1给出的是样本容量均为100的2组样本的频数直方图.从直观上看,图1b 的分布较图1a 在众数两边似乎更为偏斜,但图1a 和图1b 的样本偏度值分别为2.420 2和0.729 0,即图1a 的偏度明显大于图1b 的偏度,其原因就在于前者的分布较后者在右方向的尾部有更明显的拉长趋势.本例也说明了将偏度理解为反映分布在众数两边的对称偏斜性的一个量是欠妥当的.
2.2 峰度
随机变量X 的峰度定义为3224−=µµκ ,它度量了分布尾部相对于正态分布而言的重轻(厚薄).若0>κ,则说明X 的分布的尾部比正态分布的尾部重;若0<κ,则说明X 的尾部比正态分布轻.相应的样本峰度定义为,3ˆ224−=ννκ 其中:∑=−=n i i X X n 144)(1ν;∑=−−=n i i X X n 1
22)(11ν. 峰度常被学生理解为是描述一个分布相对于正态分布陡峭程度的量.事实上,这种理解是不正确的.
例2[5] 图2是容量为150的样本数据经标准化后所得的频数直方图,同时也给出了拟合的正态曲线
图.从图2中可以看出,分布在众数附近“峰”的陡峭程度要远高于正态分布.但是,经计算样本的峰度
值为0 2320 ˆ.κ
−=,小于正态分布的峰度值0.这里0ˆ<κ是因为这组数据的两侧尾部比正态分布轻.
a b