第六章 从本统计量估计整体参数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章从样本统计量估计整体参数
学习要点
第一节点估计
第二节区间估计
第三节总体均数的估计
第四节其他总体参数的估计
本章小结
学习要点
掌握推断统计的内容和前提条件
理解统计估计的原理,掌握统计估计的方法
能够运用总体均数估计的方法解决实际问题
第一节点估计
当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值” 。
科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。
一、什么是推断统计
一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。
具有这一特征的统计量就无偏估计值。
例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。
推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,
由已知推未知的过程。
推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数
(μ,2
σ)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的
情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parameter test)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。
二、统计推断的基本问题
没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。
一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。
二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个体(即N
n=)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。
三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。
第二节区间估计
一、参数估计的定义
所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数(X)去估计总体的均数(μ),根据样本方差(2S)去估计总体方差(2
σ),根据样本的相关系数(r)去估计总体相关系数(ρ)等等。
二、参数估计的方法
参数估计有点估计和区间估计两种。譬如,某学区期末时抽取所管辖的小学四年级的数学测验成绩,求得平均分70分,标准差10分,于是一个管理者认为全区四年级的数学平均分可能是70分,而另一个管理者则认为全区四年级数学平均分可能性在65~75之间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。
(一)点估计
点估计(point estimation )是在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。譬如用样本统计量:X ,S 、r 等作为总体参数μ、σ、ρ等的估计值。但是作为良好点估计的统计量必须具备一定的前提条件。
1.无偏性
用统计量估计总体参数必然会存在一定的误差,而恰好相等的情形是极少见的。当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值时,其偏差为0,即
()0=-∑μX
这时的统计量被称为无偏估计量(unbiased estimator )。譬如,根据中心极限定理二有
μμ=X ,即样本均数的均数是总体均数的无偏估计量,亦即我们可以用样本均数的均数作
为总体均数的点估计值。假设我们从某市四个区的六岁男童中随机抽取四个样本,对每个样本测量其身高的平均数,再求得四个样本均数的均数为110.70公分,并此值作为该市所有六岁男孩的平均身高就是一个点估计。如果,
()∑-μX 大于0或小于0,那么这时的统计
量就为有偏估计量。作为总体参数的良好估计值是应当具备无偏性的。
当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标准差(
1-n S )去代替总体标
准差(σ)。当总体分布呈正态时,中数也是总体均数μ的无偏估计量。然而由于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。加之点估计不能给出估计误差及其可靠性有关信息,因此采用点估计时应特别注意样本统计量所具有的特性。
2.一致性
总体参数的估计量随样本容量的无限增大,应当能越来越接近它所估计的总体参数。例如正态总体的总体均数为μ,标准差为σ,如果X 是从总体中随机抽取样本获得的平均数,其容量为n ,则当N →∞时,X →μ;
1-n S →σ。
这时样本统计量的均数X 就是总体参数μ
的一个估计值,或者说X 与μ是一致的。
3.有效性
当总体参数的无偏估计量不止一个统计量时,则要分析无偏估计量的变异大小的情况。无偏估计量变异性小的,有效性较高;无偏估计量变异性大的,则有效性较低。例如作为总体均数μ的估计值来说,样本均数X 、中数Mdn 和众数Mo 等都是无偏估计量。这时选谁