《概率论与数理统计》第七章假设检验.

《概率论与数理统计》第七章假设检验.
《概率论与数理统计》第七章假设检验.

第七章 假设检验

学习目标

知识目标:

理解假设检验的基本概念小概率原理;掌握假设检验的方法和步骤。 能力目标:

能够作正态总体均值、比例的假设检验和两个正态总体的均值、比例之差的假设检验。

参数估计和假设检验是统计推断的两种形式,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计是通过样本统计量来推断总体未知参数的取值范围,以及作出结论的可靠程度,总体参数在估计前是未知的。而在假设检验中,则是预先对总体参数的取值提出一个假设,然后利用样本数据检验这个假设是否成立,如果成立,我们就接受这个假设,如果不成立就拒绝原假设。当然由于样本的随机性,这种推断只能具有一定的可靠性。本章介绍假设检验的基本概念,以及假设检验的一般步骤,然后重点介绍常用的参数检验方法。由于篇幅的限制,非参数假设检验在这里就不作介绍了。

第一节 假设检验的一般问题

关键词:参数假设;检验统计量;接受域与拒绝域;假设检验的两类错误

一、假设检验的基本概念

(一)原假设和备择假设

为了对假设检验的基本概念有一个直观的认识,不妨先看下面的例子。 例7.1 某厂生产一种日光灯管,其寿命X 服从正态分布)200 ,(2μN ,从过去的生产经验看,灯管的平均寿命为1550=μ小时,。现在采用新工艺后,在所生产的新灯管中抽取25只,测其平均寿命为1650小时。问采用新工艺后,灯管的寿命是否有显著提高?这是一个均值的检验问题。灯管的寿命有没有显著变

化呢?这有两种可能:一种是没有什么变化。即新工艺对均值没有影响,采用新工艺后,X 仍然服从)200 ,1550(2N 。另一种情况可能是,新工艺的确使均值发生了显著性变化。这样,1650=X 和15500=μ之间的差异就只能认为是采用新工艺的关系。究竟是哪种情况与实际情况相符合,这需要作检验。假如给定显著性水平05.0=α。

在上面的例子中,我们可以把涉及到的两种情况用统计假设的形式表示出来。第一个统计假设1550=μ表示采用新工艺后灯管的平均寿命没有显著性提高。第二个统计假设1550>μ表示采用新工艺后灯管的平均寿命有显著性提高。这第一个假设称为原假设(或零假设),记为0H :1550=μ;第二个假设1550>μ称为备择假设,记为1H :1550>μ。至于在两个假设中,采用哪一个作为原假设,哪一个作为备择假设,要看具体的研究目的和要求而定。假如我们的目的是希望从子样观察值对某一陈述取得强有力的支持,则把该陈述的否定作为原假设,该陈述本身作为备择假设。譬如在上例中,我们的目的当然是希望新工艺对产品寿命确有提高,但又没有更多的数据可以掌握。为此,我们取“寿命没有显著性提高)1550(=μ”作原假设,而以“寿命有显著性提高)1550(>μ”作为备择假设。

(二)检验统计量

假设检验问题的一般提法是:在给定备择假设1H 下对原假设0H 作出判断,若拒绝原假设0H ,那就意味着接受备择假设1H ,否则就接受原假设0H 。在拒绝原假设0H 或接受备择假设1H 之间作出某种判断,必须要从子样),,,(21n X X X 出发,制定一个法则,一旦子样),,,(21n x x x 的观察值确定之后,利用我们制定的法则作出判断:拒绝原假设0H 还是接受原假设0H 。那么检验法则是什么呢?它应该是定义在子样空间上的一个函数为依据所构造的一个准则,这个函数一般称为检验统计量。如上面列举的原假设0H :)1550(00==μμμ,

那么子样均值X 就可以作为检验统计量,有时还可以根据检验统计量的分布进一步加工,如子样均值服从正态分布时将其标准化,n X Z /0

σμ-=作为检验统计

量,简称Z 检验量。或者在总体方差2σ未知的条件下,n S X t n /0μ-=

作为检验量,

称为t 检验量。

(三)接受域和拒绝域 假设检验中接受或者拒绝原假设0H 的依据是假设检验的小概率原理。所谓小概率原理,是指发生概率很小的随机事件在一次实验中几乎是不可能发生的,根据这一原理就可以作出接受或是拒绝原假设的决定。如,一家厂商声称其某种产品的合格率很高,可以达到99﹪,那么从一批产品(如100件)中随机抽取一件,这一件恰好是次品的概率就非常之小,只有1﹪。如果把厂商的宣称,即产品的次品率仅为1﹪作为一种假设,并且是真的。那么由小概率原理,随机抽取一件是次品的情形就几乎是不可能发生的。如果这种情形居然发生了,这就不能不使人们怀疑原来的假设,即产品的次品率仅为1﹪的假设的正确性,这时就可以作出原假设为伪的判断,于是否定原假设。

接受域和拒绝域是在给定的显著性水平α下,由检验法则所划分的样本空间的两个互不相交的区域。原假设0H 为真时的可以接受的可能范围称为接受域,另一区域是当原假设0H 为真时只有很小的概率发生,如果小概率事件确实发生,就要拒绝原假设,这一区域称为拒绝域(或否定域)。落入拒绝域是个小概率事件,一旦落入拒绝域,就要拒绝原假设而接受备择假设。那么应该确定多大的概率算作小概率呢?这要根据不同的目的和要求而定,一般选择05.0或者01.0,通常用α表示。它说明用多大的小概率来检验原假设。显然α愈小愈不容易推翻原假设,而一旦拒绝原假设,原假设为真的可能性就越小。所以在作假设检验时通常要事先给定显著性水平.α(α-1称为置信水平)。图7-1所示Z 检验时的拒绝域和接受域。

(四)假设检验中的两类错误

由前面已知,假设检验是在子样观察值确定之后,根据小概率原理进行推断的,由于样本的随机性,这种推断不可能有绝对的把握,不免要犯错误。所犯错

H为真时却被拒绝了。这类错误称为弃真误的类型有两类:一类错误是原假设

错误,犯这种错误的概率用α表示,所以也叫α错误或第一类错误。另一类错误H为伪时,却被人们接受而犯了错误。这是一种取伪的错误,这种是指原假设

错误发生的概率用β表示,故也称β错误或第二类错误。在厂家出售产品给消费者时,通常要经过产品质量检验,生产厂家总是假定产品是合格的,但检验时厂家总要承担把合格产品误检为不合格产品的某些风险,生产者承担这些风险的概率就是α,所以α也称为生产者风险。而在消费者一方却耽心把不合格产品误检为合格品而被接受,这是消费者承担的某些风险,其概率就是β,因此第二类错误β也称为消费者风险。正确的决策和犯错误的概率可以归纳为表7.1。

自然,人们希望犯这两类错误的概率愈小愈好。但对于一定的子样容量n,不可能同时做到犯这两类错误的概率都很小。通常的假设检验只规定第一类错误α,即显著性水平,而不考虑第二类错误β,并称这样的检验为显著性检验。

表7.1 假设检验中各种可能结果的概率

(五)双边检验和单边检验

根据假设的形式,可以把检验分为双边检验和单边检验,单边检验又进一步分为右检验和左检验。

1、双边检验

例如,检验的形式为:

0H :0μμ=

1H :0μμ≠

由于我们在这里提出的原假设是μ等于某一数值0μ,所以只要0μμ>或0μμ<二者之中有一个成立,就可以否定原假设,这种假设检验称为双边检验,它的拒绝域分为两个部分,有两个临界值,在给定显著性水平α下,每个拒绝域的面积为2/α。双边检验如图7.2所示。

2、单边检验

在有些情况下,我们关心的假设问题带有方向性。例如产品的次品率则要求愈低愈好,它不能高于某一指标,当高于某一指标,就要拒绝原假设,这就是单边检验。这时拒绝域的图形在右侧,就称作单边右检验。检验的形式可以写为:

0H :0μμ≤,

1H :0μμ>。

又例如,灯管的使用寿命,药物的有效成分这类产品质量指标是愈高愈好,它不能低于某一标准,当低于某一标准时就要拒绝原假设,这时拒绝域的图形在

左侧,就称为单边左检验。检验的形式为:

0H :0μμ≥,

1H :0μμ<。

二、假设检验的一般步骤

一个完整的假设检验过程,一般包括五个主要步骤:

(一)提出原假设和备择假设

确定是双边检验还是单边检验,例如双边检验为:

0H :0μμ=, 1H :0μμ≠。

单边左检验为:

0H : 0μμ≥,1H :0μμ<。

单边右检验为:

0H : 0μμ≤,1H :0μμ>。

(二)建立检验统计量

建立检验统计量是假设检验的重要步骤。譬如上例中,在总体X 服从正态分布)200 ,(2μN 的假定下,当原假设0H :1550=μ成立时,建立检验统计量n X Z /2001550

-=,那么Z 就服从标准正态分布)1 ,0(N 。

在具体问题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。例如,用于进行检验的样本是大样本还是小样本,总体方差是已知还是未知等等,在不同条件下应选择不同的检验统计量。

(三)规定显著性水平α,确定0H 的拒绝域

例如,当原假设0H :0μμ=成立时,检验统计量U 服从标准正态分布)1 ,0(N ,那么给定显著性水平α()10<<α,按双边检验,在标准正态分布表中查得临界值2

αz ,使得

α

α=≥}{2z Z P ,

或者

α

αα-=≤≤-1}{22z Z z P 。

若由子样),,,(21n X X X 的一组观察值),,,(21n x x x 算得统计量Z 的值z 落在) ,(2αz --∞或) ,(2∞αz 时,则拒绝或否定0H ,) ,(2αz --∞及) ,(2

∞αz 组成0H 的拒绝域,称2

αz 为临界值。

(四)计算实际检验量

在例7.1中,

5.225/2001550

1650/0=-=-=n X z σμ。

(五)判断

将实际检验量的数值与临界值比较,以确定接受或拒绝0H 。在本例中,645.105.0==u z α。实际检验量u 之值大于临界值645.1,即落入拒绝域,故拒绝0H :1550=μ,接受假设1H :1550>μ,即可认为采用新工艺后日光灯管的平均寿命有显著性提高。

第二节 正态总体的参数检验 关键词:总体均值的检验; 总体比例的检验;单边右检验;单边左检验;两个总体均值之差;两个总体比例之差

一、一个正态总体的参数检验

(一)总体均值的检验

1、正态总体且方差2σ已知

例7.2 某厂生产一种耐高温的零件,根据质量管理资料,在以往一段时间里,零件抗热的平均温度是12500C ,零件抗热温度的标准差是1500

C 。在最近生产的一批零件中,随机测试了100个零件,其平均抗热温度为12000C 。该厂能否认为最近生产的这批零件仍然符合产品质量要求,而承担的生产者风险为0.05。

解:从题意分析知道,该厂检验的目的是希望这批零件的抗热温度高于12500C ,而低于12500C 的应予拒绝,因此这是一个左边检验问题。

(1)提出假设:0H : ,1250≥μ

1H :1250<μ。 (2)建立检验统计量为:

n X Z /0σμ-=。

(3)根据给定的显著性水平05.0=α,查表得临界值645.105.0-=-z ,因此拒绝域为)645.1 ,(--∞。 (4)计算检验量的数值

33.3100/1501250

1200/0-=-=-=n X z σμ。

(5)因为)645.1 ,(33.3--∞∈-,落入拒绝域,故拒绝原假设或接受备择假设,认为最近生产的这批零件的抗高温性能低于12500C ,不能认为产品符合质量要求。

2、大样本,总体分布和总体方差2σ未知

在大样本的条件下,不论总体是否服从正态分布,由中心极限定理可知,样本均值X 近似服从正态分布) ,(2

n N σμ,(μ为总体均值,2σ为总体方差,n 为

样本容量)。总体方差未知时,可用大样本方差2121)(11X X n S

n

i i n --=∑=-代替总体方差2σ来估计。所以总体均值的检验量为:

n S X Z n /10

--=μ。

例7.3 某阀门厂的零件需要钻孔,要求孔径cm 10,孔径过大过小的零件都不合格。为了测试钻孔机是否正常,随机抽取了100件钻孔的零件进行检验,测得cm X 6.9=,cm s 1=。给定05.0=α,检验钻孔机的操作是否正常。

解:从题意可知,这是一个总体均值的双边检验问题。

(1)提出假设:0H :, 10=μ 1H :10≠μ。

(2)建立检验统计量:

n S X Z n /10

--=μ。

(3)由给定的显著性水平05.0=α,查表得临界值96.12/±=±αz ,因此拒绝域为)96.1 ,(--∞及) ,96.1(∞。

(4)计算实际检验量的数值:

4100/110

6.9/10

-=-=-=-n S X z n μ。

(5)因为)96.1 ,(4--∞∈-,落入拒绝域,故应拒绝原假设0H ,接受1H ,

认为零件的孔径偏离了cm 10的合格要求,且偏小。这说明钻孔机的操作已不正常,应进行调试。

3、小样本,正态总体且方差2σ未知

当总体服从正态分布) ,(2σμN ,μ和2σ为未知参数,小样本时,要检验0H 时的统计量是自由度为1-n 的-t 分布:

n S X t n /10

--=μ。

例7.4 某日用化工厂用一种设备生产香皂,其厚度要求为cm 5,今欲了解设备的工作性能是否良好,随机抽取10块香皂,测得平均厚度为cm 3.5,标准差为cm 3.0,试分别以05.0 ,01.0的显著性水平检验设备的工作性能是否合乎要求。

解:根据题意,香皂的厚度指标可以认为是服从正态分布的,但总体方差未知,且为小样本。这是一个总体均值的双边检验问题。

(1)提出假设:0H :5=μ(合乎质量要求),

1H :5≠μ (不合乎质量要求)。

(2)建立检验统计量。

由题目的条件,检验统计量为:

n S X t n /10

--=μ。

(3)当01.0=α和自由度91=-n ,查表得2498.3)9(2/=αt ,拒绝域为)2498.3 ,(--∞及) ,2498.3(∞,接受域为 3.2498) ,2498.3(-。

当05.0=α和自由度91=-n ,查表得2622.2)9(2/=αt ,拒绝域为)2622.2 ,(--∞及) ,2622.2(∞。

(4)计算实际检验量的值:

16.310/3.05

3.5/0

=-=-=n s X t μ。

(5)当01.0=α时,)2498.3 ,2498.3(16.3-∈,落入接受域,故接受原假设0H ,认为在01.0=α的显著性水平下,设备的工作性能尚属良好。当05.0=α时,

) ,2622.2(16.3∞∈,落入了拒绝域,因此要拒绝原假设0H ,认为在05.0=α的显著性水平下,设备的性能与良好的要求有显著性差异。

同样的检验数据,检验的结论不同,这似乎是矛盾的。其实不然,当在显著性水平01.0=α时接受原假设,只能是认为在规定的显著性水平下,尚不能否定原假设。接受0H ,并不意味着有绝对的把握保证0H 为真。我们从此例看到,在95﹪的置信水平上否定原假设,但是却不能在99﹪的置信水平上否定原假设。

(二)总体比例的检验

在实际问题中,检验总体中具有某种特征的个体所占的比例是否为某个假设值0p ,是经常遇到的。譬如,一批产品中的次品率,适龄儿童的入学率,电视

节目的收视率,等等。由中心极限定理可知,在大样本的情况下,样本比例p

?渐进服从正态分布,因而可用Z 统计量进行检验。

n p p p p

Z )

1(?000--=

例7.5 一项社会调查结果指出某市老年人口的比重为14.7﹪,该市老年人口研究会为了检验调查结果的可靠程度,随机抽选了该市400名居民,其中有57名年龄在65岁以上的老年人。在给定显著性水平05.0=α下,调查结果是否支持该市老年人口的比重为14.7﹪的看法?

解:这是一个有关总体比例的双边检验问题。

(1)提出假设: 0H :7.14=p ﹪,

1H :7.14≠p ﹪。

(2)计算子样比例 25.14400

57?==p ﹪及实际检验量: 254.0400)147.01(147.0147.01425.0)

1(?000-=--=--=n p p p p

z 。

(3)当05.0=α时,查正态分布表,得临界值96.12/05.0±=z

(4)由于2/αz z ≤,故接受0H ,所以认为调查结果有95﹪的把握支持该市老年人口的比重为14.7﹪的看法。

二、两个正态总体的参数检验

在许多实际问题和科学研究中,人们需要比较两个总体的参数,看它们是否有显著性的差别。例如,两个试验品种的农作物产量是否有明显的差异;在相同的年龄组中,高学历和低学历的职工收入是否有差异;两种农药杀虫效果的比较,等等。对此,可以利用两个正态总体的参数检验寻求答案。

(一)两个总体均值之差的抽样分布

两个总体均值之差的分布一般有三种情形:

1、当两个正态总体方差已知时,两总体均值之差的抽样分布为:

1) ,0(~)

()(2

2212

12121N n n X X Z σσ

μμ+---= 2、当两个总体分布和总体方差未知,两个均为大样本时,两总体均值之差的抽样分布为:

)1 ,0(~)

()(2

2212

1212121

N n S n S X X Z n n +---=μμ 3、当两个正态总体方差未知(但方差相等),两个均为小样本时,两总体均值之差的抽样分布为:

)2(~11)

()(21212121-++---=n n t n n S X X t w μμ, 2212222112

,2)1()1(2

1w w n n w S S n n S n S n S =-+-+-=。

(二)两个总体均值之差的检验

在对两个总体均值之差进行假设检验时,假设的形式一般有以下三种: 0H :21μμ= 1H :21μμ≠

0H :21μμ≤ 1H :21μμ>

0H :21μμ≥ 1H :21μμ<

例7.6 在一项社会调查中,要比较两个地区居民的人均年收入。根据以往的资料,甲、乙两类地区居民人均年收入的标准差分别为=1σ5365元和=2σ4740元。现从两地区的居民中各随机抽选了100户居民,调查结果为:甲地区人均年收入=1X 30090元,乙地区人均年收入为=2X 28650元。试问,当05.0=α时,甲、乙两类地区居民的人均年收入水平是否有显著性的差别。

解:这是两个总体均值之差的显著性检验,没有涉及到方向,所以是双边检验。由于两个样本均为大样本且总体方差已知,因而可用检验统计量:

)1 ,0(~)

()(2

2212

12121N n n X X Z σσ

μμ+---= (1)提出假设: 0H :21μμ=

1H :21μμ≠

(2)根据子样计算实际检验量的值

05.210047*********)2865030090(222

221212121=+-=+---=n n X X z σσμμ)()( (3)当05.0=α时,查正态分布表得96.12/±=αz 。

(4)因为96.105.2>=z ,故拒绝0H ,认为甲、乙两类地区居民的人均年收入有显著性差异。

例7.7 某车间比较用新、旧两种不同的工艺流程组装一种电子产品所用的时间是否有差异,已知两种工艺流程组装产品所用的时间服从正态分布,且

2221σσ=。第一组有10名技工用旧工艺流程组装产品,平均所需时间66.271=X 分钟,子样标准差121=s 分钟,另一组有8名技工用新工艺流程组装产品,平均所需时间6.172=X 分钟,标准差5.102=s 分钟。试问用新、旧两种不同工艺流程组装电子产品哪一种工艺方法所需时间更少?()05.0=α

解:由题意知,总体方差2221,σσ未知,但两者相等。两样本均为小样本,故

用t 作检验统计量

)2(~11)

()(21212121-++---=n n t n n S X X t w μμ

2)1()1(212222112

-+-+-=n n s n s n S w

1、提出假设,若021=-μμ,则表示两种工艺方法在所需时间上没有显著差异;若021>-μμ,则表示用新工艺方法所需时间少,所以,单边右检验:

0H :021≤-μμ,

1H :021>-μμ。

2、由已知条件,8 ,10 ,5.10 ,12 ,6.17 ,66.272122

2121======n n s s X X ,计算检验量的值:

23.12928105.10)18(12)110(2)1()1(2

2212222112=-+-+-=-+-+-=n n s n s n S w

, 37.1123.129==w S 。

21212111)

()(n n S X X t w +---=μμ

867.18110137.110

)6.1766.27(=+--=。 3、当05.0=α时,t 的自由度为162810221=-+=-+n n ,查-t 分布表,临界值为7459.1)16(05.0=t ,拒绝域为) ,7459.1(∞,因867.1∈) ,7459.1(∞落入拒绝域,所以拒绝0H ,接受1H ,认为新工艺流程组装产品所用时间更少。

(三)两个总体比例之差的检验

两个总体比例之差的检验与两个总体均值之差的检验一样,所不同的只是比较的两个总体都是两点)10(-分布的总体,即两个总体中具有某种特征的个体的比例进行比较。设这两个总体中具有某种特征的个体的比例分别为1p 和2p ,但

1p 和2p 未知,可用子样比例1?p

和2?p 代替。在第六章第三节已给出了两个子样比例之差21??p p

-的抽样分布,为近似地服从以p p -1为期望,以2

22111)1()1(n p p n p p -+-为方差的正态分布。当检验两个总体比例之差是等于0,还是不等于0时,检验统计量的公式略有变化。

1、假设为:0H :021=-p p

1H :021≠-p p

则检验统计量为:

)11)(?1(?)()??(212121n n p p p p p p

Z +----=。

其中2

121222111? ,? ,?n n X X p n X p n X p ++===,两个子样比例均为大样本,且

)1( , ),1( ,22221111p n p n p n p n --均大于5。

例7.8 某保险公司要了解抽烟人群中犯心脏病的比例是否显著高于不抽烟的人群犯心脏病的比例,作了一项调查。调查对象为50岁的男性,抽烟每天至少要抽一包。结果80名抽烟者中有20名犯过心脏病,120名不抽烟的人中有15名犯过心脏病。试以05.0=α的 显著性水平推断抽烟人群与不抽烟人群中犯心脏病的比例是否有显著性差异。

解:由题意可知,这是一个单边右检验。令

1p 表示抽烟人群中犯心脏病的比例;

2p 表示不抽烟人群中犯心脏病的比例; 25.080

20?111===n X p 为抽烟人群犯心脏病的子样比例; 125.012015?222===n X p

为不抽烟人群犯心脏病的子样比例; (1)提出假设:0H :021≤-p p ,

1H :021>-p p 。

(2)根据子样数据计算检验量的值:

175.0120801520?2121=++=++=n n X X p ,

28.2)1201801)(175.01(175.00)125.025.0()11)(?1(?)()??(212121=+---=+----=n n p p p p p p

z 。

(3)当05.0=α时,查正态分布表得645.105.0=z ,拒绝域为) ,645.1(∞因为) ,645.1(28.2∞∈=z 落入拒绝域,故拒绝0H ,接受1H ,认为抽烟的人群中犯心脏病的比例要高于不抽烟的人群,表明抽烟与不抽烟的人群中犯心脏病的比例有显著性的差异。

2、当假设为: 0H :021d p p =-,

1H :021d p p ≠-。

则检验统计量为:

2221110

21)1()1()(n p p n p p d p p Z -+---=。

例7.9 某市教育和卫生部门组成联合调查组,对城区初中的男生和女生中视力近视的人数比例作调查。在初中男生中随机抽查了60人,有18人近视,在初中女生中抽查了40人,有14人近视。当显著性水平为05.0=α时,是否可以认为城区初中的男生视力近视的比例要低于女生视力近视的比例。

解:作假设检验,令:

1p 表示初中男生视力近视的比例;2p 表示初中女生视力近视的比例。 0H : 021≥-p p ,表示男生和女生近视的人数比例没有显著差异, 1H : 021<-p p ,男生近视的比例低于女生近视的比例。

由题意知,3.06018?1==p , 35.040

14?2==p 。 实际检验统计量的值为:

2

22

1112121)?1(?)?1(?)()??(n p p n p p p p p p z -+----= 52.040)35.01(35.060)3.01(3.00

)35.030.0(-=-+---=

。 这是一个单边左检验,当05.0=α时,临界值为负的,查表得645.105.0-=z ,拒绝域为)645.1 ,(--∞,645.152.0->-=u ,故接受0H ,拒绝1H ,即尚不能认为该市城区初中男生近视的人数比例要低于初中女生近视的比例。

第三节 Excel 在假设检验中的应用

关键词:“工具”;“数据分析”;“Z 检验:二样本平均差检验”

本节介绍的总体参数假设检验包括一个正态总体和两个正态总体的参数检验。对于一个正态总体参数的检验,熟悉Excel 的读者,可参照第六章的案例构

造一张假设检验的Excel 工作表,进行检验,限于篇幅这里不再介绍。下面分别就Z 检验法和t 检验法来介绍两个正态总体均值之差的检验中Excel 的应用。

一、Z 检验法

设有两个正态总体,且为大样本,方差2221 σσ和已知,要求作两个总体均值

之差的检验。

例7.10 为了评价A 、B 两厂生产的某种相同的轻型材料的抗压强度,分别从A 、B 两厂生产的材料中随机抽取样品。从A 厂生产的材料中抽取了30个样品,从B 厂生产的材料中抽取40个样品。根据以往的资料,A 、B 两厂生产的材料的

抗压强度的方差分别为642A =σ和1002B =σ。根据以上抽样结果(表7.1),检验

两厂生产的这种轻型材料的抗压强度是否有显著性差异(设=α0.05)。

表7.2 A 、B 两厂材料样品的抗压强度(单位:㎏/㎡)

解:首先我们将上表中A 、B 两厂的样品数据分别输入到Excel 工作表中的A1:A30和B1:B40。

1、提出假设:

0H :21μμ=

1H :21μμ≠

2、用EXCEL 进行计算分析:

(1)选择“工具”下拉菜单;

(2)选择“数据分析”选项;

(3)在分析工具中选择“Z 检验:二样本平均差检验”;

(4)当出现对话框后,在“变量1的区域”方框内键入A1:A30;在“变量2的区域”方框内键入B1:B40;在“假设平均差”方框内键入0;在“变量1的

区域”方框内键入64;在“变量2的区域”方框内键入100;在“α”方框内键入0.05;在“输出选项”中选择输出区域(在此选择“新工作表”)。 点击“确定”,

便输出表7.3的计算结果。

表7.3 Z 检验:二样本平均差检验

由于z=1.91636<2/αz =1.95996,所以接受0H 。即认为A 、B 两厂生产的这种材料的抗压强度没有显著性差异。

二、t 检验法

有两个正态总体,方差2221 σσ和未知,且为小样本,作两个总体均值之差的

检验。

例7.11 工厂的管理人员对组装新产品的两种方法所需要的时间(单位:分钟)进行测试,他们认为顺序的合理是节约时间提高效率的关键。从采用方法A 和方法B 的两组工人中,各随机抽取了8个工人,测试的结果如表7.4。假设组装的时间服从正态分布,试以0.05的显著性水平比较两种组装方法是否有显著性差异。

表7.4 组装产品所用的时间

1方法A 方法B 28.28.83 5.39.5410.811.359.786 6.58.37 5.17.5869.39810.910

解: (1)选择“工具”下拉菜单

(2)选择“数据分析”选项

(3)在分析工具中选择“t 检验:平均值的成对二样本分析”

(4)在出现的对话框中,在“变量1的区域”方框内键入A2:A9;在“变量2的区域”方框内键入B2:B9;在“假设平均差”方框内键入0;在“α”方框内键入0.05;在“输出选项”中选择区域(新工作表);点击“确定”,计算结果输出如表7.5。

表7.5 t 检验:二样本平均差检验

由于3646.262231.22/=<-=αt t ,所以接受0H ,认为两种组装方法没有显著性差异。 本章小结

本章的内容假设检验是统计推断的另一类重要问题,同参数估计一样都是课

统计学第七章假设检验

第七章 假设检验 Ⅰ.学习目的 假设检验包括参数检验与非参数检验,是一种最能体现统计推断思想和特点的方法。通过本章学习,要求:1.掌握统计检验的基本原理,理解该检验的规则及犯两类错误的性质;2.熟练掌握总体均值、总体成数及总体方差指标的各种检验方法,包括:z 检验、t 检验和p 值检验;3.掌握2 检验、符号检验、秩和检验及游程检验四种基本的非参数检验方法。 Ⅱ.课程内容要点 第一节 假设检验的基本原理 一、假设检验的基本原理 “小概率原理”:小概率事件在一次试验中几乎是不会发生的。 事先所做的假设,是假设检验中关键的一项工作。它包括原假设和备选假设两部分。原假设是建立在假定原来总体参数没有发生变化的基础之上的。备选假设是原假设的对立,是在否认原假设之后所要接受的,通常这是我们真正感兴趣的一个判断。 二、假设检验的规则与两类错误 1、假设检验的规则 假设检验的步骤: (1)首先根据实际应用问题确定合适的原假设0H 和备选假设1H ; (2)确定检验统计量,通过数理统计分析确定该统计量的抽样分布;

(3)给定检验的显著性水平α。在原假设成立的条件下,结合备选假设的定义,由检验统计量的抽样分布情况求出相应的临界值,该临界值为原假设的接受域与拒绝域的分界值; (4)从样本资料计算检验的样本统计量,并将其与临界值进行比较,判断是否接受或拒绝原假设。 从检验程序我们可以看出,统计量的取值范围可以分为接受域和拒绝域两个区域。拒绝域正是统计量取值的小概率区域。按照我们将这个拒绝域安排在所检验统计量的抽样分布的某一侧还是两端,可以将检验分为单侧检验或双侧检验。双侧检验中,又可以根据拒绝域,是在左侧还是在右侧而分为左侧检验和右侧检验。对于这些双侧、左、右单侧检验,我们要结合备选假设来考虑。 在检验规则中,我们经常碰到两种重要的检验方法:z检验与t检验。 p值检验的原理:给出原假设后,在假定原假设正确的情况下,参照备选假设,可以计算出检验统计量超过或者小于(还要依照分布的不同、单侧检验、双侧检验的差异而定)由样本所计算的检验统计量的数值的概率,这便是p值;而后将此概率值跟事先给出的显著性水平值α进行比较。如果该值小于α,否定原假设,取对应的备选假设。如果该值大于α,我们不就能否定原假设。 2、两类错误 H实际为真,但我们却依据样本信息,做出拒绝的错误结论当原假设 时,称为“弃真”错误;当原假设实际为假,而我们却错误接受时,称为“纳伪”错误。通常记显著性水平α为犯“弃真”错误的可能性大小,β为犯“纳伪”错误的可能性大小。由于两类错误是一对矛盾,在其他条件不变得情况下,减少犯“弃真”错误的可能性大小(α),势必增大犯“纳伪”错误的可能性大小(β),也就是说,β的大小和显著性水平α的大小成相反方向变化。 三、检验功效 -可以用来表明所做假设检验工作好坏的一个指标,我们称之为检1β

社会统计学习题集--二项分布与正态分布.

第七章假设检验 第一节二项分布 二项分布的数学形式·二项分布的性质 第二节统计检验的基本步骤 建立假设·求抽样分布·选择显著性水平和否定域·计算检验统计量·判定 第三节正态分布 正态分布的数学形式·标准正态分布·正态分布下的面积·二项分布的正态近似法 第四节中心极限定理 抽样分布·总体参数与统计量·样本均值的抽样分布·中心极限定理 第五节总体均值和成数的单样本检验 σ已知,对总体均值的检验·学生t分布(小样本总体均值的检验·关于总体成数的检验一、填空 1.不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于(正态)分布。 2.统计检验时,被我们事先选定的可以犯第一类错误的概率,叫做检验的( 显著性水平,它决定了否定域的大小。 3.假设检验中若其他条件不变,显著性水平的取值越小,接受原假设的可能性越(大),原假设为真而被拒绝的概率越(小)。 4.二项分布的正态近似法,即以将B(x;n,p视为(( np ,npq查表进行计算。 5.已知连续型随机变量~(0,1,若概率P{≥}=0.10,则常数= ()。 6.已知连续型随机变量~(2,9,函数值,则概率=()。 二、单项选择

1.关于学生t分布,下面哪种说法不正确( B )。 A 要求随机样本 B 适用于任何形式的总体分布 C 可用于小样本 D 可用样本标准差S代替总体标准差 2.二项分布的数学期望为( C )。 A n(1-np B np(1- p C np D n(1- p。 3.处于正态分布概率密度函数与横轴之间、并且大于均值部分的面积为( D )。 A 大于0.5 B -0.5 C 1 D 0.5。 4.假设检验的基本思想可用( C )来解释。 A 中心极限定理 B 置信区间 C 小概率事件 D 正态分布的性质 5.成数与成数方差的关系是(D)。 A 成数的数值越接近0,成数的方差越大 B 成数的数值越接近0.3,成数的方差越大 C 成数的数值越接近1,成数的方差越大 D 成数的数值越接近0.5,成数的方差越大 6.在统计检验中,那些不大可能的结果称为( D 。如果这类结果真的发生了, 我们将否定假设。 A 检验统计量 B 显著性水平 C 零假设 D 否定域 7.对于大样本双侧检验,如果根据显著性水平查正态分布表得Zα/2=1.96,则当零假设被否定时,犯第一类错误的概率是( C 。 A 20% B 10% C 5% D.1% 8.关于二项分布,下面不正确的描述是( A )。 A 它为连续型随机变量的分布;

第七章_假设检验与方差分析习题答案

第七章 假设检验与方差分析 习题答案 一、名词解释 用规范性的语言解释统计学中的名词。 1. 假设检验:对总体分布或参数做出某种假设,然后再依据抽取的样本信息,对假设是否正确做出统计判断,即是否拒绝这种假设。 2. 原假设:又叫零假设或无效假设,进行统计检验时预先建立的假设,表示为 H 0,总是含有等号。 3. 备择假设:是零假设的对立,表示为 H 1,总是含有不等号。 4. 单侧检验:备择假设符号为大于或小于时的假设检验。 5. 显著性水平:原假设为真时,拒绝原假设的概率。 6. 方差分析:通过对数据总变异进行分解,来检验多个总体均值是否相等的一种统计分析方法。 二、填空题 根据下面提示的内容,将适宜的名词、词组或短语填入相应的空格之中。 1. u ,n x σμ0-,标准正态; ),(),(2/2/+∞--∞n z n z σσ αα 2. 参数检验,非参数检验 3. 弃真,存伪 4. 方差 5. 卡方, F 6. 方差分析 7. t ,u 8. n s x 0 μ-,不拒绝 9. 单侧,双侧 10.新产品的废品率为5% ,0.01 11.相关,总变异,组间变异,组内变异 12.总变差平方和=组间变差平方和+组内变差平方和 13.连续,离散 14.总体均值 15.因子,水平 16.组间,组内 17.r-1,n-r

18. 正态,独立,方差齐

三、单项选择 从各题给出的四个备选答案中,选择一个最佳答案,填入相应的括号中。 1.B 2.B 3. B 4.A 5. C 6. B 7. C 8. A 9. D 10. A 11. D 12. C 四、多项选择 从各题给出的四个备选答案中,选择一个或多个正确的答案,填入相应的括号中。 1.AC 2.A 3.B 4.BD 5. AD 五、判断改错 对下列命题进行判断,在正确命题的括号内打“√”;在错误命题的括号内打“×”,并在错误的地方下划一横线,将改正后的内容写入题下空白处。 1. 在任何情况下,假设检验中的两类错误都不可能同时降低。 ( × ) 样本量一定时 2. 对于两样本的均值检验问题,若方差均未知,则方差分析和t 检验均可使用,且两者检验结果一致。 ( √ ) 3. 方差分析中,组间离差平方和总是大于组内离差平方和。( × ) 不一定 4. 在假设检验中,如果在显著性水平0.05下拒绝了 00:μμ≤H ,则在同一水平一定可以拒绝假设00:μμ=H 。( × ) 不一定 5. 为检验k 个总体均值是否显著不同,也可以用t 检验,且与方差分析相比,犯第一类错误的概率不变。( × ) 会增加 6. 方差分析中,若拒绝了零假设,则认为各个总体均值均有显著性差异。( × ) 不完全相等 六、简答题 根据题意,用简明扼要的语言回答问题。 1. 假设检验与统计估计有何区别与联系? 【答题要点】 假设检验是在给定显著性水平下,计算出拒绝域,并根据样本统计量信息来做出是否拒

周飞舟《社会统计学》课程大纲

《社会统计学》课程大纲 讲授教师:周飞舟Email: sociologist@https://www.360docs.net/doc/8412545671.html, 助教:廖勤樱Email:liaoqinying@https://www.360docs.net/doc/8412545671.html, 课程介绍 统计是社会科学研究中广泛采用的定量分析方法。本课程系统地介绍了社会统计学的基本原理、基本概念和主要内容,按照变量的四个测量层次(定类、定序、定距和定比),课程详细阐述了统计描述和统计推论的操作程序和具体方法,并结合生动的实例说明了统计分析在社会研究中的作用和地位。作为一门初中级社会统计学课程,本课程内容限定在单变量和双变量统计范围之内。 教学大纲 指导思想: 社会现象的独特性和社会研究方法的特点决定了统计在社会研究中的重要地位,统计也因此而成为社会研究的重要工具和重要手段。近十几年来,统计理论、统计方法和统计手段迅速发展,其应用范围也越来越广泛。本课程的目的就是为深入这一领域建立一个基础和平台,即对统计的基本概念、原理、类型、方法、程序、作用等有基本的和概括了解与把握,并能应用这些知识对研究问题进行简单的统计分析。本课程的教与学强调:第一,社会研究是一项系统的和严谨的工作,从研究设计→资料收集→资料整理分析→撰写研究报告,各个步骤之间相互联系、相互影响,密不可分。统计分析作为研究的一个重要环节,只有放在社会研究过程的背景之下,注重其与研究问题及研究方法的联系,才能更准确地掌握每一种统计类型和统计方法的特征,才能针对具体的研究问题选择恰当的统计方法。 第二,作为一门应用性极强的课程,本课程特别强调理论联系实际的原则,在教与学的过程中,一方面教师要通过列举和分析大量研究和应用实例,深化学生对统计原理的和统计思想的理解;另一方面要求学生将学习到的知识不断运用到对实际社会问题的分析中去。为此,要求学生在学习课程讲授的知识的同时,认真完成每一讲后面所指定的“实践性”的练习。 第三,在实际的社会研究中,资料的统计分析都是通过计算机完成的。各种统计描述和统计分析方法被制作成用于计算机的专门的和通用的统计软件,如SPSS、SAS、STATE等。本课程将熟练掌握和灵活运用上述统计软件作为本课程教与学的不可分割的一部分,课程所指定的各种“实践性”练习(包括作业)要求尽量在计算机上完成。 第四,课程中介绍的各种具体的统计方法和统计技术,都有其优点和某些局限性,适用于一定的研究目的和分析要求。因此,在课程学习过程中,不仅需要对每一种方法和技术的特点、实施程序和适用范围有清楚的了解,而且也需要认识各种方法与技术之间的异同点,以便能够在面对不同的社会现象和不同的研究目的时,正确、灵活地选择和运用相应的方法与技术。 第五,统计分析是一种定量分析方法,对于统计结果的理解和解释需要联系其它调查资料,如研究对象所处社会的背景状况、所研究问题的特定意义、调查对象的特点等等来进行。对统计结果的解释和使用应当遵循实事求是的原则,杜绝弄虚作假,这是每一个从事社会研究的人员均应该严格遵循的规范。 目的要求: 通过本课程的学习,掌握统计的基本概念、原理、类型、方法、程序、作用以及应用等。能

统计学假设检验习题答案

1.假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平α=0.01与α=0.05,分别检验这批产品的平均重量是否是800克。 解:假设检验为800:,800:0100≠=μμH H (产品重量应该使用双侧 检验)。采用t 分布的检验统计量n x t /0σμ-=。查出α=0.05和0.01两个水平下的临界值(df=n-1=15)为2.131和2.947。667.116/60800820=-= t 。因为t <2.131<2.947,所以在两个水平下都接受原假设。 2.某牌号彩电规定无故障时间为10 000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10 150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0.01)? 解:假设检验为10000:,10000:0100>=μμH H (使用寿命有无显著增加,应该使用右侧检验)。n=100可近似采用正态分布的检验统计量n x z /0σμ-=。查出α=0.01水平下的反查正态概率表得到临界值2.32到2.34之间(因为表中给出的是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。计算统计量值3100 /5001000010150=-=z 。因为z=3>2.34(>2.32),所以拒绝原假设,无故障时间有显著增加。 3.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600? 解: 01:1600, :1600,H H μμ=≠标准差σ已知,拒绝域为2 Z z α>,

第七章 假设检验基础

第七章假设检验基础 一、选择题 (一)A1型 每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。 1、下面有关假设检验的描述,错误的是() A、检验假设又称无效假设,用H0表示 B、备择假设用符号H1表示 C、H1是从反证法角度提出的 D、H0、H1既相互联系有相互对立 E、H0、H1都是根据统计推断的目的而提出的对总体特征的假设 2、两样本均数比较,经t检验差别有统计学意义时,P值越小,越有理由认为() A、样本均数与总体均数差别大 B、两样本均数差别越大 C、两总体均数差别越大 D、两样本均数不同 E、两总体均数不同 3、当样本例数相同时,计量资料的成组t检验与配对t检验相比,一般情况下为() A、成组t检验效率高一些 B、配对t检验效率高一些 C、二者效率相等 D、大样本时二者效率一致 E、与两组样本均数的大小有关

4、在比较两个独立样本资料的总体均数时,进行t检验的前提条件是() A、两总体均数不等 B、两总体均数相等 C、两总体方差不等 D、两总体方差相等 E、以上都不对 (二)A2型 该题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。 1、某地成年男子红细胞数普查结果为:均数为480万/mm3,标准差为 41.0万/mm3,那么标准差反应的是() A、抽样误差 B、总体均数不同 C、随机误差 D、个体误差 E、以上均不正确 2、测定某地100名正常男子的血红蛋白量,要估计该地正常男子血红蛋白均数,95%置信区间为() A、μ±1.96X B、X±1.96 C、X±2.58S D、X±1.96S E、μ±2.58S 3、以往的经验:某高原地区健康成年男子的红细胞数不低于一般健康成年男子的红细胞数。某医师在高原地区随机抽取调查了100名健康成年男子的红细胞数,与一般健康成年男子的红细胞数进行t检验后,得到P=0.1785,故按照a=0.05的水准,结论是() A、该地区健康成年男子的红细胞数高于一般

统计学假设检验习题答案

资料收集于网络,如有侵权 请联系网站删除只供学习与交流 1.假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平α=0.01与α=0.05,分别检验这批产品的平均重量是否是800克。 解:假设检验为800:,800:0100≠=μμH H (产品重量应该使用双侧 检验)。采用t 分布的检验统计量n x t /0σμ-=。查出α=0.05和0.01两个水平下的临界值(df=n-1=15)为2.131和2.947。667.116/60800820=-= t 。因为t <2.131<2.947,所以在两个水平下都接受原假设。 2.某牌号彩电规定无故障时间为10 000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10 150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0.01)? 解:假设检验为10000:,10000:0100>=μμH H (使用寿命有无显著增加,应该使用右侧检验)。n=100可近似采用正态分布的检验统计量n x z /0σμ-=。查出α=0.01水平下的反查正态概率表得到临界值2.32到2.34之间(因为表中给出的是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。计算统计量值3100 /5001000010150=-=z 。因为z=3>2.34(>2.32),所以拒绝原假设,无故障时间有显著增加。 3.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600?

人大版统计学 习题加答案第四章 假设检验

第四章 假设检验 填空(5题/章),选择(5题/章),判断(5题/章),计算(3题/章) 一、 填空 1、在做假设检验时容易犯的两类错误是 和 2、如果提出的原假设是总体参数等于某一数值,这种假设检验称为 ,若提出的原假设是总体参数大于或小于某一数值,这种假设检验称为 3、假设检验有两类错误,分别是 也叫第一类错误,它是指原假设H0是 的,却由于样本缘故做出了 H0的错误;和 叫第二类错误,它是指原假设H0是 的, 却由于样本缘故做出 H0的错误。 4、在统计假设检验中,控制犯第一类错误的概率不超过某个规定值α,则α称为 。 5、 假设检验的统计思想是小概率事件在一次试验中可以认为基本上是不会发生的,该原理称为 。 6、从一批零件中抽取100个测其直径,测得平均直径为5.2cm ,标准差为1.6cm ,想知道这批零件的直径是否服从标准直径5cm ,在显著性水平α下,否定域为 7、有一批电子零件,质量检查员必须判断是否合格,假设此电子零件的使用时间大于或等于1000,则为合格,小于1000小时,则为不合格,那么可以提出的假设为 。(用H 0,H 1表示) 8、一般在样本的容量被确定后,犯第一类错误的概率为α,犯第二类错误的概率为β,若减少α,则β 9、某厂家想要调查职工的工作效率,用方差衡量工作效率差异,工厂预计的工作效率为至少制作零件20个/小时,随机抽样30位职工进行调查,得到样本方差为5,试在显著水平为0.05的要求下,问该工厂的职工的工作效率 (有,没有)达到该标准。 KEY: 1、弃真错误,纳伪错误 2、双边检验,单边检验 3、拒真错误,真实的,拒绝,取伪错误,不真实的,接受 4、显著性水平 5、小概率事件 6、1.25>2 1α-z

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

社会统计学00278

社会工作与管理社会统计学(00278) 一、(1)单项选择 1.社会统计学与教育统计学、医学统计学一样都是数理统计学应用于自身的结果统计学。其中推断统计学最终创立者是(B) A、B、C、D、 2.在统计中,现象总体中最常遇到的数,也就是在一个变量列中,出现次数最多的标志值是(C) A.均值 B.方差 C.众值 D.极差 3.取值只有列别层次之分。而无大小、程度之分的变量是(D) A.定比变量 B.定距变量 C.定序变量 D.定类变量 4.大样本是指样本容量大于等于(A).100 C D1000 5.统计量的第一个特征是,可以保证统计量可作为衡量小概率时间工具的前提之一是(C) A.可操作性 B.可检查性 C.可技术性 D.可忽略性 6.四分位差可以用来度量哪种变量的分散程度(C) A.定类变量何定距变量B定序变量和定距变量C.定距变量和定比变量D.定序变量和定比变量 7.将离散型随即变量的全部可能取值极其对应概率列举出来,即为离散型随机变量的(B) A.期望 B.概率分布 C.方差 D.均值 8.数学期望本意即为随机变量分布的(A) A.总体均值 B.总体方差 C.概率 D.均值 9.若事件A与事件B为互不相容事件,且在以此试验或观察中都必有其一发生,则称事件A与事件B为(B) A.相等 B.对立事件 C.概率 D.均值 10.某小组5人考试成绩为,则该组成绩的极差是(D) .15 C 11.某国企工人月工资收入平均值是798元众值是元,标准差为元,则偏态系数是(C) B.0.255 C. 12.箱中共有20个小球,其中白色为两个,问抽取两个都是白球的概率是多少(A) B.0.0526 C. 13.有两组数据A.:12.12.13.;B:,比较A、B两组数据众值大小(A)组众值大组众值大C.两组众值相等D.无法确定 14.当纳伪概率是时,每一百次抽样中有多少次采纳伪的错误被接受(D) A.0.07次次次次 15.大样本抽样中,有9位同学的成绩作为样本,分别为,对这组数据的计算正确的是(A)A.方差是 B.标准差是16.5 C.均值是92 D.中位值是58 16.甲乙丙丁四种螺丝的出现频次分别为5.20.30.25,、则这组数据的四分位差是(B) A.甲-乙 B.乙-丁 C.乙-丙 D.丙-丁 17.抛两枚硬币,两枚都是朝上的概率是(B) %%%D100%18.数据4.5.6.,众值是(C) .5 C D2 19.每次抽样经观测后将抽到的个体放 回,允许再次被抽到,这种抽样叫做 (B) A.随机抽样 B.重复抽样 C.无回置抽样 D.简单抽样 20.抽样统计量落入拒绝域时可能发生 的错误是(D) A.抽样错误 B.计算错误 C.纳伪错误 D. 弃真错误 一(2)单项选择 1.政治算数学派是统计学发展史中的 主要流派之一,该学派的鼻祖是(B) 非众值的次数之和在总体中 所占的比例叫做(C) A.众值 B.均值 C.异众比率 D.方差 3.变量中最高级层次的变量是(D) A.定类变量 B.定序变量 C.定距变量 D. 定比变量 4.有两组数据A:12.12.13.;B:,比较 A、B两组数据中位值大小。(C)组中 位值大组中位值大 C.两组中位值相等 D、无法确定 5.物理学常用的数据摄氏度属于哪种 变量(C) A.定类变量 B.定序变量 C.定距变量 D. 定比变量 6.当纳伪概率是时,每一百次抽样中有 多次纳伪的错误被接受(A) 次次次次 7.在度量定居变量和定比变量的分散 程度时我们常使用(A) A.四分位差 B.极差 C.均值 D.异众比率 8.抛两枚硬币,一枚朝上一枚朝下的概 率是(B) A..10%%%% 9.将离散型随即变量的全部可能取值 及其对应概率列举出来,即为离散型 随即变量的(B) A.期望 B.概率分布 C.方差 D.均值 10.数据4.5.6.,众值是(C) .5 C 11.在一个变量数列中,两个极端数值 之差称为(B) A.数学期望 B.全距 C.方差 D.标准差 12.若事件A与事件B为互不相容事件, 且在以此实验或观察中都必有其一发 生,则称事件A与事件B为(A)A. 对立事件B.相等事件C.包含事件D.互 不相容事件 13.某小组五人考试成绩为,则该组成 绩的算数平均值是。(C) .70 C 14.某国企业工人月工作收入平均值是 798元众值是元,标准差为元,则偏态 系数是(C) B.0.255 C. 在假设检验中接受原假设 时出现的错误,接受了位置的不真实 状态称为(C) A、抽样错误B.计算错误C.包含错误 D.弃真错误 16.箱中共有20个小球,其中白色为小 球为两个,问抽取第二个才是白球的 概率是(B) B.0.095 C. 大样本是指样本容量 大于等于(A) .100 C 18.有9位同学的成绩分别为,对这组 数据的统计算正确的是(B) A.方差是 B.标准差是14.48 C.均值是 92 D.中位值是58 19.一组数据排列如下:2.2.3.,则这组 数据的四分位差是(B) .3 C 20.每次抽样经观测后将抽到的个体放 回,允许再次被抽到,这种抽样叫做 (D) A.随机抽样 B.简单抽样 C.无回置抽样 D重复抽样 一、(3)单项选择 1.统计学发展史中的国势学派又名(D) A.算数学派 B.理论学派 C.定量学派 D. 记述学派 2.政治算术学派统计学是在哪个世纪 兴起的(C) 世纪世纪世纪世纪 3.统计学发展史上,只讲观念不谈数学 数量的学派是(A) A.国势学派 B.算术学派 C.政治学派 D. 描述学派 4.小样本的简阳方法又称为(C) 简阳检验检验检验 5.二战以后,什么研究称为数理统计学 的主流(B) A.描述研究 B.推断研究 C.概念统计研 究D.学派史研究 6.社会统计学的内容多为抽象概念,必 须经过什么定义才能形成问题便于收 集资料(A) A.操作化 B.概念化 C.数量化 D.命题化 7.对所有研究对象都进行调查,从而掌 握整个单位的全部资料的调查方法称 为(D) A.概率调查 B.抽样调查 C.非全面调查 D.全面调查 8.抽样调查是以什么为基础的( C) A.概念 B.指标 C.概率论 D.结构论 9.在社会统计学研究中,一共有几层次 的变量(C) 种种种种 10.社会统计学中的最低级别的变量是 (A) A.定类 B.定序 C.定距 D.定比 11.纯粹意义上的定距变量是(B) A.收入 B.智商 C.教育程度 D.年龄 12.下列哪个是属于离散型变量的(C) A.均值 B.身高 C.家庭子女数 D.年龄 13.在一个数量数列中,出现次数最多 的标志值称为(C) A.均值 B.标准差 C.众值 D.极差 14.极差的另一个名称为(A) A.全距 B.分位差 C.众值 D.标准差 15.标准差系数属于度量什么的变异指 标(B) A.相对聚合程度 B.相对离散趋势 C.相 对集中趋势D.稳定性 16.若事件A与事件B为互不相容事件, 且在一次试验中都必有其一发生,则 称事件A与事件B为(D) A.事件和 B.特殊事件 C.事件积 D.对立 事件 17.逆概公式是对事件发生后导致事件 发生的各种什么的分析(A)

统计学假设检验作业答案

假设检验作业答案 一、单项选择题 1.在假设检验中,第一类错误是指(A ) A.当原假设正确时拒绝原假设 B.当原假设错误时拒绝原假设 C.当备择假设正确时拒绝备择假设 D.当备择假设不正确时拒绝备择假设 2.对于给定的显著性水平α,根据P 值拒绝原假设的准则是(B ) A.P=α B.P<α C.P>α D.P=α=0 3.在大样本情况下,当总体方差已知时,检验总体均值所使用的统计量是(B )A.0/x z n μσ?=B. x z =C. x t =D. x z = 4.检验一个正态总体的方差时所使用的分布是(D ) A.正态分布 B.t 分布 C.F 分布 D.2 χ分布二、简答题 简述:假设检验依据的基本原理是什么?

三、计算题 1.已知某炼铁厂的产品含碳量服从正态分布N(4.55,0.108),现在测定了9炉铁水,其平均含碳量为4.484。如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为4.55(α=0.05)。 解:正态分布总体,方差已知,因此用Z 检验。α=0.05时,临界值为±1.96 01: 4.55, : 4.55 H H μμ=≠0.602 x z ===?1.96 1.96 z ?<<所以不拒绝原假设。 结论:样本提供的信息不足以推翻“铁水平均含碳量为4.55”的说法。 2.某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤。现用一种化肥进行试验,从35个小区抽样结果,平均产量为270公斤。问这种化肥是否使小麦明显增产?(α=0.05) 解:大样本,方差已知,用Z 检验。0.05 1.645 z =01:250, :250 H H μμ≤> 0.053.94x z z ===>所以拒绝原假设。 结论:这种化肥使小麦明显增产 3.某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂。问该批食品能否出厂?(α=0.05) 解:大样本的总体比例检验,用Z 检验。0.05 1.645 z =01:5%, :5% H H ππ≤>

社会统计学公式

测量层次 1.下面能进行除法运算的测量尺度是() A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 2.三个人体重分别为50KG、47KG、68KG,这些数据属于() A 定类层次 B定比层次 C 定距层次 D 定序层次 3. 定距层次具有的数学特质是() A >与< B≠与﹦ C+与- D*与/ E 平方与立方 4、教育程度是()的测量。 A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 5、定类层次分类时要注意两个原则,一个是,另一个是。 均值、中位值、众值 1、一组数据2 5 7 9 10 12的中位值是() A 7 B 8 C 9 D 10 2、下列指标属于集中趋势测量法的是() A众值B比例C中位值D均值D离异比率 3正态分布中相同的值是() A Q1 B众值 C Q3 D均值 E中位值 4一组12个数据,则Q1的位置= . 5. 用具有频数最多的变量值来表示变量的集中值被称为() A、众值 B、中位值 C、均值 D、四分位差 1、在选择相关测量法时,要考虑两个方面:首先的考虑是变项的,次 要的考虑是变量间的关系。 2、推论统计有两个基本内容:①;②。 3、间距估计时,一般选用的可信度是、、。 4、在一副扑克牌中单独抽取一次,抽到一张红桃或K的概率是();在一 副扑克牌中单独抽取一次,抽到一张红桃K的概率是()。 5、不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分 布就趋于()分布。 6、统计检验时,被我们事先选定的可以犯第一类错误的概率,叫做检验的 ( ),它决定了否定域的大小。 7、假设检验中若其他条件不变,显著性水平的取值越小,接受原假设的可能性 越(),原假设为真而被拒绝的概率越()。 8、参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计 和()。 9、变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去 知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这

统计学假设检验习题答案

统计学假设检验习题答案 1.假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平α=0、01与α=0、05,分别检验这批产品的平均重量就是否就是800克。 解:假设检验为800:,800:0100≠=μμH H (产品重量应该使用双侧 检验)。采用t 分布的检验统计量n x t /0σμ-=。查出α=0、05与0、01两个水平下的临界值(df=n-1=15)为2、131与2、947。667.116/60800820=-= t 。因为t <2、131<2、947,所以在两个水平下都接受原假设。 2.某牌号彩电规定无故障时间为10 000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10 150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0、01)? 解:假设检验为10000:,10000:0100>=μμH H (使用寿命有无显著增加,应该使用右侧检验)。n=100可近似采用正态分布的检验统计量n x z /0σμ-=。查出α=0、01水平下的反查正态概率表得到临界值2、32到2、34之间(因为表中给出的就是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。计算统计量值3100 /5001000010150=-=z 。因为z=3>2、34(>2、32),所以拒绝原假设,无故障时间有显著增加。 3、设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600?

假设检验的基本步骤

假设检验的基本步骤

————————————————————————————————作者:————————————————————————————————日期:

假设检验的基本步骤 (三)假设检验的基本步骤 统计推断 1.建立假设检验,确定检验水准 H0和H1假设都是对总体特征的检验假设,相互联系且对立。 H0总是假设样本差别来自抽样误差,无效/零假设 H1是来自非抽样误差,有单双侧之分,备择假设。 检验水准,a=0.05 检验水准的含义 2.选定检验方法,计算检验统计量 选择和计算检验统计量要注意资料类型和实验设计类型及样本量的问题, 一般计量资料用t检验和u检验; 计数资料用χ2检验和u检验。 3.确定P值,作出统计推理 P≤a,拒绝H0,接受H1 P>a,按a=0.05水准,不拒绝H0,无统计学意义或显著性差异 假设检验结论有概率性,无论使拒绝或不拒绝H0,都有可能发生错误 (四)两均数的假设检验(各种假设检验方法的适用条件及假设的特点、计算公式、自由度确定以及确定概率P值并做出推断结论) u检验适用条件 t检验适用条件 t检验和u检验 1.样本均数与总体均数比较 2.配对资料的比较/成组设计的两样本均数的比较 配对设计的情况:3点 3. 两个样本均数的比较 (1)两个大样本均数比较的u检验 (2)两个小样本均数比较的t检验 (五)假设检验的两类错误及注意事项(Ⅰ和Ⅱ类错误) 1.两类错误 拒绝正确的H0称Ⅰ型错误-弃真,用检验水准α表示,α=0.05,犯I型错误概率为0.05,理论上平均每100次抽样有5次发生此类错误; 接受错误的H0称Ⅱ型错误-存伪。用β表示,(1-β)为检验效能或把握度,意义为两总体有差异,按α水准检出差别的能力,1-β=0.9,若两总体确有差别,理论上平均每100次抽样有90次得出有差别的结论。 两者的关系:α愈大β愈小;反之α愈小β愈大。 2.假设检验中的注意事项 (1)随机化:代表性和均衡可比性 (2)选用适当的检验方法 (3)正确理解统计学意义 (4)结论不绝对 (5)单侧与双侧检验的选择 四.分类变量资料的统计描述

社会统计学基本公式

第三章 1、组距h 2、组中值m 3、斯特奇斯公式i u i l i( u i上限 l i下 限)u i l i 或 m i l i u i l i i 22 R h 1 3.322log N ( h:组距R:全距N:总体单位) 4、频数密度频数 频率密度 频率组距组距 5、折合系数标准组距实际组距 标准组距频数实际频数折合系数 × A n1n 1 6、基尼系数G或 G PI i i 1P i 1I i A B i1i 1 (P i是横轴上的累积百分数;I i是纵轴上的累计百分数) 洛仑兹曲线 i I A B P i

第四章 1、算术平均数( X) ()未分组资料X 1X N (2) 分组资料 fX X f 注:对于单项数列分组, X即为变量值,若为组距式分组,则X为组中值 f: 各组频数2、中位数(M d ) (1)未分组资料 若N为奇数,则取 第N 1 位上的变量值为中位数,若 N 为偶数,则取第N 22 位和第N 1位上的两个变量值的平均数作为中位数 2 N F m 1 N 2 F m (2)分组资料M d L h或 M d U2h f m f m L :中位数所在组的下限 f m:中位数所在组的频数 F m 1:小于中位数所在组的各组频数之和(向上累计) h:中位数所在组的组距 U:中位数所在组的上限 F m:包括中位数所在组的各组频数之和(向上累计) 注:中位数所在组由N 确定 2

3、四分位数 N F1 (1)第一四分位数Q1l14h1 f1 F1:小于第一四分位数所在组的各组累计频数(向上累计) l1 : 第一四分位数所在组的下限 f1:第一四分位数所在组的组距 h1:第一四分位数所在组的组距 3N F3 (2)第三四分位数Q3l 34h3 f 3 F3:小于第三四分位数所在组的各组累计频数(向上累计) l3 : 第三四分位数所在组的下限 f3:第三四分位数所在组的组距 h3:第三四分位数所在组的组距 4、众数(M o) (1)未分组资料 先将所有数据顺序排列,观察某些变量值出现的次数最多,这些变量值就是众数 (2)分组资料M o L o 1h o 12 L o : 众数所在组的下限 1:众数所在组频数与前一组频数之差 2:众数所在组频数与后一组频数之差 h o:众数所在组的组距 5、几何平均数(M g) (1)简单几何平均数 M g N X1X 2 X 3...X N N X 或lg M g 1 M g anti(lg M g ) lg X N (2)加权几何平均数 M f X1f1 X 2f2 X 3f3 ...X n f n f g X f 或 lg M g 1 M g anti(lg M g ) f l g X N 注:若为组距式分组,则X 为组中值

社会统计学基本公式

122 31 3.322log 4×6i i i i i i i i i i i i u l u l u l u l l R h N h R N A A B =-+-= =+= += == ==+第三章 、组距 h (上限 下限)2、组中值 m 或 m 、斯特奇斯公式 (:组距 :全距 :总体单位)频数频率 、频数密度 频率密度组距组距标准组距 5、折合系数实际组距 标准组距频数实际频数折合系数、基尼系数 G 11 1111 n n i i i i i i PI P I --++===-∑∑ 或 G (i i P 是横轴上的累积百分数;I 是纵轴上的累计百分数) P i I i A B

1(2))(1)122 12 22d d X X X N fX X f N N N N N F L == ++-=+∑∑∑第四章 1、算术平均数()()未分组资料 分组资料 注:对于单项数列分组,X即为变量值,若为组距式分组,则X为组中值 f:各组频数 2、中位数(M 未分组资料 若N为奇数,则取第位上的变量值为中位数,若为偶数,则取第 位和第 位上的两个变量值的平均数作为中位数()分组资料 M 112h h L : 2 m m d m m m m m N F U f f f F F N --- ?=- ?或 M 中位数所在组的下限: 中位数所在组的频数 : 小于中位数所在组的各组频数之和(向上累计) h : 中位数所在组的组距 U: 中位数所在组的上限 : 包括中位数所在组的各组频数之和(向上累计) 注: 中位数所在组由 确定

1 111 1 11113333 3 334h :h 34h :N F l f F l f N F l f F l -=+?-=+?3、四分位数 (1)第一四分位数 Q :小于第一四分位数所在组的各组累计频数(向上累计) 第一四分位数所在组的下限 :第一四分位数所在组的组距 :第一四分位数所在组的组距 (2)第三四分位数 Q :小于第三四分位数所在组的各组累计频数(向上累计) 第三四分位数所在组的331 12 12h 1 h :h 5o o o o o o f L L ?=+??+???下限 :第三四分位数所在组的组距 :第三四分位数所在组的组距4、众数(M )()未分组资料 先将所有数据顺序排列,观察某些变量值出现的次数最多,这些变量值就 是众数 (2)分组资料 M 众数所在组的下限 :众数所在组频数与前一组频数之差 :众数所在组频数与后一组频数之差 :众数所在组的组距 、几何平均数1 1 lg lg anti(lg )(2)1 lg lg anti(lg )g g g g g g g g g X N f X N X === ==== =∑∑(M )()简单几何平均数 M 或 M M M 加权几何平均数 M 或 M M M 注:若为组距式分组,则为组中值

社会统计学总结

一、算数平均数:某一总体值总体单位平均所得的标志值的水平,是反映集中趋势最常用、最基本的平均指标。 二、中位数:把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值。 三、平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。 四、标准差:各变量值对其算术平均数的离差平方的算数平均数的算数平方根,又称均方差。 五、方差:为标准差的平方。 六、众数:出现次数最多的变量值。用Mo表示。众数也是常用的反映现象集中趋势的代表性数值. 七、在社会统计中,表达相关关系的强弱,削减误差比例的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时,盲目性必然较关系不密切者为小。 八、皮尔逊相关系数:对于定距变量,根据其变量值的数学特征,我们自然可以引进更为精确的量化指标来反映它们之间的关程度。用来测量两个定距变量相关程度和方向的积差系数。它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。 九、一元回归分析:关于X为自变量、Y为不确定的因变量的变量关系,其中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示的回归分析。 十、中心极限定理:从任意一个总体中抽取样本量为n的样本,当n充分大时(在社会现象中,指n≥50),样本均值的抽样分布近似服从正态分布。 十一、P 值(显著度):1.是一个概率值 2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率 3.被称为观察到的(或实测的)显著性水平 H0 能被拒绝的最小值 十二、置信水平:总体参数值落在样本统计值某一区间的概率,也称置信度 正态分布 1.由 C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出 2.描述连续型随机变量的最重要的分布,许多现象都可以由正态分布来描述 3.可用于近似离散型随机变量的分布 例如:二项分布 4.经典统计推断的基础 原假设:待检验的假设,又称“0假设” 备择假设:与原假设对立的假设,又称研究假设 十三、否定域:不大可能出现的结果 十四、异众比率:非众数的频数与总体单位数的比值 十五、总体参数值:关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。 十六、样本统计值:关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表。 十七、Z分数:原始数据与均值之间的大小,实际表达变量值距算术平均数有几

相关文档
最新文档