生物统计学课后重点题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.8生长激素缺乏症的患儿,在用生长激素治疗前和治疗6个月后的身高和体重数据如下表[33]:
y±s
y±
s
身高/cm 108±12 114±13 20
体重/kg 20.9±2.2 24.2±4.3 20
先用t检验,推断治疗前和治疗后的平均身高和平均体重在α = 0.05水平上的差异显著性,再用治疗前和治疗后的平均数差数的0.95置信区间验证。
你认为这是一种很好的实验设计吗?怎样做检验的效果可能会更好?
答:1. 先做成组数据t检验:
(1)身高:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
1.17361 0.36536 1.51668 38.0000 0.068812
1.17361 0.36536 1.51668 37.7591 0.068838
(2)体重:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
3.82025 .0026673 3.05542 38.0000 .0020482
3.82025 .0026673 3.05542 28.3091 .0024304
2. 计算置信区间:
(1)身高:
Confidence Limits on the Difference of Means
for Non-Primal Data
F FUTAILP ALPHA LCLDMSEQ UCLDMSEQ LCLDMSUN UCLDMSUN
1.17361 0.36536 0.05 -
2.0085214.0085 -2.01020 14.0102
(2)体重:
Confidence Limits on the Difference of Means
for Non-Primal Data
F FUTAILP ALPHA LCLDMSEQ UCLDMSEQ LCLDMSUN UCLDMSUN
3.82025 .0026673 0.05 1.11356 5.48644 1.08871 5.51129
根据问题的要求,本例的t检验应为双侧检验,当t的显著性概率小于0.025时拒绝H0。
检验的结果,身高治疗前后的差异不显著。
从置信区间计算的结果,可以看出,身高的置信区间包含0,因此身高的差异不显著,体重的置信区间不包含0,因此体重的差异显著。
统计假设检验与置信区间得到的结果是一致的。
另外,本例的实验设计是配对设计,但在处理数据时,作者按成组设计计算的,虽不能算是错误,但减低了检验效率。
第五章统计推断
5.1 统计假设有哪几种?它们的含义是什么?
答:有零假设和备择假设。
零假设:假设抽出样本的那个总体之某个参数(如平均数)等于某一给定的值。
备择假设:在拒绝零假设后可供选择的假设。
5.2小概率原理的含义是什么?它在统计假设检验中起什么作用?
答:小概率的事件,在一次试验中,几乎是不会发生的。
若根据一定的假设条件,计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而否定假设。
小概率原理是显著性检验的基础,或者说显著性检验是在小概率原理的基础上建立起来的。
5.3什么情况下用双侧检验?什么情况下可用单侧检验?两种检验比较,哪一种检验的效率更高?为什么?
答:以总体平均数为例,在已知μ不可能小于μ0时,则备择假设为H A:μ>μ0,这时为上尾单侧检验。
在已知μ不可能大于μ0时,则备择假设为H A:μ<μ0,这时为下尾单侧检验。
在没有关于μ不可能小于μ0或μ不可能大于μ0的任何信息的情况下,其备择假设为H A:μ≠μ0,这时为双侧检验。
两种检验比较,单侧检验效率更高,因为在单侧检验时,有一侧的信息是已知的,信息量大于双侧检验,因此效率高于双侧检验。
5.4显著性水平是一个指数还是一个特定的概率值?它与小概率原理有什么关系?常用的显著水平有哪几个?
答:显著性水平是一个特定的概率值。
在小概率原理的叙述中提到“若根据一定的假设条件,计算出来该事件发生的概率很小”,概率很小要有一个标准,这个标准就是显著水平。
常用的显著水平有两个,5%和1%。
5.5为什么会产生I型错误?为什么会产生II型错误?两者的关系是什么?为了同时减少犯两种错误的概率,应采取什么措施?
答:在H0是真实的情况下,由于随机性,仍有一部分样本落在拒绝域内,这时将拒绝H0,但这样的拒绝是错误的。
即,如果假设是正确的,却错误地据绝了它,这时所犯的错误称为I型错误。
当μ≠μ0,而等于其它的值(μ1)时,样本也有可能落在接受域内。
当事实上μ≠μ0,但错误地接受了μ=μ0的假设,这时所犯的错误称为II型错误。
为了同时减少犯两种错误的概率,应当增加样本含量。
5.6统计推断的结论是接受H0,接受零假设是不是表明零假设一定是正确的?为什么?“接受零假设”的正确表述应当是什么?
答:统计推断是由样本统计量推断总体参数,推断的正确性是与样本的含量有关的。
以对平均数的推断为例,当样本含量较少时,标准化的样本平均数u值较小,很容易落在接受域内,一旦落在接受域内,所得结论将是接受H0。
如果抽出样本的总体参数μ确实不等于μ0,当增加样本含量之后,这种差异总能被检验出来。
因此接受H0并不表明H0一定是正确的。
接受H0的正确表述应当是:尚无足够的理由拒绝H0。
尚无足够的理由拒绝H0并不等于接受H0。
5.7配对比较法与成组比较法有何不同?在什么情况下使用配对法?如果按成组法设计的实验,能不能把实验材料随机配对,而按配对法计算,为什么?
答:配对比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。
成组比较法:将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。
在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。
如果按成组比较法设计的实验,不能把实验材料进行随机配对而按配对法计算。
因为这种配对是无依据的,不同配对方式所得结果不同,其结果不能说明任何问题。
5.8如果一个配对实验设计,在处理数据时使用了成组法计算,后果是什么?
答:对于一个配对设计,在处理数据时按成组法计算,虽然不能认为是处理错误,但会明显降低处理的敏感性,降低了检验的效率。
5.9已知我国14岁的女学生,平均体重为43.38 kg。
从该年龄的女学生中抽取10名运动员,其体重(kg) 分别为:39、36、43、43、40、46、45、45、42、41。
问这些运动员的平均体重与14岁的女学生平均体重差异是否显著?
答:H0:μ=μ0(43.38 kg)
H A:μ≠μ0
正态性检验:
从正态概率图看,抽出样本的总体近似服从正态分布。
SAS程序为:
options linesize=76 nodate;
data girl;
input weight @@;
diff=weight-43.38;
cards;
39 36 43 43 40 46 45 45 42 41
;
run;
proc means n t prt ;
var diff;
title 'T-Test for Single Mean';
run;
结果见下表:
T-Test for Single Mean
Analysis Variable : DIFF
N T Prob>|T|
--------------------------
10 -1.4117283 0.1917
--------------------------
P >0.05,尚无足够的理由拒绝H 0。
5.10 以每天每千克体重52 μmol 5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:
y /(μg · L -1) s /(μg · L -1) n 对照组
4.20 1.21 12 5-羟色胺处理组 8.49 1.11 9
检验5-羟色胺对血液中血清素含量的影响是否显著?
答:首先,假定总体近似服从正态分布(文献中没有给出)。
方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:
212
10μμμμ≠=::A H H
程序如下:
options nodate;
data common;
input n1 m1 s1 n2 m2 s2;
dfa=n1-1; dfb=n2-1;
vara=s1**2; varb=s2**2;
if vara>varb then F=vara/varb;
else F=varb/vara;
if vara>varb then Futailp=1-probf(F,dfa,dfb);
else Futailp=1-probf(F,dfb,dfa);
df=n1+n2-2;
t=abs(m1-m2)/sqrt(((dfa*vara+dfb*varb)*(1/n1+1/n2))/df);
utailp=1-probt(t,df);
k=vara/n1/(vara/n1+varb/n2);
df0=1/(k**2/dfa+(1-K)**2/dfb);
t0=abs(m1-m2)/sqrt(vara/n1+varb/n2);
utailp0=1-probt(t0,df0);
f=f; Futailp=Futailp; df=df; t=t; tutailp=utailp; output;
df=df0; t=t0; tutailp=utailp0; output;
cards;
12 4.20 1.21 9 8.49 1.11
;
proc print;
id f;
var Futailp t df tutailp;
title 'T-Test for Non-Primal Data';
run;
结果如下:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
1.18830 0.41320 8.32277 19.0000 4.6339E-8
1.18830 0.41320 8.43110 18.1369 5.4346E-8
首先看F 检验,方差齐性检验是双侧检验,当显著性概率P <0.025时拒绝H 0,在这里P =0.41,因此方差具齐性。
方差具齐性时的t 检验,看第一行的结果,其上侧尾区的显著性概率P 是一个非常小的值,远远小于0.005。
因此拒绝H 0,5-羟色胺对血液中血清素的含量有极显著的影响。
5.11 以每天每千克体重52 μmol 5-羟色胺处理家兔 14天后,体重变化如下表[9]:
y /kg s /kg n 对照组
0.26 0.22 20 5-羟色胺处理组 0.21 0.18 20
检验5-羟色胺对动物体重的影响是否显著?
答:首先,假定总体近似服从正态分布(文献中没有给出)。
方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:
212
10μμμμ≠=::A H H
程序不再给出,结果如下:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
1.49383 0.19477 0.78665 38.0000 0.21818
1.49383 0.19477 0.78665 36.5662 0.21828
方差齐性检验:P >0.025,方差具齐性。
t 检验:上侧尾区显著性概率P >0.025,因此,尚无足够的理由拒绝H 0,5-羟色胺对动物体重的影响不显著。
5.13 一种内生真菌(Piriformospora indica ) 侵染大麦后,可以提高其产量。
为此,做了以下试验对该假设进行检验,所得结果如下表[11]:
y /(g · pot -1) s /(g · pot -1) n 侵染组
59.9 1.73 6 未侵染组 53.9 3.61 6
检验侵染组与未侵染组的产量差异是否显著?
答:首先,假定总体近似服从正态分布(文献中没有给出),则方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:
212
10μμμμ≠=::A H H
结果如下:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
4.35434 0.066115 3.67137 10.0000 .0021537
4.35434 0.066115 3.67137 7.1815 .0038003
统计量F 的显著性概率P =0.066 115,P >0.025,结论是方差具齐性。
在方差具齐性时,t 检验使用第一行的结果。
统计量t 的显著性概率P =0.002 153 7,P <0.005。
因此,侵染组与未侵染组的产量差异极显著。
5.15 用内生真菌(Piriformospora indica ) 侵染大麦,播种三周后在植株的根和叶中谷胱
甘肽的含量(nmol /g )如下表[11]:
在 根 中 y s n
对 照 223 46 3
在 叶 中 y s n 对 照 510 54 3 处 理 798 113 3
分别比较在根中和在叶中谷胱甘肽含量的提高是否显著。
答:对照组命名为“1”,处理组命名为“2”,并假定总体近似服从正态分布(文献中没有给出)。
方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本例平均数差的显著性检验是单侧检验,统计假设为:
212
10μμμμ<=::A H H 所用程序与5.10题基本一致,这里不再给出。
程序运行结果如下:
(1)在根中:
T-Test for Non-Primal Data
F FUTAILP T DF TUTAILP
1.13469 0.46845
2.21633 4.00000 0.045492
1.13469 0.46845
2.21633
3.98414 0.045626
统计量F 的显著性概率P =0.468 45,P >0.025,方差具齐性。
统计量t 的显著性概率P =0.045 492,P <0.05。
结论是拒绝H 0。
在根中,谷胱甘肽含量的提高是显著的。
(2)在叶中:
T-Test for Non-Primal Data F FUTAILP T DF TUTAILP
4.37894 0.18591 3.98301 4.00000 0.008180
4.37894 0.18591 3.98301 2.86819 0.015382统计量F 的显著性概率P =0.185 91,P >0.025,方差具齐性。
统计量t 的显著性概率P =0.008 180,P <0.01。
结论是拒绝H 0。
在根中,谷胱甘肽含量的提高是极显著的。
5.29 用两种不同方法回收污水中病毒的比较,结果如下表[25]:
检测号
病毒回收方法和吸收条件 /PFU ** · L -1污水
烟 煤 (pH 3.5+MgCl 2*) Millipore (pH 3.5+MgCl 2*) 1 70 64 2 73 37 3 56 146 4 78 168 5 629 554 6 120 206 7 342 219 8 157 289 9 114 149 10 418 454
注: MgCl 2浓度为0.05 mol/L 。
**PFU :plaque-forming unit (空斑形成单位)。
检验两种过滤方法回收病毒效率上的差异,如果两种方法差异不显著,则可以用烟煤代替昂贵的millipore 过滤器。
答: 方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:
212
10μμμμ≠=::A H H
首先检验分布的正态性。
用正态概率图检验,发现分布是正偏的。
对数据做了对数变换,变换后的数据近似服从正态分布,以下是用变换后的数据所进行的分析。
程序和运行结果如下:
options linesize=76 nodate;
data virus;
input adsorb y @@;
PFU=log10(y);
cards;
1 70 1 73 1 56 1 78 1 629 1 120 1 34
2 1 157 1 114 1 418
2 64 2 37 2 146 2 168 2 554 2 206 2 219 2 289 2 149 2 454
;
proc ttest;
class adsorb;
var PFU;
title 'T-Test for Pooled Data';
run; T-Test for Pooled Data
TTEST PROCEDURE Variable: PFU
ADSORB N Mean Std Dev Std Error
-------------------------------------------------------------------------- 1 10 2.16345423 0.36626136 0.11582201 2 10 2.24530049 0.35612624 0.11261700
Variances T DF Prob>|T|
---------------------------------------
Unequal -0.5066 18.0 0.6186
Equal -0.5066 18.0 0.6186
For H0: Variances are equal, F' = 1.06 DF = (9,9) Prob>F' = 0.9347
结果显示,方差是具齐性的。
检验统计量t 的显著性概率P =0.618 6,大于0.05,没有足够的理由拒绝H 0。
因此,用烟煤和Millipore 回收病毒的效率没有显著不同。
5.30 对胎儿臂丛神经上干做拉伸实验,其中“最大应力”(MPa )的结果如下[26]:
男性 8个月 以上胎龄组 女性 8个月 以上胎龄组 男性 6.5-7个 月以上胎龄组 女性 6.5-7个
月以上胎龄组
3.751 3.156 3.175 2.368 3.021 3.673 2.541 2.694
4.138 3.082 2.473 2.572 3.574 4.269 2.714 3.045 3.875 3.842 2.928 2.214 4.012 3.946 2.636 2.717 2.996 3.741 2.444 2.462 3.687 3.472 2.873 2.831
分别检验相同胎龄、不同性别组之间,相同性别、不同胎龄组之间的最大应力差异是否显著?个体间的变异程度是否一致?
答:方差齐性检验的统计假设为:
212
10σσσσ≠=::A H H
根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:
212
10μμμμ≠=::A H
H
首先检验分布的正态性。
四组数据的正态分布图如下:
总的来看正态性近似的都比较好。
下面是t检验的结果。
(1)男婴8个月/女婴8个月:
T-Test for Pooled Data
TTEST PROCEDURE
Variable: NERVE
SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------
1 8 3.63175000 0.42390220 0.14987206
2 8 3.64762500 0.39906138 0.14108950
Variances T DF Prob>|T|
---------------------------------------
Unequal -0.0771 13.9 0.9396
Equal -0.0771 14.0 0.9396
For H0: Variances are equal, F' = 1.13 DF = (7,7) Prob>F' = 0.8775
(2)男婴6.5~7个月/女婴6.5~7个月
T-Test for Pooled Data
TTEST PROCEDURE
Variable: NERVE
SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------
3 8 2.72300000 0.25353050 0.08963657
4 8 2.61287500 0.26598412 0.09403959
Variances T DF Prob>|T|
---------------------------------------
Unequal 0.8477 14.0 0.4109
Equal 0.8477 14.0 0.4109
For H0: Variances are equal, F' = 1.10 DF = (7,7) Prob>F' = 0.9026
(3)男婴8个月/男婴6.5~7个月
T-Test for Pooled Data
TTEST PROCEDURE
Variable: NERVE
SEXAGE N Mean Std Dev Std Error --------------------------------------------------------------------------
1 8 3.63175000 0.42390220 0.14987206
3 8 2.72300000 0.25353050 0.08963657
Variances T DF Prob>|T|
---------------------------------------
Unequal 5.2038 11.4 0.0003
Equal 5.2038 14.0 0.0001
For H0: Variances are equal, F' = 2.80 DF = (7,7) Prob>F' = 0.1984
(4)女婴8个月/女婴6.5~7个月
T-Test for Pooled Data
TTEST PROCEDURE
Variable: NERVE
SEXAGE N Mean Std Dev Std Error -------------------------------------------------------------------------- 2 8 3.64762500 0.39906138 0.14108950 4 8 2.61287500 0.26598412 0.09403959
Variances T DF Prob>|T|
---------------------------------------
Unequal 6.1027 12.2 0.0001
Equal 6.1027 14.0 0.0000
For H0: Variances are equal, F' = 2.25 DF = (7,7) Prob>F' = 0.3065
从以上结果可以得出:不同性别、相同月龄的婴儿间,臂丛神经上干的最大平均应力差异不显著;相同性别、不同月龄的婴儿间,臂丛神经上干的最大平均应力差异极显著。
如何得到这样的结论,请读者自行判断。
第三章 几种常见的概率分布律
3.1 有4对相互独立的等位基因自由组合,问有3个显性基因和5个隐性基因的组合有多少种?每种的概率是多少?这一类型总的概率是多少?
答:代入二项分布概率函数,这里φ=1/2。
()75218.02565621562121!5!3!83835==⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛=p
结论:共有56种,每种的概率为0.003 906 25(1/256 ),这一类型总的概率为 0.218 75。
3.2 5对相互独立的等位基因间自由组合,表型共有多少种?它们的比如何? 答:(1) 5
43223455414143541431041431041435434143⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭
⎫ ⎝⎛=⎪⎭
⎫ ⎝⎛+ 表型共有1+5+10+10+5+1 = 32种。
(2) ()()()()()()6976000.0024114165014.0024
1354143589087.0024
19104143107263.0024127104143105395.0024
1815414353237.0024
124343554322345541322314==⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭
⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛===⎪⎭⎫ ⎝⎛=隐隐显隐显隐显隐显显P P P P P P 它们的比为:243∶81(×5)∶27(×10)∶9(×10)∶3(×5)∶1 。
3.6 把成年椿象放在−8.5℃下冷冻15分钟,然后在100个各含10只椿象的样本中计算死虫数,得到以下结果:
死虫数 0 1 2 3 4 5 6 7 8 9 10 合计 样本数
4
21
28
22
14
8
2
1
100
计算理论频数,并与实际频数做一比较。
答:先计算死虫数C :
C = 0×4+1×21+2×28+3×22+4×14+5×8+6×2+7×1 = 258 死虫率 φ= 258 / 1 000 = 0.258 活虫率 1 –φ= 0.742
展开二项式(0.742 + 0.258)10 得到以下结果:
0.050 59+0.175 90+0.275 22+0.255 19+0.155 28+0.064 79+0.018 774 +3.730 2×10-3+4.863 8×10-4+3.758 2×10-5+1.307×10-6 将以上各频率乘以100得到理论频数,并将实际数与理论数列成下表。
死虫数
实际数 理论数 偏差 0 4 5.1 -1.1 1 21 17.2 3.8 2 28 27.5 0.5 3 22 25.5 -3.5 4 14 15.5 -1.5 5 8 6.5 1.5 6 2 1.9 0.1 7 1 0.4 0.6 8 0 0 0 9 0 0 0 10
3.12 随机变量Y 服从正态分布N (5,42),求P (Y ≤0),P (Y ≤10),P (0≤Y ≤15),P (Y ≥5),P (Y ≥15)的值。
答:
()()()()()()()()()()()21
006.05.24515155
.05.010********
888.065105.079993.025.15.2450451515065
105.025.1450035
894.025.1451010=-=⎪⎭⎫
⎝⎛--=≥=-=-=⎪⎭⎫
⎝⎛--=≥=-=--=⎪⎭⎫
⎝⎛--⎪⎭⎫ ⎝⎛-=≤≤=-=⎪⎭
⎫
⎝⎛-=≤==⎪⎭⎫
⎝⎛-=≤φφφφφφφφφφφφY P Y P Y P Y P Y P
或者使用SAS 程序计算,结果见下表:
OBS MU SIGMA Y1 LOWERP Y2 UPPERP MIDP
1 5 4 10 0.89435 . . .
2 5 4 0 0.10565 . . .
3 5
4 0 0.1056
5 15 0.00621 0.88814 4 5 4 . . 5 0.50000 .
5 5 4 . . 15 0.00621 .
3.13 已知随机变量Y 服从正态分布N (0,52),求y 0 分别使得P (Y ≤y 0)=0.025, P (Y ≤
y 0)=0.01, P (Y ≤y 0)=0.95及 P (Y ≥y 0)=0.90。
答:
()()()()415.6283.15090
.050190.0225.8645.15095
.05095
.063.11326.25001
.05001.08.996.150025.050025.000000000000000
00-=-=-=⎪⎭⎫
⎝⎛--=≥==-=⎪⎭
⎫
⎝⎛-=≤-=-=-=⎪⎭
⎫
⎝⎛-=≤-=-=-=⎪⎭
⎫
⎝⎛-=≤y y y y Y P y y y y Y P y y y y Y P y y y y Y P φφφφ
3.15 一种新的血栓溶解药t -pA ,据说它能消除心脏病发作。
在一次检测中的7名检
测对象,年龄都在50岁以上,并有心脏病发作史。
他们以这种新药治疗后,6人的血栓得到溶解,1人血栓没有溶解。
假设t -pA 溶解血栓是无效的,并假设,不用药物在短时间内心脏患者血栓自己溶解的概率φ是很小的,如φ=0.1。
设y 为7名心脏患者中血栓在短时间内可以自动溶解的患者数。
问:(1)若药物是无效的,7名心脏患者中的6名血栓自动溶解的概率是多少? (2)Y ≥6是否为一稀有事件,你认为药物是否有效? 答:(1) ф= 0.1 1-ф=0.9 n=7 y =6,
()()()()()3006000.09.01.0!1!6!
79.01.06161
6
6
7
===C p
(2) ()()1000000.01.077
7
7==C p
P (Y ≥6) = 0.000 006 3+0.000 000 1 = 6.4×10-6。
结论:在不用药的情况下,7名病人中6名患者的血栓自动溶解的事件是一个小概率事
件,因此药物有效。
3.18 据一个生化制药厂报告,在流水线上每8小时的一个班中,破碎的安瓿瓶数服从泊松分布,μ=1.5。
问:
(1)夜班破碎2个瓶子的概率是多少 ? (2)在夜班打碎2个以下的概率是多少? (3)在早班破碎2个以上的概率是多少?
(4)在一天连续三班都没有破碎的概率(假设三班间是独立的)?
答:(1)()251.0!25.125
.12
=E =p
(2)()()558.0335.0223.0!15.1!05.1105.11
5
.10=+=E +E =+p p
(3)()()()()191.001212=---=>p p p x P
(4)记A 为每个班没有破碎的事件,则
()()[]011.0223.003
3
===p AAA P
第二章 概率和概率分布
2.4 白化病是一种隐性遗传病,当隐性基因纯合时(aa )即发病。
已知杂合子(Aa )在群体中的频率为1 / 70,问一对夫妻生出一名白化病患儿的概率是多少?假如妻子是白化病患者,她生出白化病患儿的概率又是多少?
答:(1)已知 ()()4170
1
=
⨯=
Aa Aa aa P Aa P
所以
()()()()()()
60019141701701=
⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛=⨯=⨯⨯=⨯Aa Aa aa P Aa P Aa P Aa Aa aa P Aa Aa P aa Aa Aa P 且生一名
(2)已知
()()21
701=
⨯=Aa aa aa P Aa P 所以
()()()()()()
()140
1217011=
⎪
⎭⎫
⎝⎛⎪⎭⎫ ⎝⎛=⨯=⨯⨯=⨯Aa aa aa P Aa P aa P Aa aa aa P Aa aa P aa Aa aa P 且生一名
2.10 一实验动物养殖中心,将每30只动物装在一个笼子中,已知其中有6只动物体重不合格。
购买者从每一笼子中随机抽出2只称重,若都合格则接受这批动物,否则拒绝。
问:
(1)检查第一只时就不合格的概率? (2)第一只合格,第二只不合格的概率? (3)接受这批动物的概率?
答:(1)设A 为第一只不合格的事件,则
()306=
A P (2)设
B 为第二只不合格的事件,则
()
296
=
A B P (3)接受这批动物的概率
()()
⎪
⎭⎫
⎝⎛⎪⎭⎫ ⎝⎛=29233024A B P A P 2.12 图2-6为包含两个平行亚系统的一个组合系统。
每一个亚系统有两个连续控制单元,只要有一个亚系统可正常工作,则整个系统即可正常运行。
每一单元失灵的概率为0.1,且各单元之间都是独立的。
问:
(1)全系统可正常运行的概率?
(2)只有一个亚系统失灵的概率?图2-6
(3)系统不能正常运转的概率?
答:(1)P(全系统可正常运行)= 0.94 + 0.93 × 0.1 × 4 + 0.92 × 0.12 × 2 = 0.963 9(2)P(只有一个亚系统失灵)= 0.92 × 0.12 ×2 + 0.93 × 0.1 × 4 = 0.307 8
(3)P(系统不能正常运转)= 0.14 + 0.13 × 0.9 × 4 + 0.12 × 0.92 × 4 = 0.036 1
或= 1 – 0.963 9 = 0.036 1
2.13 做医学研究需购买大鼠,根据研究的不同需要,可能购买A,B,C,D四个品系中的任何品系。
实验室需预算下一年度在购买大鼠上的开支,下表给出每一品系50只大鼠的售价及其被利用的概率:
品系每50只的售价/元被利用的概率
A 500.00 0.1
B 750.00 0.4
C 875.00 0.3
D 100.00 0.2
问:(1)设Y为每50只大鼠的售价,期望售价是多少?
(2)方差是多少?
答:(1)
()()
∑=
⨯
+
⨯
+
⨯
+
⨯
=
=
x
y
y
p
Y
E5.
632
10
2
100
10
3
875
10
4
750
10
1
500
(2)
()()
[]2
2
2Y
E
Y
E-
=
σ
25
.
631
81
5.
632
10
2
100
10
3
875
10
4
750
10
1
5002
2
2
2
2
=
-
⎪
⎭
⎫
⎝
⎛
⨯
+
⨯
+
⨯
+
⨯
=
2.14Y为垂钓者在一小时内钓上的鱼数,其概率分布如下表:
y 0 1 2 3 4 5 6
p(y) 0.001 0.010 0.060 0.185 0.324 0.302 0.118 问:(1)期望一小时内钓到的鱼数?
(2)它们的方差?
答:
()=
Y
E0 × 0.001 + 1 × 0.010 + 2 × 0.060 + 3 × 0.185 + 4 × 0.324 + 5 × 0.302 + 6 ×
0.118= 4.2
σ2 = 02 ×0.001 + 12 ×0.010 + 22 ×0.060 + 32 ×0.185 + 42 ×0.324 + 52 ×0.302 + 62 ×0.118 – 4.22
= 1.257
2.15一农场主租用一块河滩地,若无洪水,年终可望获利20 000元。
若出现洪灾,他将赔掉12 000元(租地费、种子、肥料、人工费等)。
根据常年经验,出现洪灾的概率为0.4。
问:(1)农场主期望赢利?
(2)保险公司应允若投保1 000元,将补偿因洪灾所造成的损失,农场主是否买这一保
险?
(3)你认为保险公司收取的保险金是太多还是太少?
答:(1)未投保的期望赢利:E(X)= 20 000 × 0.6 + (12 000) × 0.4 = 7 200(元)
(2)投保后的期望赢利:E(X)= (20 000 –1 000) × 0.6 + (−1 000) × 0.4 = 11 000(元)。
当然要买这一保险。
(3)保险公司期望获利:E(X)= 1000 × 0.6 + (−12000 + 1000) × 0.4 = −3800(元)收取保险金太少。
第一章统计数据的收集与整理
1.1 算术平均数是怎样计算的?为什么要计算平均数?
答:算数平均数由下式计算:n y
y
n
i
i
∑
=
=1
,含义为将全部观测值相加再被观测值的个数
除,所得之商称为算术平均数。
计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。
1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?
答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?
答:变异系数可以说是用平均数标准化了的标准差。
在比较两个平均数不同的样本时所得结果更可靠。
1.4 完整地描述一组数据需要哪几个特征数?
答:平均数、标准差、偏斜度和峭度。
1.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。
它们的平均数相等吗?标准差相等吗?能够解释为什么吗?
答:用means过程计算,两个样本分别称为1y和2y,结果见下表:
The SAS System
Variable N Mean Std Dev
----------------------------------------
Y1 10 64.5000000 3.5039660
Y2 10 63.9000000 3.1780497
----------------------------------------
随机抽出的两个样本,它们的平均数和标准差都不相等。
因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:不是简单的随机样本。
从一个有限总体中以非放回式抽样方法抽样,在前后两次抽
样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。
应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
1.16 25名患者入院后最初的白细胞数量(×103)[7]如下表:
8 5 12 4 11 6 8 7 7 12
7 3 11 14 11 9 6 6 5 6
10 14 4 5 5
计算白细胞数量的平均数、方差和标准差。
答:用means过程计算,程序不再给出,只给出运行结果。
The SAS System
Analysis Variable : Y
N Mean Variance Std Dev
-------------------------------------------
25 7.8400000 10.3066667 3.2103998
--------------------------------------------
1.17 细胞珠蛋白基因(CYGB)可能是非小细胞肺癌(NSCLC)的抑制基因之一。
一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。
下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtI T-MtI N)[8]:
样本号T/N MtI T-MtI N
357 0.014 0.419
370 0.019 0.017
367 0.035 0.105
316 0.044 0.333
369 0.054 0.170
358 0.084 0.246
303 0.111 0.242
314 0.135 0.364
308 0.236 0.051
310 0.253 0.520
341 0.264 0.200
348 0.315 0.103
323 0.359 0.167
360 0.422 0.176
336 0.442 0.037
计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?
答:记T/N为1y,MtI T-MtI N为2y,用means过程计算,SAS运行的结果见下表:
The SAS System
Variable N Mean Std Dev CV
------------------------------------------------------
Y1 15 0.1858000 0.1505624 81.0346471
Y2 15 0.2100000 0.1465274 69.7749634
------------------------------------------------------
两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同单位的影响了。