定性数据分析第二章课后答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章课后作业
【第1题】
解:由题可知消费者对糖果颜色的偏好情况(即糖果颜色的概率分布),调查者
取500块糖果作为研究对象,则以消费者对糖果颜色的偏好作为依据,500块糖果的颜色分布如下表1.1所示:
表1.1 理论上糖果的各颜色数
由题知r=6,n=500,我们假设这些数据与消费者对糖果颜色的偏好分布是相符,所以我们进行以下假设:
原假设::0H 类i A 所占的比例为)6,...,1(0==i p p i i 其中i A 为对应的糖果颜色,)6,...,1(0=i p i 已知,16
10=∑=i i p 则2χ检验的计算过程如下表所示:
在这里6=r 。
检验的p 值等于自由度为5的2χ变量大于等于18.0567的概率。
在Excel 中输入“)5,0567.18(chidist =”,得出对应的p 值为05.00028762.0<<=p ,故拒绝原假设,即这些数据与消费者对糖果颜色的偏好分布不相符。
【第2题】
解:由题可知 ,r=3,n=200,假设顾客对这三种肉食的喜好程度相同,即顾客
选择这三种肉食的概率是相同的。
所以我们可以进行以下假设:
原假设 )3,2,1(3
1
:0==i p H i
则2χ检验的计算过程如下表所示:
在这里3=r 。
检验的p 值等于自由度为2的2χ
变量大于等于15.72921的概率。
在Excel 中输入“)2,72921.15(chidist =”,得出对应的p 值为
05.00003841.0<<=p ,故拒绝原假设,即认为顾客对这三种肉食的喜好程度是
不相同的。
【第3题】
解:由题可知 ,r=10,n=800,假设学生对这些课程的选择没有倾向性,即选
各门课的人数的比例相同,则十门课程每门课程被选择的概率都相等。
所以我们可以进行以下假设: 原假设)10,...,2,1(1.0:0==i p H i
则2χ检验的计算过程如下表所示:
在这里10=r 。
检验的p 值等于自由度为9的2χ变量大于等于5.125的概率。
在Excel 中输入“)9,125.5(chidist =”,得出对应的p 值为05.0823278349.0>>=p ,故接受原假设,即学生对这些课程的选择没有倾向性,各门课选课人数的频率为0.1。
【第4题】
解:(1)由题可知,r=3,n=5606,假设1997年8月中国股民投资状况的调查
数据和比较流行的说法是相符合。
所以我们可以进行以下假设: 原假设::0H 类i A 所占的比例为)3,2,1(0==i p p i i
其中)3,2,1(=i A i 为股票投资中对应的赢、持平和亏,)3,2,1(0=i p i 已知,
131
0=∑
=i i p
则2χ检验的计算过程如下表所示:
在这里3=r 。
检验的p 值等于自由度为2的2χ变量大于等于3511.96137
的概率。
在Excel 中输入“)2,72921.15(chidist =”,得出对应的p 值为05.00<<=p ,故拒绝原假设,即认为1997年8月中国股民投资状况的调查数据和比较流行的说法是不相符合的。
(2)解:由题知股票投资中,赢包括盈利10%及以上、盈利10%以下,符合条件的股民共有151+122=273人;持平可以指基本持平,符合条件的股民共有240人;亏包括亏损不足10%和亏损10%及以上,符合条件的股民共有517+240=757人。
由题可知,r=3,n=1270,假设2003年2月上海青年报上的调查数据和比较流行的说法是相符合。
所以我们可以进行以下假设:
原假设::0H 类i A 所占的比例为)3,2,1(0==i p p i i
其中)3,2,1(=i A i 为股票投资中对应的赢、持平和亏,)3,2,1(0=i p i 已知,
131
0=∑
=i i p
则2χ检验的计算过程如下表所示:
在这里3=r 。
检验的p 值等于自由度为2的2χ变量大于等于188.21372的概率。
在Excel 中输入“)2,21372.188(chidist =”,得出对应的p 值为05.00<<=p ,故拒绝原假设,即认为2003年2月上海青年报上的调查数据和比较流行的说法是不相符合的。
【第5题】
解:由题意,我们将“开红花”、“开白花”和“开粉红色花”分别记为321,,A A A ,并记i A 所占的比例为)3,2,1(=i p i ,本题所要检验的原假设为:
pq p q p H 2 ,p ,p :322210===
其中1=+q p ,这些i p 都依赖一个未知参数p 。
在原假设0H 成立时的似然函数为
13210860362242)1()2()()()(p p pq q p p L -∝∝
则对L(p)取对数得
)1ln(132ln 108)(ln p p p L -+=
从而有对数似然方程
01132
108)(ln =--=∂∂p
p p p L 即p p 132)1(108=-。
据此求得p 的极大似然估计45.0ˆ=p
,从而得到i p 的极大似然估计 3,2,1),ˆ(ˆ==i p p p
i i 。
它们分别为0.2025、0.3025和0.495。
由此得各类的期望频数的估计值3,2,1,ˆ=i p
n i 。
它们分别为24.3、36.3、132.20和59.4。
所以2
χ统计量的值为
0.012244
.59)4.5960(3.36)3.3636(3.24)3.2424(2
222
=-+-+-=χ
这里r=3,m=1,r-m-1=1。
检验的p 值等于自由度为1的2χ变量。
利用Excel 可以算出p 值05.0911893.0)1,01224.0(>>==chidist p ,故接受原假设,即我们认为以上数据在0.05的水平下与遗传学理论是相符的。
【第6题】
解:由题意,我们可以得到以下信息:
① 遗传因子的分布律为:(其中p+q+r=1)
②血型的分布律为:
将“O ”血型、“A ”血型、“B ”血型和“AB ”血型这四类血型分别记为41A ......, ,A ,并记i A 所占的比例为)4,......,1( =i p i ,本题所要检验的原假设为:
pq p qr q p pr p r H 2 ,2 ,2p ,p :42322210=+=+==
这些i p 都依赖两个未知参数q p ,。
在原假设0H 成立时的似然函数为
58
132
132
436
436
748
58132243623742)
2()
22()
22()
1( )2()2()2()(),(pq p q q
q p p
q p pq qr q pr p r q p L ------∝++∝
则对L(p,q)求对数得
pq
p q q q p p q p q p L 2ln 58)22ln(132ln 132)22ln(436ln 436)1ln(748),(ln +--++--++--=对),(ln q p L 求偏导数得
⎪⎪⎩
⎪
⎪⎨
⎧=+---+---+---=∂∂=+---+---+---=∂∂0
58221321322287201748ln 058222640224364361748ln q p q q q p q p q L p p q q p p q p p L
利用Mathematica 软件求解(程序编码及运行结果见附录)
解得p 和q 的极大似然估计为100.0ˆ89,2.0ˆ≈≈q p
,从而得i p 的极大似然估计4,....,1 ),ˆ,ˆ(ˆ==i q p p p i i 。
它们分别为0.37332、0.43668、0.13220和0.05780。
由此得各类的期望频数的估计值1,....,4i ,ˆ=i p
n 。
它们分别为373.32、436.68、132.20和57.80。
所以2χ统计量的值为
003292
.0 80
.57)80.5758(20.132)20.132132(68.436)68.436436(32.373)32.373374(2
2222
=-+
-+-+-=χ 这里r=4,m=2,r-m-1=1。
检验的p 值等于自由度为1的2χ变量。
有Excel 可以算出p 值为05.0 954245.0)1 ,003292.0(>>==chidist p ,故接受0H ,我们认为以上数据与遗传学理论是相符的。
附录 ①程序代码:
NSolve[{(-748)/(1-p-q)+436/p+(-436)/(2-p-2*q)+0+(-264)/(2-q-2*p)+58/p ==0,(-748)/(1-p-q)+0+(-872)/(2-p-2*q)+132/q+(-132)/(2-q-2*p)+58/q==0},{p,q}]//MatrixForm
②利用Mathematica 软件运行结果: Out[21] //MatrixForm
⎪⎪⎪
⎪
⎪⎭
⎫ ⎝⎛→→→→→→→→0.0999891 q 0.288632 p 0.473295 q 0.722065 p 1.50996 q 0.209806 p 0.0900929 q 1.56083
p 注:在上述结果中由于p + q = 1-r < 1,所以软件运行的结果中只有第四个解
满足条件,即p 和q 的极大似然估计为100.0ˆ89,2.0ˆ≈≈q p。
【第7题】
解:由题知,在豌豆实验中,子系从父系(或母系)接受显性因子“黄色”和
“青色”的概率分别为p 和1-p ,而子系从父系(或母系)接受显性因子“圆”和“有角”的概率分别为q 和1-q 。
我们将豌豆实验中得到的“黄而圆的”、“青而圆的”、“黄而有角的”和“青而有角的”这四类豌豆分别记为1A ,2A ,3A ,4A ,则这四类豌豆的分布律如下表所示:
将豌豆类型i A 所占的比例记为)4,......,1( =i p i ,则本题所要检验的原假设为:
2
2
42
32210)
1()1( ,)1)(2( )1)(2(p ),2)(2(p :q p p q p p p p q q q p pq H --=--=--=--=
这些i p 都依赖两个未知参数q p ,。
在原假设0H 成立时的似然函数为
266
280423416423416322210121082315)1()1()2()2( ])1()1[(])1)(2([])1)(2([)]2)(2([),(q p q p q p q p q p p p q q q p pq q p L ----∝--------∝
则对L(p,q)求对数得
)
1ln(266)1ln(280)2ln(423)2ln(416ln 423ln 416),(ln q p q p q p q p L -+-+-+-++=对),(ln q p L 求偏导数得
⎪⎪⎩⎪
⎪⎨
⎧=----=∂∂=----=∂∂012662423423ln 012802416416ln q q q q
L p p p p L 即得出下列方程:
⎪⎩⎪⎨⎧=+-=+-0
832222411120
846222411122
2
q q p p 解得p 和q 的极大似然估计为498.0ˆ511,.0ˆ≈≈q p ,从而得i p 的极大似然估计4,....,1 ),ˆ,ˆ(ˆ==i q p p p
i i 。
它们分别为0.56923、0.17898、0.19157和0.06023.由此得各类的期望频数的估计值1,....,4i ,ˆ=i p
n 。
它们分别为316.489、99.511、106.511和33.489。
所以2χ统计量的值为
082564
.1 489
.33)489.3332(511.106)511.106101(511.99)511.99108(489.316)489.316315(2
2222
=-+
-+-+-=χ 这里r=4,m=2,r-m-1=1。
检验的p 值等于自由度为1的2χ变量。
利用Excel 可以算出p 值为05.0 298125.0)1 ,082564.1(>>==chidist p ,故接受0H ,我们认为观察数据与这样一个遗传学的模型是相符的。