应用数理统计课后答案
应用数理统计 陈平课后答案
应用数理统计陈平课后答案题型:选择题1.以下哪个统计量可以反映一组数据的集中趋势?A. 样本方差B. 样本标准差C. 中位数D. 众数答案:C2.如果一组数据的中位数等于众数,则这组数据一定是A. 偏态分布B. 左偏态分布C. 对称分布D. 右偏态分布答案:C3.统计中的假设检验是哪种推理方法?A. 归纳推理B. 演绎推理C. 反证法D. 直觉求证答案:B4.某商品的销量数据如下:2, 8, 6, 9, 7, 4。
请问这组数据的平均数是多少?A. 5B. 6C. 7D. 8答案:B5.对于一个正态分布的数据集,其分布特点是什么?A. 左偏态分布B. 右偏态分布C. 对称分布D. 无法判断答案:C题型:填空题1. 离差平方和是方差的_________。
答案:n-12. 对于两个随机变量X和Y,其相关系数的绝对值越接近于_______,表示两个变量之间的线性相关性越强。
答案:13. 当检验统计量的值大于或等于临界值时,可以_____零假设;当检验统计量的值小于临界值时,则不能____零假设。
答案:拒绝,拒绝4. 某次试验的方差为12,标准差为_______。
答案:2√35. 某班级共有30名学生,其中10名男生和20名女生,男女生身高的算术平均数分别是175cm和165cm,则该班级身高的总体平均数近似为______cm。
答案:168.33题型:判断题1. 盒须图能够反映数据集的中位数、四分位数和异常值情况。
答案:T2. 在t检验中,如果总体分布为正态分布,样本的大小小于30,使用t检验可以得到较为准确的结果。
答案:T3. 在假设检验中,p值表示拒绝原假设的概率,通常情况下,当p值小于0.05时,我们可以拒绝原假设。
答案:T4. 样本方差反映的是样本的离散程度,较大的样本方差说明样本数据比较集中。
答案:F5. 通过研究样本数据来推断总体特征是统计学的基本思想之一。
答案:T题型:简答题1.请简述t检验和z检验的基本思想和应用场景。
《应用数理统计》第三章假设检验课后作业参考答案
第三章 假设检验课后作业参考答案3.1 某电器元件平均电阻值一直保持2.64Ω,今测得采用新工艺生产36个元件的平均电阻值为2.61Ω。
假设在正常条件下,电阻值服从正态分布,而且新工艺不改变电阻值的标准偏差。
已知改变工艺前的标准差为0.06Ω,问新工艺对产品的电阻值是否有显著影响?(01.0=α)解:(1)提出假设64.2:64.2:10≠=μμH H , (2)构造统计量36/06.064.261.2/u 00-=-=-=nX σμ(3)否定域⎭⎬⎫⎩⎨⎧>=⎭⎬⎫⎩⎨⎧>⋃⎭⎬⎫⎩⎨⎧<=--21212αααu u uu u u V (4)给定显著性水平01.0=α时,临界值575.2575.2212=-=-ααuu ,(5) 2αu u <,落入否定域,故拒绝原假设,认为新工艺对电阻值有显著性影响。
3.2 一种元件,要求其使用寿命不低于1000(小时),现在从一批这种元件中随机抽取25件,测得其寿命平均值为950(小时)。
已知这种元件寿命服从标准差100σ=(小时)的正态分布,试在显著水平0.05下确定这批元件是否合格。
解:{}01001:1000, H :1000X 950 100 n=25 10002.5V=u 0.05H x u αμμσμα-≥<====->=提出假设:构造统计量:此问题情形属于u 检验,故用统计量:此题中:代入上式得:拒绝域:本题中:0.950.950u 1.64u 0.0u H =>∴即,拒绝原假设认为在置信水平5下这批元件不合格。
3.3某厂生产的某种钢索的断裂强度服从正态分布()2,σμN ,其中()2/40cm kg =σ。
现从一批这种钢索的容量为9的一个子样测得断裂强度平均值为X ,与以往正常生产时的μ相比,X 较μ大20(2/cm kg )。
设总体方差不变,问在01.0=α下能否认为这批钢索质量显著提高? 解:(1)提出假设0100::μμμμ>=H H , (2)构造统计量5.13/4020/u 00==-=nX σμ (3)否定域{}α->=1u u V(4)给定显著性水平01.0=α时,临界值33.21=-αu(5) α-<1u u ,在否定域之外,故接受原假设,认为这批钢索质量没有显著提高。
应用数理统计习题答案西安交大施雨
应用数理统计答案学号:姓名:班级:目录第一章数理统计的基本概念 (2)第二章参数估计 (14)第三章假设检验 (23)第四章方差分析与正交试验设计 (28)第五章回归分析 (31)第六章统计决策与贝叶斯推断 (34)对应书目:《应用数理统计》施雨著西安交通大学出版社第一章 数理统计的基本概念1.1 解:∵2(,)XN μσ∴ 2(,)n XN σμ∴(0,1)N 分布∴(1)0.95P X P μ-<=<=又∵ 查表可得0.025 1.96u =∴ 221.96n σ=1.2 解:(1) ∵(0.0015)X Exp∴ 每个元件至800个小时没有失效的概率为:8000.001501.2(800)1(800)10.0015x P X P X e dxe -->==-<=-=⎰∴ 6个元件都没失效的概率为: 1.267.2()P ee --==(2)∵(0.0015)X Exp∴ 每个元件至3000个小时失效的概率为:30000.001504.5(3000)0.00151x P X e dxe--<===-⎰∴ 6个元件没失效的概率为: 4.56(1)P e-=-1.4 解:ini n x n x ex x x P ni i 122)(ln 2121)2(),.....,(122=--∏∑==πσμσ1.5证:21122)(naa x n x a x n i ni ii+-=-∑∑==∑∑∑===-+-=+-+-=ni i ni i ni i a x n x x na a x n x x x x 1222211)()(222a) 证:)(11111+=+++=∑n ni i n x x n x)(11)(1111n n n n n x x n x x x n n -++=++=++])()1(1 ))((12)[(11)](11[11)(11212111121211212112n n n i n n n i n i n i ni n n n i n i n in x x n n x x x x n x x n x x n x x n x x n S -+++--+--+=-+--+=-+=++=+=+=+=++∑∑∑∑] )(11))1()((12)([112111212n n n n n n n n n x x n x n x x n x x n x x nS n -++-+-+--++=++++ ])(11S [1 ])(1[n S 11212n 212n n n n n x x n n n x x n n n -+++=-+++=++1.6证明 (1) ∵22112211221()()()2()()()()()nni ii i nni i i i ni i X X X X X X X X X n X X X n X μμμμμ=====-=-+-=-+--+-=-+-∑∑∑∑∑(2) ∵2221112221221()22ii i nn ni i i i i ni ni XX X X X nX X nX nX X nX =====-=-+=-+=-∑∑∑∑∑1.10 解:(1).∑∑====ni i n i i x E n x n E X E 11)(1)1()(p np n=⋅=1np m p x D n x n D X D ni in i i )1()(1)1()(121-===∑∑==))(1()(122∑=-=n i i x x n E S E)1(1)])1(1())1(([1)])()(())()(([1])()([1])([12222212212212p mp nn p m p mp n n p m p mp n n x E x D n x E x D n x nE x E n x x E n ni i i n i i n i i --=+--+-=+-+=-=-=∑∑∑=== 同理,(2).λ===∑∑==ni i n i i x E n x n E X E 11)(1)1()(λnx D n x n D X D ni in i i 1)(1)1()(121===∑∑==λnn x E x D n x E x D n x nE x E n S E ni i i n i i 1)])()(())()(([1])()([1)(2122122-=+-+=-=∑∑==(3).2)(1)1()(11ba x E n x n E X E ni i n i i +===∑∑==na b x D nx n D X D ni ini i 12)()(1)1()(2121-===∑∑==12)(1)])()(())()(([1])()([1)(22122122a b n n x E x D n x E x D n x nE x E n S E ni i i n i i -⋅-=+-+=-=∑∑==(4).λ===∑∑==ni i ni i x E n x n E X E 11)(1)1()(nx D nx n D X D ni ini i 2121)(1)1()(λ===∑∑==221221221)])()(())()(([1])()([1)(λnn x E x D n x E x D n x nE x E n S E ni i i n i i -=+-+=-=∑∑==(5).μ===∑∑==ni i n i i x E n x n E X E 11)(1)1()(nx D nx n D X D ni in i i 2121)(1)1()(σ===∑∑==221221221)])()(())()(([1])()([1)(σ⋅-=+-+=-=∑∑==nn x E x D n x E x D n x nE x E n S E ni i i n i i1.11 解:由统计量的定义知,1,3,4,5,6,7为统计量,5为顺序统计量 1.17 证:),(~ λαΓXxe x xf λαααλ--Γ=∴1)()( 令kXY =ke ky k ke ky yf kyky⋅Γ=⋅Γ=∴----λαααλαααλαλ11)()( )()()(即 ),(~ky Y αΓ1.18 证:),(~ b a X β),()1()( 11b a B x xx f b a ---=∴),(),(),()1()( 11b a B b k a B b a B x x x X E b a k k +=-=∴⎰∞+∞---),(),1()( b a B b a B X E +=∴ba a ab a b a b a a a a b a b a a a b b a b a b a +=Γ+Γ++ΓΓ=Γ++Γ+Γ+Γ=ΓΓ+Γ⋅++ΓΓ+Γ=)()()()()()()1()()1()()()()1()()1(),(),2()(2b a B b a B X E +=))(1()1()()()()2()()2(b a b a a a a b b a b a b a ++++=ΓΓ+Γ⋅++ΓΓ+Γ= 22)]([)()( X E X E X D -=∴2))(1())(1()1(b a b a ab ba ab a b a a a +++=+-++++=1.19 解:∵(,)X F n m 分布12(1)022()((1))()(1)()()()(1)()()n n m n mn m yn m y n mn nP Y y P X X y m myP X y n n n x x dx m m m++--+≤=+≤=<-Γ=+ΓΓ⎰222212211()()()1()(1)()()11(1)(1)(,)n n m n m n mn mn mf y P Y y y y y y y yy B ++----'=≤Γ=+ΓΓ----=∴ 22(1)(,)n m n n Y X X m mβ=+分布1.20 解:∵()Xt n 分布122212()()(()2(1)n n P Y y P X y P X xdxn ++-≤=≤=≤≤Γ=+11111212122()()()(1)()1()(1)()()()n n n n nf y P Y y y yn y y n n n+++--+--'=≤Γ=+Γ=+ΓΓ∴2(1,)2nY XF =分布1.21 解: (1) ∵(8,4)XN 分布∴ 4(8,)25XN 分布,即5(8)(0,1)2X N -∴ 样本均值落在7.88.2分钟之间的概率为:5(7.88)5(8)5(8.28)(7.88.2)()2220.383X P X P ---≤≤=≤≤=(2) 样本均值落在7.58分钟之间的概率为:5(7.58)5(8)5(88)(7.58)()2225(8)(0 1.25)20.3944X P X P X P ---≤≤=≤≤-=≤≤=若取100个样品,样本均值落在7.58分钟之间的概率为:10(7.88)10(8)10(8.28)(7.88.2)()2222*(0.84130.5)0.6826X P X P ---≤≤=≤≤=-=单个样品大于11分钟的概率为:110.77340.2266P =-=25个样品的均值大于9分钟的概率为210.97980.0202P =-= 100个样品的均值大于8.6分钟的概率为310.99870.0013P =-= 所以第一种情况更有可能发生1.23 解:(1) ∵2(0,)XN σ分布∴2(0,)XN nσ分布∴22()(1)χσ∵ 22221()()ni i a X an X an σσ===∑∴21a n σ=同理 21b m σ=(2) ∵2(0,)XN σ分布∴222(1)X χσ分布由2χ分布是可加性得:2221()ni i X n χσ=∑()nic X t m ==∑∴c =(3) 由(2)可知2221()ni i X n χσ=∑2221122211(,)nni ii i n mn mi ii n i n X d Xnn dF n m XmXmσσ==++=+=+=∑∑∑∑∴ md n=1.25 证明:∵211(,)XN μσ分布∴2211()(1)i X μχσ-∴1221111()()n i i X n μχσ=-∑ 同理2222212()()n i i Y n μχσ=-∑1122222112211111222221122112()()(,)()()n n i i i i n n i i i i X n n X F n n Y n Y n μσμσμσμσ====--=--∑∑∑∑第二章 参数估计 2.1 (1) ∵ ()XExp λ分布∴ ()1E X λ=令 ˆ1X λ= 解得λ的矩估计为: ˆ1X λ= (2) ∵ (,)XU a b 分布∴ ()2a bE X +=2()()12b a D X -=令 1ˆˆ2ab A X +==22221ˆˆˆˆ()()1124n i i b a a b A X n =-++==∑ (22211n i i X X S n =-=∑)解得a 和b 的矩估计为:ˆˆaX bX ==(3) 110()1E X x x dx θθθθ-=*=+⎰令1ˆˆ1A X θθ==+∴ˆ1X X θ=- (4) 110()(1)!kk x kE X x x e dx k βββ--=*=-⎰令ˆkX β= ∴ ˆk Xβ=(5) 根据密度函数有2221()22()E X a aE X a λλλ=+=++根据矩估计有1222221ˆˆˆ22ˆˆˆa A X a a A S X λλλ+==++==+解得λ和a 的矩估计为: ˆˆaX λ==- (6) ∵ (,)X B m p∴ ()E X mp =令 1ˆmpA X == 解得p 的矩估计为:ˆX pm= 2.3解:∵ X 服从几何分布,其概率分布为:1()(1)k P X k p p -==-故p 的似然函数为: 1()(1)ni i x nnL p p p =-∑=-对数似然函数为:1ln ()ln ()ln(1)ni i L p n p x n p ==+--∑令 1ln ()1()01nii L p n x n p p p=∂=--=∂-∑ ∴ 1ˆpX= 2.4 解:由题知X 应服从离散均匀分布,⎪⎩⎪⎨⎧≤≤==其它011)(N k N k x p2)(NX E =矩估计: 令7102=∧N1420=∴∧N 极大似然估计:⎪⎩⎪⎨⎧≤≤=其它071011)(N N N L要使)(N L 最大,则710=N710=∴∧N2.5 解:由题中等式知:2196.196.196.1)025.01(025.0)(1S X +=+=∴+=+-Φ=∴=-Φ-∧∧∧-σμθσμμσθσμθ2.6 解:(1) 05.009.214.2=-=R0215.005.04299.05=⨯==∴∧d R σ (2)将所有数据分为三组如下所示:0197.005.03946.005.0)05.005.005.0(316=⨯==∴=++=∴∧d R R σ2.7 解:(1)⎩⎨⎧+<<=其它 01x1)(θθx fθθθθθθ≠+==+=++=∴∧21)()(2121)(X E E X E ∴ X =∧θ不是θ的无偏估计,偏差为21=-∧θθ (2) θ=-)21(X E 21-=∴∧X θ是θ的无偏估计 (3)22))(()())(()(θθθθ-+=-+=∧∧X E X D E D M S E41121+=n 2.8 证:由例2.24,令2211x a x a +=∧μ,则∧μ 为μ无偏估计应 满足121=+a a因此1μ,2μ,3μ都是μ的无偏估计)()()()(21)()(2513)()(95)9491)(()())(()()(1233212221212∧∧∧∧∧∧=∧<<===+=∴+==∑μμμμμμμD D D X D D X D D X D X D D a a X D X D a D i i i2132121X X +=∴∧μ最有效 2.9 证: )(~λp Xλλ==∴)( )(X D X EX 是λ=)(X E 的无偏估计,2*S 是λ=)( X D 的无偏估计 )()1()())1((2*2*S E X E S XE αααα-+=-+∴λλααλ=-+=)1(∴2*)1(SX αα-+是λ的无偏估计2.10 解:因为2222((1))()(1)()(1)()1(1)()11(1)1E X S E X E S na E S n n a E S n n n a n nααααλαλαλαλλ**+-=+-=+--=+---=+-=-所以 2(1)X S αα*+-是λ的无偏估计量2.15 解:因为ˆθ是θ的有效估计量ˆˆˆ()()()E uE a b aE b a b u θθθ=+=+=+= 221ˆˆˆˆ()()()()D u D a b a D a D θθθ=+=≤ (其中,1ˆθ是θ的任意无偏估计量中的一个)所以 ˆu是u 的有效估计量 2.26 解: 因为总体服从正态分布,所以)01X U N μσ-=(,)对于给定的1α-,查标准正态分布表可得2u α,使得 2()1P U u αα<=- 即:22()1P X p X ααα<<+=-区间的长度2d L α=<,所以22224u n L ασ>2.28 解:因为总体服从正态分布,所以)01X U N μσ-=(,), 222(1)nS V n χσ=-由因为U 和V 是相互独立的, 所以(1)X T t n =-对于给定的1α-,查标t 分布表可得2t α,使得 2()1P U t αα<=-,即:2()1P X X ααμα<<=- 当30n =,35X =,15S =时,第一家航空公司平均晚点时间μ的95%的置信区间为:(29.3032,40.6968)对于给定的1α-,查标t 分布表可得t α,使得 ()1P U t αα>=-, 即:()1P X αμα<+=- 故μ的具有单侧置信上限的单侧置信区间为(,)X α-∞+ 所以经计算可得:第一家航空公司的单侧上限置信区间为(,39.7327)-∞ 第二种航空公司的单侧上限置信区间为(,36.3103)-∞ 所以选择第二家航空公司。
应用数理统计-施雨-课后答案
习题11.1 解:由题意95.01=⎭⎬⎫⎩⎨⎧<--u x p 可得:95.0=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧<-σσn n u x p而()1,0~N u x n σ⎪⎭⎫ ⎝⎛-- 这可通过查N(0,1)分布表,975.0)95.01(2195.0=-+=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧<--σσn n u x p 那么96.1=σn∴2296.1σ=n1.2 解:(1)至800小时,没有一个元件失效,则说明所有元件的寿命>800小时。
{}2.10015.08000015.00800|e 0015.0800--∞+-=∞+-==>⎰e e dx x p x x 那么有6个元件,则所求的概率()2.762.1--==e e p(2)至300小时,所有元件失效,则说明所有元件的寿命<3000小时{}5.4300000015.030000015.001|e 0015.03000----=-==<⎰e e dx x p x 那么有6个元件,则所求的概率()65.41--=e p解: (1) 123{(,,)|0,1,2,,1,2,3}k x x x x k χ===因为~()i X P λ,所以 112233{,,}P X x X x X x ≤≤≤112233{}{}{}P X x P X x P X x =≤≤≤1233123!!!x x x e x x x ++-λλ=其中,0,1,2,,1,2,3k x k ==(2) 123{(,,)|0;1,2,3}k x x x x k χ=≥=因为~()i X Exp λ,其概率密度为,0()0,0x e x f x x -λ⎧λ≥=⎨ <⎩所以, 123(,,)3123(,,)x x x f x x x e-λ=λ,其中0;1,2,3k x k ≥=(3) 123{(,,)|;1,2,3}k x x x a x b k χ=≤≤=因为~(,)i X U a b ,其概率密度为1,()0,|a x b f x b a x a x b⎧≤≤⎪=-⎨⎪ <>⎩所以,12331(,,)()f x x x b a =-,其中;1,2,3k a x b k ≤≤= (4) 123{(,,)|;1,2,3}k x x x x k χ=-∞<<+∞= 因为~(,1)i X N μ,其概率密度为(2(),()x f x x 2-μ)-=-∞<<+∞所以,311(2123321(,,)(2)k k x f x x x e π2=--μ)∑=,其中;1,2,3k x k -∞<<+∞=解:由题意可得:()⎪⎩⎪⎨⎧∞<<=--,其它00,21)(i 2ln i i 22i x e x x f u x σσπ则∏==ni x f x x f 1i n i )(),...(=⎪⎪⎩⎪⎪⎨⎧=∞<<∏=∑--=,其它0,...1,0,1n )2()(ln 212n 12i 2i x x e i n i i u x ni σπσ证: 令21()()nii F a Xa ==-∑则'1()2()nii F a Xa ==--∑,''()20F a n =>令'1()2()0ni i F a X a ==--=∑,则可解得11ni i a X X n ===∑由于这是唯一解,又因为''()20F a n =>,因此,当11ni i a X X n ===∑时,()F a 取得最小值证: (1)等式左边11((nnii i i XX X X 22==-μ)=-+-μ)∑∑111(2()()(nnnii i i i XX X X X X 22====-)+-μ-+-μ)∑∑∑21(()ni i X X n X 2==-)+-μ∑左边=右边,所以得证. (2) 等式左边22111(2nnni iii i i X X X X X nX 2===-)=-+∑∑∑ 22212nii XnX nX ==-+∑221ni i X nX ==-∑左边=右边,所以得证.证:(1)∑=-=ni i n x n x 11∑+=-++=11111n i i n x n x 那么)(11_1_n n n x x n x -+++=∑∑=+=•+-++ni i n n i i x n n x n x n 111111111 =111111+=+++∑n n i i x n x n =∑=+ni i x n 111=_1+n x ∴原命题得证(2)21221-=-=∑n n i i nx x n s211122111-++=+-+=∑n n i i n x x n s那么⎥⎦⎤⎢⎣⎡-+++-+212)(111n n n x x n s n n =∑=+n i i x n 1211--+21n x n n +212)1(++n x n n --++n n x x n n 12)1(2+22)1(-+n x n n=∑=+n i i x n 1211--+222)1(n x n n +2111++n x n -212)1(1++n x n --++n n x x n n 12)1(2=∑=+n i i x n 1211-(111++n x n +-+n x n n 1)2 由(1)可得:111++n x n +-+n x n n 1=-+1n x则上式=∑=+n i i x n 1211-21-+n x =21+n s∴原命题得证解: 因为2222111111,()n n n i i i i i i X X S X X X X n n n =====-=-∑∑∑所以 (1) 二项分布(,)B m p11()()()ni i i E X E X E X mp n ====∑21111(1)()()()n ni i i i mp p D X D X D X n n n ==-===∑∑222211111()(())()()(1)n n i i i i n E S E X X E X E X mp p n n n==-=-=-=-∑∑(2) 泊松分布()P λ()E X =λ, ()D X n λ=, 21()n E S n-=λ (3) 均匀分布(,)U a b()2b a E X +=, 2)()12b a D X n (-=, 221()()12n E S b a n-=-(4) 指数分布()Exp λ 1()E X =λ, 1()D X n 2=λ, 21()n E S n 2-=λ(5) 正态分布2(,)N σμ ()E X =μ, 21()D X n σ=, 221()n E S nσ-=解:(1)是统计量(2)不是统计量,因为u未知 (3)统计量 (4)统计量(5)统计量,顺序统计量 (6)统计量 (7)统计量(8)不是统计量,因为u未知 .解: 因为i X 独立同分布,并且~(,i X a Γλ),11ni i X X n ==∑所以1~(,nii Xna =Γλ)∑;令1nii Y X ==∑,则1X Y n =,由求解随机变量函数的概率密度公式可得 1()(),0)nana nx X f x nx e n x na --λλ=>Γ(1.15 解:(1))(m x 的概率密度为: [][])()(1)()!()!1(!)(1)(x f x F x F m n m n x f m n m m ------=又F(x)=2x 且f(x)=2x ,0<x<1 则有x x x m n m n x f m n m m 2)1()!()!1(!)(2)1(2)(------=,0<x<1(2) )(1x 与)(n x 的联合概率密度为:[][])()()(1)()()11(!),(011))(1(y f x f y F x F y F n n y x f n n ----=--=y x x y n n n 22))(1(222⋅⋅---=222)()1(4---n x y xy n n 0<x<y<1对于其他x,y ,有0),())(1(=y x f n证:现在要求Y=)X 1/(X m nm n +的概率密度。
《应用数理统计》习题解答
2214243.(1)[||]0.140(2)[||]0.144(,4),(,),(0,)[||]20.1800255(3){||0.1}2(10.9521.9615372tnE a D nnE aN a N a t a NnnE t t dtnP t Pnξξξξξξπ-+∞-==≤⇒=-≤=-==≤==≤=≤=Φ-≥=⇒≥⎰《应用数理统计》参考答案习题一0.51.(,0.5)(,){||0.1}0.9972.97442N a N anP a Pnξξξξ⇒-<=<==⇒=2242.(,4)(,)100||(1)(||)()0.90,0.330.20.2(2):P(||)N a N aa UP a U P Uaξξξξσξεε⇒--<=<==-≥≤挈比学夫不等式(5)(5)125515(3){15}1{15}1{15,15,,15}1215121[{}]221[1(1.5)]0.292P P P P ξξξξξξ>=-≤=-≤≤≤--=->=--Φ=1121212111()(1){}{,,,}{1,1,,1}()()(1)(1)k n n nn m nm n m n m ni i P k pq P M m P m m m P m m m pqpq q q ξξξξξξξ----======≤≤≤-≤-≤-≤-=-=---∑∑4.5. 6. 13.0)25(1}8.012138.012{}13{)54,12(~)1()4,12(~=Φ-=->-=>ξξξξP P N N (1)(1)1255511515(2){10}1{10}1{10,10,,10}1[{10}]1[1{10}]1210121[1{}]221[11(1)]0.579P P P P P P ξξξξξξξξ<=-≥=->>>=->=--≤--=--≤=--+Φ=6(1)0.001567.2800~(0.0015)(1){800}[{800}][0.0015]x E P P e dx e ξξξ∞-->=>==⎰6(6)30000.00156 4.56(2){3000}[{3000}][0.0015](1)x P P e dx e ξξ--<=<==-⎰1212(2){}{,,,}{1,1,,1}n n nn P K k P k k k P k k k ξξξξξξ==≥≥≥-≥+≥+≥+7.8.均值的和(差)等于和的均值,方差的和差都等于方差的和9.由中心极限定理:10.11.22222(1)(1)(1)()222~()()()[()](,)it itit n e n n e n e it i t t tn it it n n nn p t e t t ee n e e e N n λξλλξξλλλλλξλϕϕϕλξλ---+--∴=∴======∴12121233~(20,3),~(20,),~(20,)10151~(0,)2{||0.3}1220.67N N N N P P ξξξξξξξξξ-∴->=->=-Φ=2(),(),E a D ξξσ==121(0,1)(0,1)~(,)n n i i i ni i na a n N N N a n nξξσξσξ==--∴∴=∑∑∑22222222,(),()()(),(),(),(,)k k k k k k k k k k k k k kk k E a E a D E E a a a a E A a D A n a a A N a nξξξξξ===-=--∴==-∴22121212222(),()(),()0,()()()2,()()()2,i i E E a D D E D D D E E D ξξξξσξξξξξξσξξξξξξσ====∴-=-=+=∴-=-+-=13.14.15.16.2212221221,(),(),()()0,()()()(1),11[()](1)1niii ii i iniiniiE a E a D DnE D D DnDn D nDES n Dn nE ES Dn n nσξξξσξξξξξξξσξξξξξξξ=======∴-=-=+--===--==--∑∑∑222222222424222(1),11()(1)()2(1)21 ()2(1)() nsnns nE n Es On nns nD n Ds On n n χσσσσσσσ--=-⇒==+-=-⇒==+112323''' '2(121)(1)()()()()5231()(121)23023021AD E E E EA E E A AVar Aξξξξξξηξηηηηηξξξξξ⎛⎫⎪-+=-==⎪⎪⎝⎭=--=--⎛⎫⎛⎫⎪⎪==--=⎪⎪⎪⎪⎝⎭⎝⎭11223''''110(2)(,)111()()()()5231()(121)23023021BE E E EB E E B BVar Bξηηηξξξηηηηξξξξξ⎛⎫⎛⎫ ⎪===⎪ ⎪⎝⎭ ⎪⎝⎭∑=--=--⎛⎫⎛⎫⎪⎪==--=⎪⎪⎪⎪⎝⎭⎝⎭11222211()2822121(2)||2241128116xx xxe dx dxπ⎛⎫⎛⎫- ⎪⎪∞∞⎝⎭⎝⎭-∞-∞-=∑-⎛⎫⎛⎫∑==⎪ ⎪-⎝⎭⎝⎭⎰⎰17.18.21.22.()11223'122'111110(,),211151,1101221111111100130111100310110N A A AAA Aξηξηξηηθθ⎛⎫⎛⎫⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎝⎭∑⎛⎫⎛⎫⎛⎫⎪==⎪ ⎪⎪⎝⎭⎝⎭⎪⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫⎪⎪∑=-=⎪ ⎪⎪⎪⎝⎭⎝⎭⎪⎪⎝⎭⎝⎭‘=,由引理1.2.3,则-的联合分布为--11223''12111111~(,),1011111432111111121301111210.2N A A AA Aξηξξηξηθρρρρρρρρρηη⎛⎫⎛⎫⎛⎫ ⎪⎪ ⎪ ⎪-⎝⎭⎝⎭ ⎪⎝⎭∴∑⎛⎫⎛⎫+--⎛⎫⎛⎫⎪⎪∑=-=⎪ ⎪⎪⎪---⎝⎭⎝⎭⎪⎪-⎝⎭⎝⎭∴--=⇒=-==A,--时与独立2''44''22'''''' 44224(0,)(,)()()2()()()()()cov(,)(,)()() ()()2()()()2()nN IE A B tr A tr B tr ABE A E B tr A tr BA B E A B E A E Btr A tr B tr AB tr A tr B tr AB ζσζζζζσσζζζζσσζζζζζζζζζζζζσσσσσ=+=∴=-=+-=()11112222121122,1,1,0822177,122477yay y Qyba babθθθθθθθ--⎛⎫⎛⎫--=⎪⎪-⎝⎭⎝⎭⇒===-=⎛⎫⎪⎛⎫⎛⎫∴=∑== ⎪⎪ ⎪⎪⎝⎭⎝⎭⎪⎝⎭23.24.又 则令 则与 独立,则 与独立,且26.则2212221~(,),~(0,),~(1),(0,1)/(1)n n N a N n n ns n N T t n σξξξσξξχσξξ++----=-'11111(,,),(,,)111(,,),()11n n n ij n n n n i i i ia a B D nn n ξξθξσσσσδσσ⨯======-∑∑'2,0,D D D BD ===221(,)(,)1()n ni i nnB N a N I ηξθσσ===∑,i i i aξγσ-=2'11,()()()ni i i a D n ηγζγγξθξθσ=-==-=--∑∑B nηξ=ξηζ)1(~2-n χζ11(,)22U ξθθ-+(1)()121111221111()2201()121()()[1()]1[]21()()[()][]2(,)(1)()()[()()](1)[]n x n n n n n n n x f x other F x dx x f x nf x F x n x f x nf x F x n x f x y n n f x f y F y F x n n y x ξξθξξθθθθθ-------⎧-<<+⎪=⎨⎪⎩==-+∴=-=⋅⋅-+==⋅+-=--=⋅-⋅-⎰27.33.2222122222212222(0,),1()||2 ()()()()22(1)iyniniiY a NE d Y dynaD dE d E d Ennn nσξσσξσσσπσσσππ-∞-∞===-==-=-=-=⋅-=-∑⎰∑2222122122210.3(0,0.3),(0,)1010()(9)0.310()100.18{}0.30.3{(2}0.01iniiniiniN NPPξξξξχξξξ===--⨯<=<=∑∑∑222(2)(0,1),(1)0.3(9){0.9}0.9932nsN ntP Psnξχσξξξ--<=<=12121222221221212(3)(0,0.18),(0,0.18)(0,1),(0,1)0.18(1),()(1)0.18{()40}0.9N NN NPξξξξχχξξξξ+-+-+<=-224132244(4)~(1),~(0,0.12),10.73 {10.73}{}0.95NP Pξχξξξξ-<=<=34.《应用数理统计》参考答案2211222212222211(1)(0,),(0,)(1),()(1)11,()()(2)nn miii i n nniii nn mi i i i n N n N m n m m a b n m a b n m ξσξσξξχχσσσξξχ+==+=+==+--==++-∑∑∑∑∑∑222211112(2)(),(0,)(0,1),/(),n mni ii n i nniii i i m N n N t m c m n ξχξσσξξσσ+=+===∴=∑∑∑∑∑2222221121221(3)(),()()/(1,1),/nn mi i i i n ni i n mi i n n m n mF n m d nm ξξχχσσξσξσ+==+=+=+--∴=∑∑∑∑1. 由矩估计法2. (1) 由矩估计法(2)(3)(4)(5)818226212266174.00281610(74.002)88610 6.85710181ii i i a X x S x n S S n σ=-=--⎧===⎪⎪⎨⎪==⨯=-⎪⎩∴==⨯⨯=⨯--∑∑11'1202()33A x EX x dx θαξθθαξθθξ==-====∴=⎰111'101(1)2211A EX x x dx θαξθαθξθξθξ==+==+==+-∴=-⎰1211211122222221212222222121112()2x x n i i e xdx e x dx A X n A S S S θθθθθθαθθξθαθθξθξθξθθξθξθ--+∞--+∞==⋅=+==⋅===+∴=+==-+⎧=-⎪∴⎨=⎪⎩⎰∑⎰111(1)122Ni N NA x N NN ξξ=+===⋅⇒=∑11102()1A dx ξξθξ===⇒=-⎰2∞3.4.2()2{0},(){0}{}()0.7,110.7,0.525x aA X AP A P dxa aP a pp aξξξ--=<=<=--=<=Φ-=≈∴≈=-⎰设表示出现的次数,(1)11111(1)()ln()[ln ln(1)ln]ln()1[ln ln]ln ln0 ln lnniiniin ni ii iniiL c xL c xLc x n c xnnx n cθθθθθθθθθθθθθ-+=======+-+∂=+-=+-=∂=-∏∑∑∑∑1111221(2)()ln()[ln1)ln]ln()]0(ln)niniiniiniiLL xLxnxθθθθθ======+∂=+=∂=∑∑∑11()()()()11(3)()ln()lnln()11,,,,()0,0,11,()()nnin nn nnn nnnLL nL nLother otherL Lθθθθθθθθξξθξθθθθθξθξθξ====-∂=-=∂⎧⎧≤≤⎪⎪==⎨⎨⎪⎪⎩⎩≤≤=∏11()()()()11(3)()ln()lnln()11,,,,()0,0,11,()()nnin nn nnn nnnLL nL nLother otherL Lθθθθθθθθξξθξθθθθθξθξθξ====-∂=-=∂⎧⎧≤≤⎪⎪==⎨⎨⎪⎪⎩⎩≤≤=∏5.221()212212241(5)()()ln()[ln]22()2()ln()[022in xiniini iiLxLx xLθθθθθθθθθθθθθξθ--====-=-----∂==∂=∑∑(1)11(1)11(1)(1)(6)()ln()[ln ln(1)ln]ln()(),,,()()nc ciiniinc ci niL c xL c c c xL ncL c xL Lθθθθθθθθθθθξξθξθξ-+==-+===--+∂=-=∂=≤≤⇒=∏∑∏不能解出,所以由22111(7)()1)(1)ln()[2ln(2)ln(1)ln(1)]2ln()22]01inxiini iiniiL xL x xx nL nθθθθθθθθθθθξ-====--=+--+--∂=-=⇒=∂-∏∑∑(~(,0)11nUξθ∏6.7.所以不唯一。
应用数理统计刘达民课后题答案
应用数理统计刘达民课后题答案
1.列举几个前沿数理统计机器学习的旧方法:
(1)线性回归:线性回归是机器学习的最常见的方法之一,主要用于分析解释变量对一个目标变量的影响。
(2)Logistic回归:Logistic回归是机器学习的另一个常见方法,它主要用于分类问题,如预测一个目标变量是否属于两个类别之一。
(3)支持向量机:支持向量机(SVM)是一种常见的机器学习算法,也可以用于分类问题,其中使用最大化超平面和核函数来支持它的模型。
(4)贝叶斯网络:贝叶斯网络是另一种类别机器学习算法,用于解决具有依赖性的多类别分类任务。
(5)K均值聚类:K均值聚类是一种常见的聚类算法,用于将数据集的点分组为若干类。
2.试论述对假设检验有效性的因素。
假设检验的有效性取决于研究者正确指定和应用有效的假设检验来解决给定的问题。
其有效性的因素包括样本容量、误差概率、置信度水平和显著程度等。
(1)样本容量:样本容量是指研究者使用的实际观察样本的数量。
如果样本容量越大,假设检验结果的精确度就越高,因此,确保够大的样本容量可以显著提高假设检验的有效性。
(2)误差概率:误差概率指研究者指定的可接受错误率,如果误差概率较低,可以有效控制假设检验结果得出正确的结论,从而提高假设检验的有效性。
(3)置信度水平:置信度水平指研究者指定的置信度百分比,如95%的置信度水平,说明允许发生的作出错的机会只有5%,这样可以有效地增强假设检验的有效性。
(4)显著程度:显著程度指研究者指定的信度限制,例如P<0.05,即接受null hypothese。
提高显著性程度,可以有效提高假设检验的有效性。
应用数理统计课后习题参考答案
习题五1试检验不同日期生产的钢锭的平均重量有无显著差异?(α=0.05) 解 根据问题,因素A 表示日期,试验指标为钢锭重量,水平为5.假设样本观测值(1,2,3,4)ij y j =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .检验的问题:01251:,:i H H μμμμ===L 不全相等 .计算结果:表5.1 单因素方差分析表注释: 当=0.001表示非常显著,标记为 ‘***’,类似地,= 0.01,0.05,分别标记为 ‘**’ ,‘*’ .查表0.95(4,15) 3.06F =,因为0.953.9496(4,15)F F =>,或p = 0.02199<0.05, 所以拒绝0H ,认为不同日期生产的钢锭的平均重量有显著差异.2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验 试检验在四种不同催化剂下平均得率有无显著差异?(α=0.05)解根据问题,设因素A 表示催化剂,试验指标为化工产品的得率,水平为4 .假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .其中样本容量不等,i n 分别取值为6,5,3,4 .检验的问题:012341:,:i H H μμμμμ===不全相等 .计算结果:表5.2 单因素方差分析表查表0.95(3,14) 3.34F =,因为0.952.4264(3,14)F F =<,或p = 0.1089 > 0.05,所以接受0H ,认为在四种不同催化剂下平均得率无显著差异 .3 试验某种钢的冲击值(kg ×m/cm2),影响该指标的因素有两个,一是含铜量A ,另试检验含铜量和试验温度是否会对钢的冲击值产生显著差异?(α=0.05) 解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.设因素,A B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.假设样本观测值(1,2,3,1,2,3,4)ij yi j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ=1,2,3,4j = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零;(2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; 计算结果:表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =,0.95(3,6) 4.757F =,显然计算值,A B F F 分别大于查表值,或p = 0.0005,0.0009 均显著小于0.05,所以拒绝1020,H H ,认为含铜量和试验温度都会对钢的冲击值产生显著影响作用.设每个工人在每台机器上的日产量都服从正态分布且方差相同 .试检验:(α=0.05)1) 操作工之间的差异是否显著? 2) 机器之间的差异是否显著?3) 它们的交互作用是否显著?解 根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.设因素,A B 分别表示为机器和操作,试验指标为日产量,水平为12. 假设样本观测值(1,2,3,1,2,3,4)ijk y i j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j =,1,2,3k = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;记ij γ为对应于交互作用A B ⨯的主效应; 检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零; (2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; (3)30:ij H γ全部等于零,31:ij H γ不全等于零;计算结果:表5.4 双因素无重复试验的方差分析表查表0.95(3,24) 3.01F =,0.95(2,24) 3.4F =,0.95(6,24) 2.51F =,计算值 3.01,A F <3.4, 2.51B A B F F ⨯>>,或0.05A p >>,而,B A B p p ⨯均显著小于0.05,所以拒绝2030,H H ,接受10H ,认为操作工之间的差异显著,机器之间的差异不显著,它们之间的交互作用显著 . 5 某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示因素 上升温度℃ 保温时间(h)出炉温度℃水平1 800 6 400 水平28208500试填好正交试验结果分析表并对试验结果进行直观分析和方差分析 .解 根据题意,这是一个3因素2水平的试验问题 .试验指标为硬度的合格率 .应选择正交表44(2)L 来安排试验,随机生成正交试验表如下:方差来源 自由度 平方和 均方 F 值 P 值 因素A 因素B 相互效应A ×B误差 总和3 2 6 24 352.750 27.167 73.5 41.333 144.750.917 13.583 12.250 1.7220.5323 7.8871 7.11290.6645 0.00233** 0.00192**由此可见第三号试验条件为:上升温度800℃、保温时间6h 、出炉温度500℃ . 直观分析需要计算K 值,计算结果如下:直观分析 由计算的K 值知,因素A 、B 、C 的极差分别为70,40,40,因此主次关系为A B C >=,B ,C 相当 .由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是121,,A B C ,即最佳的水平组合是121A B C ,即最佳搭配为:上升温度800℃、保温时间8h 、出炉温度400℃.采用方差分析法,计算得下表:表5.7 方差分析表方差来源平方和 自由度 均方差 F 值 A 1225 1 1225 1 B 400 1 400 0.33 C 400 1 400 0.33 误差 1225 1 1225 总和32504如果显著性检验水平取0.1α=,则查表得0.9(1,1)39.9F =,显然计算的F 值1,0.33A B C F F F ===均小于查表值,所以认为三个因素对结果影响都显著 .6问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:kg/100m 2):62.925,57.075,51.6,55.05,58.05,56.55,63.225,50.7,54.45,试对该正交试验结果进行直观分析和方差分析.解 该问题属于3因素3水平的试验问题,试验指标为水稻产量 .根据题意应选择正交表49(3)L 来安排试验,随机生成正交表如下:由表可知,第8号试验的条件:品种(A 3)珍珠矮11号,插值密度(B 2)3.75棵/100m 2,施肥量(C 1)0.75kg/100m 2纯氨; 直观分析需要计算K 值,计算结果如下:同上题进行直观分析,得出K 值的大小关系为:111312212223333132,,K K K K K K K K K >>>>>>由直观分析看出:本例较好的水平搭配是:113A B C 采用方差分析法,计算得下表:表5.10 方差分析表方差来源平方和自由度 均方差F 值A 1.759 2 0.879 0.0223B 65.861 2 32.931 0.8361C 6.660 2 3.330 0.0845 误差78.776 239.388 39.3880.9(2,2)9F =,所以认为三个因素对结果影响都不显著.7 在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A ,吡啶量B 和反应时间C 三个因素,它们各取了7个水平如下:原料配比A :1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量B :10,13,16,19,22,25,28 反应时间C :0.5,1.0,1.5,2.0,2.5,3.0,3.5试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:0.33,0.336,0.294,0.476,0.209,0.451,0.482,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.解 根据题意选择均匀设计表47(7)U 来安排试验,有3个因素,根据使用表,实验安排如:表5.11 试验安排表6 6 5 4 0.4517 7 7 7 0.482 所以第7号实验的条件为:原配料比3.4,吡啶量28ml,反应时间3.5h.通过直观分析,最好的实验条件是:原配料比3.4,吡啶量28ml,反应时间3.5h. 通过回归分析,最合适的实验条件是:原配料比2.6,吡啶量16ml,反应时间0.5h.习题六1 从某中学高二女生中随机选取8名,测得其升高、体重如下:1 2 3 4 5 6 78身高(cm)160 159 160 157 169 162 165 154体重(kg)49 46 53 41 49 50 48 43在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图6.1,表6.1和表6.2:最短距离法离差平方和法图6.1 聚类树形图表6.1 聚类附表(最短距离法)步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 6 5.000 0 0 22 1 2 10.000 1 0 43 4 8 13.000 0 0 74 1 7 13.000 2 0 55 1 3 13.000 4 0 66 1 5 17.000 5 0 7表6.2 聚类附表(离差平方和法)2 已知五个变量的距离矩阵为03674012340444401592343331).;2);3)036034022020401000⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.解 针对距离矩阵1),采用两种方法计算如下. ①最短距离法的聚类步骤如下:12345036740159036020w w w w w ⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭a )将()236,1w w f h =合并为一类,,{}11456,,,,H w w w h =距离矩阵如下0743023060⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}()457457),,,2b w w h w w f h ==合并为一类,{}2167,,,H w h h =距离矩阵如下:034030⎛⎫ ⎪⎪ ⎪⎝⎭{}()()1681689),,3,3c w h h w h f h f h ===合并为一类,最后,,聚类图和树状图如图6.2:图6.2 聚类图(左)与树状图(右)②最长距离法与最短距离法类似,步骤如下: a )()236,1w w f h =合并为一类,{}11456,,,,H w w w h =距离矩阵如下0746025090⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ {}(){}4574572167),,,2,,,b w w h w w f h H w h h ===合并为一类,距离矩阵如下:067090⎛⎫⎪⎪ ⎪⎝⎭{}()()1681689),,69c w h h w h f h f h ===合并为一类,最后,,,聚类图和树状图如图6.3:图6.3 聚类图(左)与树状图(右)(2)针对距离矩阵2)012340234034040⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭①最短距离法的聚类步骤如下 a )()216,1w w f h =合并为一类,{}13456,,,,0342043040H w w w h =⎛⎫⎪⎪ ⎪ ⎪⎝⎭距离矩阵如下{}()367367),,,2b w h h w h f h ==合并为一类,{}24567,,,,H w w h h =聚类矩阵如下:043040⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,聚类图和树状图如图6.4:图6.4 聚类图(左)与树状图(右)②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略). (3)044440333022010⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭最短距离法的聚类步骤如下a ) ()456,1w w f h =合并为一类,{}11236,,,,H w w w h =距离矩阵如下0444033020⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}(){}36736724567),,,2,,,,b w h h w h f h H w w h h ===合并为一类,距离矩阵如下:044030⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,,聚类图和树状图如图6.5:图6.5 聚类图(左)与树状图(右)由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).3 在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:总氮量(%)0.120.63 1.19 2.30 1.29 0.73 0.52 0.33 0.61 0.470.66在绝对距离下,试用重心法对其进行聚类分析.解由R软件得到重心法聚类分析的结果如图6.6与表6.3:图6.6 聚类树形图表6.3 聚类过程记录表步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 8 .001 0 0 22 1 10 .002 1 0 43 6 9 .005 0 0 64 15 .010 2 0 75 2 4 .010 0 0 86 67 .027 3 0 77 1 6 .048 4 6 88 1 2 .459 7 5 99 1 3 2.572 8 0 04 1975年Dagnelie收集了11年的气象数据资料如下表变量年序x1x2x3x4其中:x 1—前一年11月12日的降水量;x 2—7月均温;x 3—7月降雨量;x 4—月日辐射,试对这四个气象因子进行主成分分析. 解 由R 软件分析得到如下表6.4,6.5:表6.4 各主成分的重要性:主成分1 主成分2 主成分3 主成分4 标准差 1.6103349 0.9890848 0.53407741 0.37854199 方差贡献率 0.6482947 0.2445722 0.07130967 0.03582351 累积贡献率0.64829470.89286680.964176491.00000000表6.5 因子荷载:主成分1 主成分2 主成分3 主成分4 X1 0.291 0.871 0.332 -0.214 X2 -0.506 0.425 -0.742 -0.111 X3 0.577 0.136 -0.418 0.688 X4-0.5710.2050.4040.685由于前两个主成分对应的累积贡献率已经达到89.287,因此选取主成分的数目为2.5 对某初中12岁的女生进行体检,测量其身高x 1、体重x 2、胸围x 3和坐高x 4,共测得58个样本,并算得1234(,,,)x x x x x ='的样本协方差为19.9410.5023.566.5919.7120.958.637.97 3.937.55S ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭ 试进行样本主成分分析.解 首先计算样本的相关系数矩阵:10.484410.32240.887210.70330.59760.31251⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭设相关系数矩阵的特征值和特征向量分别为d 和v 阵,计算得到0.0546000 0 0.312600= 000.96470 000 2.6681d ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭即四个特征值依次为:2.6681,0.9647,0.3126,0.0546,前两个主成分的累计贡献率为:90.8471%,因此提取主成分为2.四个特征根相应的特征向量为0.06000.70600.5333 0.4620 0.7317 0.17430.34040.5642=0.60570.19320.60400.48060.30690.65870.48460.4870v -⎛⎫ ⎪-⎪ ⎪--- ⎪-⎝⎭ 因此,两个主成分的表达式为:112340.060.73170.60570.3069z x x x x =+-- 212340.7060.17430.19320.6587z x x x x =-+-+6 比较因子分析和主成分分析模型的异同,阐明两者的关系. 解(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:主成分分析是将n 个原始变量提取m 个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.(3)统用降维的方法,但差异也很明显:主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.(5)两者分析的实质及重点不同.主成分的数学模型为Y AX =,因子分析的数学模型为X AF ε=+.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.(6)SPSS 数据的实现:两者都通过“analyzedata reduction Factor ···”过程实现,但主成分分析主要使用“descriptires ”,“extraction ”,“stores ”对话框,而因子分析处使用这些外,还可使用“rotaction ”对话框进行因子旋转.7 试对第4题的变量作因子分析,并将结果和上面的结果进行比较. 解 用SPSS 分析,计算结果如下表6.6-6.8:表6.6 反应压缩比情况表 提取方法: 主成分法计算的相关系数矩阵的特征值和方差贡献率:表6.7 方差解释度提取方法: 主成分法表6.8 主成分矩阵8 为研究某一树种的叶片形态,选取50片叶测量其长度x 1(mm )和宽度x 2(mm ),按样本数据求得其平均值和协方差矩阵为:129048134,92,4845x x S ⎛⎫=== ⎪⎝⎭求出相关系数阵R ,并由R 出发作因子分析;解1)求相关系数矩阵:904810.7303,48900.73031S R ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭ 2)用R 软件求R 的特征根及其相应的特征向量,软件输出结果如下:$values[1] 2.99393809 0.07273809 $vectors[,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068122.9939,0.0727,λλ∴==12(),()0.7071,0.7071-0.7071,0.7071T Tηη==3) 求载荷矩阵A :1.22350.19071.22350.1907A -⎛⎫= ⎪⎝⎭4)22121.5333, 1.5333,h h == 0.98810.154*0.98810.154A -⎛⎫= ⎪⎝⎭12121,1,0.3043,0.3043u u v v ===-=,222222000011112,0,()0.9074,20i i iii i i i i i A u B v C u v D u v =========-===∑∑∑∑9 1981年,生物学家Grogan 和Wirth 对两种蠓虫Af 和Apf 根据其触角长度x 1和翼长x 2进行了分类,分类的数据资料如下:Af 1 2 3 4 5 6 7 8 x 1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 x 2 1.27 1.74 1.64 1.82 1.90 1.70 1.82 1.82 Apf 1 2 3 4 5 6 x 1 1.14 1.18 1.20 1.26 1.28 1.30 x 2 1.78 1.96 1.86 2.00 2.00 1.96 (1)试建立Af 和Apf 的Fisher 判别模型;(2)对样本(1.24,1.80),(1.28,1.84),(1.40,2.04)进行判别分类. 解 (1)建立Fisher 判别模型991122121111(,)(1.42,1.75),(,)(1.23,1.93)99T TT T i i i i i i x x y y μμ======∑∑120.08480.1490.01980.0218,0.1490.39120.02180.039A A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭12120.0080.0130.0130.0332A A n n ⎛⎫+== ⎪+-⎝⎭∑()120.19,0.18Tμμ-=-,()()121 1.325,1.842T μμ+= 1345.05135.42135.4283.33--⎛⎫= ⎪-⎝⎭∑, 带入Fisher 判别函数 ()12345.05135.42[(,)(1.325,1.84)]0.19,0.18135.4283.33Tx x -⎛⎫-- ⎪-⎝⎭1291.301741.336944.534x x =--(2)把三个样本(1.24,1.80),(1.28,1.84),(1.4,2.04)带入模型,得到结果:三个样本均属于Apf 类.10 在两个玉米品种之间进行判别:137玉米G 1和甜玉米G 2,选取的两个变量是:x 1—玉米果穗长;x 2—玉米果穗直径,两个类的样本容量为n 1=n 2=40,实际算得两个类的样本均值和样本协方差为:121218.5625.348.120 4.4589.661 3.720,,,5.98 4.12 4.458 4.350 3.720 3.410x x S S ⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭试建立G 1,G 2的Bayes 类线性判别函数.解 因为已知两类的样本均值和样本协方差为:12(18.56,5.98),(25.34,4.12)T T x x ==,128.120 4.4589.661 3.720,4.458 4.350 3.720 3.410S S ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭可计算得到修正的公共协方差矩阵和逆矩阵12120.2280.1450.1450.0992A A n n ⎛⎫+== ⎪+-⎝⎭∑,15.6393.738.25147.38--⎛⎫= ⎪-⎝⎭∑()()()121216.78,1.86,21.95,5.052TTμμμμ-=-+= 带入Fisher 判别函数()112121(())()2T W x x μμμμ-=-+-∑ ()()12 5.6393.73[(,)21.95,5.05] 6.78,1.868.25147.38Tx x -⎛⎫=-- ⎪-⎝⎭1274.396.951141.29x x =-+-。
应用数理统计课后答案
t
2 i
11
t
2
3406
.681
.
i 1
i 1
所以
bˆ
lt z lt t
496 .583 3406 .681
0.146
;
Aˆ z bˆ t 0.532 .
得 zˆ 0.532 0.146 t .
换 yˆ ezˆ , aˆ e Aˆ 1.73 , x 1 t
(参考数据:)
6-2. 解:检验问题 H0 :1 2 3
工厂
寿命
Ti
Ti
2
或 i
n
i
S
2 i
甲
40 48 38 42 45 (1600 2304 1444 1764 2025
213
45369 42.6
63.2
乙
26 34 30 28 32 676 1156 900 784 1024
xi
150 160 170 180 190 200 210 220 230 240 250 260
yi
56.9 58.3 61.6 64.6 68.1 71.3 74.1 77.4 80.2 82.6 86.4 89.7
(1)求 对 x 的线性回归方程,并问:每立方米混凝土中增加 1kg 水泥时,可提高的
(4)当 x0 225 时,0 的预测值为 yˆ0 10.28 0.304 225 78.68
由于 0 的1 预测区间为: ( yˆ0 (x0) , yˆ0 (x0) )
(
yˆ0
ˆ
t 12
(n
2)
1
1 n
(完整版)清华大学_杨虎_应用数理统计课后习题参考答案
习题一1 设总体X 的样本容量5=n ,写出在下列4种情况下样本的联合概率分布. 1)),1(~p B X ; 2))(~λP X ; 3)],[~b a U X ; 4))1,(~μN X .解 设总体的样本为12345,,,,X X X X X , 1)对总体~(1,)X B p ,1122334455511155(1)(,,,,)()(1)(1)i inx x i i i i x x P X x X x X x X x X x P X x p p p p -==-========-=-∏∏其中:5115ii x x ==∑2)对总体~()X P λ11223344555115551(,,,,)()!!ixni i i i i xi i P X x X x X x X x X x P X x e x e x λλλλ-==-==========∏∏∏其中:5115ii x x ==∑3)对总体~(,)X U a b5511511,,1,...,5 (,,)()0i i i i a x b i f x x f x b a==⎧≤≤=⎪==-⎨⎪⎩∏∏,其他4)对总体~(,1) X N μ()()()25555/222151111 (,,)()=2exp 2i x i i i i i f x x f x x μπμ---===⎛⎫==-- ⎪⎝⎭∑∏2 为了研究玻璃产品在集装箱托运过程中的损坏情况,现随机抽取20个集装箱检查其产品损坏的件数,记录结果为:1,1,1,1,2,0,0,1,3,1,0,0,2,4,0,3,1,4,0,2,写出样本频率分布、经验分布函数并画出图形.解 设(=0,1,2,3,4)i i 代表各箱检查中抽到的产品损坏件数,由题意可统计出如下的样本频率分布表1.1:表 1.1 频率分布表i 0 1 2 3 4 个数6 7 3 2 2 iX f0.3 0.35 0.15 0.1 0.1经验分布函数的定义式为:()()()(1)10,(),,=1,2,,1,1,n k k k x x kF x x x x k n n x x +<⎧⎪⎪≤<-⎨⎪≥⎪⎩,据此得出样本分布函数:200,00.3,010.65,12()0.8,230.9,341,4x x x F x x x x <⎧⎪≤<⎪⎪≤<⎨≤<⎪⎪≤<⎪≥⎩图1.1 经验分布函数3 某地区测量了95位男性成年人身高,得数据(单位:cm)如下:组下限165 167 169 171 173 175 177 组上限167 169 171 173 175 177 179x()n F x人 数3 10 21 23 22 11 5试画出身高直方图,它是否近似服从某个正态分布密度函数的图形.解图1.2 数据直方图它近似服从均值为172,方差为5.64的正态分布,即(172,5.64)N .4 设总体X 的方差为4,均值为μ,现抽取容量为100的样本,试确定常数k ,使得满足9.0)(=<-k X P μ.解 ()- 54100X P X k P k μμ⎫-⎪<=<⎪⎭()()555 P k X k μ=-<-<因k 较大,由中心极限定理(0,1)4100X N : ()()()-55P X k k k μ<≈Φ-Φ-(5)(1(5))k k =Φ--Φ()2510.9k =Φ-=所以:()50.95k Φ=查表得:5 1.65k =,0.33k ∴=.5 从总体2~(52,6.3)X N 中抽取容量为36的样本,求样本均值落在50.8到53.8之间的概率.解 ()50.853.8 1.1429 1.7143X P X P ⎛⎫<<=-<< ⎪⎝⎭(0,1) 6.3X U N =()()50.853.8 1.1429 1.7143(1.7143)( 1.14290.9564(10.8729)0.8293P X P U ∴<<=-<<=Φ-Φ-=--=)6 从总体~(20,3)X N 中分别抽取容量为10与15的两个独立的样本,求它们的均值之差的绝对值大于0.3的概率.解 设两个独立的样本分别为:110,,X X 与115,,Y Y ,其对应的样本均值为:X 和Y .由题意知:X 和Y 相互独立,且: 3~(20,)10X N ,3~(20,)15Y N(0.3)1(0.3)P X Y P X Y ->=--≤1P =-~(0,0.5)~(0,1)(0.3)22(0.4243)0.6744X Y N X YN P X Y -->=-Φ=7 设110,,X X 是总体~(0,4)X N 的样本,试确定C ,使得1021()0.05ii P XC =>=∑.解 因~(0,4)i X N ,则~(0,1)2iX N ,且各样本相互独立,则有:10122~(10)2i i X χ=⎛⎫⎪⎝⎭∑所以:10102211()()144iii i CP X C P X ==>=>∑∑1021110.0544i i c P X =⎛⎫=-≤= ⎪⎝⎭∑102110.9544i i c P X =⎛⎫≤= ⎪⎝⎭∑查卡方分位数表:c/4=18.31,则c=73.24.8 设总体X 具有连续的分布函数()X F x ,1,,n X X 是来自总体X 的样本,且i EX μ=,定义随机变量:1,,1,2,,0,i i i X Y i n X μμ>==≤⎧⎨⎩试确定统计量∑=ni i Y 1的分布.解 由已知条件得:~(1,)i Y B p ,其中1()X p F μ=-.因为i X 互相独立,所以i Y 也互相独立,再根据二项分布的可加性,有1~(,)nii YB n p =∑,1()X p F μ=-.9 设1,,n X X 是来自总体X 的样本,试求2,,EX DX ES 。
清华大学杨虎应用数理统计课后习题参考答案
习题三1 正常情况下,某炼铁炉的铁水含碳量2(4.55,0.108)X N :.现在测试了5炉铁水,其含碳量分别为4.28,4.40,4.42,4.35,4.37. 如果方差没有改变,问总体的均值有无显著变化?如果总体均值没有改变,问总体方差是否有显著变化(0.05α=)?解 由题意知 2~(4.55,0.108),5,0.05X N n α==,1/20.975 1.96u u α-==,设立统计原假设 0010:,:H H μμμμ=≠ 拒绝域为{}00K x c μ=->,临界值1/21.960.108/0.0947c u α-==⋅=,由于 0 4.364 4.550.186x c μ-=-=>,所以拒绝0H ,总体的均值有显著性变化.设立统计原假设 22220010:,:H H σσσσ=≠ 由于0μμ=,所以当0.05α=时22220.0250.97511()0.03694,(5)0.83,(5)12.83,n i i S X n μχχ==-===∑% 2210.02520.975(5)/50.166,(5)/5 2.567c c χχ====拒绝域为 {}222200201//K s c s c σσ=><%%或由于22/ 3.167 2.567S σ=>%,所以拒绝0H ,总体的方差有显著性变化. 2 一种电子元件,要求其寿命不得低于1000h .现抽测25件,得其均值为x =950h .已知该种元件寿命2(100,)X N σ:,问这批元件是否合格(0.05α=)?解 由题意知 2(100,)X N σ:,设立统计原假设0010:,:,100.0.05.H H μμμμσα≥<==拒绝域为 {}00K x c μ=-> 临界值为0.050.0532.9c u u =⋅=⋅=-由于 050x c μ-=-<,所以拒绝0H ,元件不合格.3 某食品厂用自动装罐机装罐头食品,每罐标准重量为500g ,现从某天生产的罐头中随机抽测9罐,其重量分别为510,505,498,503,492,502,497,506,495(g ),假定罐头重量服从正态分布. 问 (1)机器工作是否正常(0.05α=)? 2)能否认为这批罐头重量的方差为5.52(0.05α=)?解 (1)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ:,μ已知设立统计原假设 0010:500,:H H μμμμ==≠,拒绝域 {}00K x c μ=-> 当0.05α=时,2500.89,34.5, 5.8737x s s ===临界值 12(1) 4.5149c t n α-=-⋅=,由于00.8889x c μ-=<,所以接受0H ,机器工作正常.(2)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ:,σ已知设立统计原假设 222220010: 5.5,:H H σσσσ==≠拒绝域为 {}{}222200102K s c s c σσ=<>%%U 当α=0.05时,可得2220.0250.97512500.89,34.5,(5) 2.7,(5)19.02,0.3, 2.11x s c c χχ======%由于22001.0138sK σ=∈%,所以接受0H ,可以认为方差为25.5. 4 某部门对当前市场的鸡蛋价格情况进行调查,抽查某市20个集市上鸡蛋的平均售价为3.399(元/500克),标准差为0.269(元/500克).已知往年的平均售价一直稳定在3.25(元/500克)左右, 问该市当前的鸡蛋售价是否明显高于往年?(0.05α=)解 设X 表示市场鸡蛋的价格(单位:元/克),由题意知2(,)X N μσ: 设立统计原假设 0010: 3.25,:H H μμμμ==>, 拒绝域为 {}00K x c μ=->当α=0.05时,13.399,0.269,20,0.0992x n c ασμ-====⋅=临界值由于0 3.399 3.250.149.x c μ-=-=>所以拒绝0H ,当前的鸡蛋售价明显高于往年.5 已知某厂生产的维尼纶纤度2(,0.048)X N μ:,某日抽测8根纤维,其纤度分别为1.32,1.41,1.55,1.36,1.40,1.50,1.44,1.39,问这天生产的维尼纶纤度的方差2σ是否明显变大了(0.05α=)?解 由题意知 2(,0.048)X N μ:,0.05α=设立统计原假设 2222220010:0.048,:0.048H H σσσσ==>=拒绝域为{}2200K s c σ=>, 当0.05α=时,2220.950.951.4213,0.0055,(7)14.07,(7)7 2.0096x s c χχ=====由于220 2.3988s c σ=>,所以拒绝0H ,认为强度的方差明显变大.6 某种电子元件,要求平均寿命不得低于2000h ,标准差不得超过130h .现从一批该种元件中抽取25只,测得寿命均值1950h ,标准差148h s =.设元件寿命服从正态分布,试在显著水平 α=0.05下, 确定这批元件是否合格.解 设X 表示电子元件的平均寿命(单位:h ),由题意知2(,)X N μσ:设立统计原假设 0010:=2000H <H μμμμ≥,: 拒绝域为 {}00K x c μ=-<当0.05α=时,1950,148,(1)50.64x s c t n α===-=-临界值由于 050x c μ-=->,所以接受0H ,即这批电子元件的寿命是合格的. 7 设n X X X ,...,,21为来自总体(,4)X N μ:的样本,已知对统计假01:1;: 2.5H H μμ== 的拒绝域为0K {}2>=X .1)当9=n 时,求犯两类错的概率α与β;2)证明:当n →∞时,α→0,β→0.解 (1)由题意知 {}010~(,4),:1;: 2.5,2,9.X N H H K X n μμμ===>= 犯第一类错误的概率为()21 1.51(1.5)0.0668.X P X P αμ⎫=>==>==-Φ=⎪⎭犯第二类错误的概率为()2 2.50.75(0.75)1(0.75)0.2266.X P X P βμ⎫=≤==≤=-⎪⎭=Φ-=-Φ=(2)若0:1H μ=成立,则(1,4)X N :}{}{00000()=11)n P H H P X c P X c nc αμμσ=≥+=-<+=-Φ否定成立 当n →∞时,0)1ncσΦ→,所以0()n n α→→∞同理 }{0010=<+=+c )/)()=0()n P X c n βμμμσΦ-→Φ-∞→∞ 8 设需要对某一正态总体,4()N μ的均值进行假设检验H 0:μ= 15,H 1:μ<15取检验水平α=0.05,试写出检验H 0的统计量和拒绝域.若要求当H 1中的μ=13时犯第二类错误的概率不超过β=0.05,估计所需的样本容量n .解 由题意知 (,4)X N μ:,σ已知, 设立统计原假设 01:15,:15H H μμ=< 则拒绝域为}{015K X c =-<,其中临界值0.05c μ=⋅=-犯第二类错误的概率1513130.05P X P X β⎛⎫⎛⎫=->==->≤ ⎪ ⎭⎝⎝即1.65)0.95Φ≥, 化简得 23.311n ≥≈.9 设n X X X ,...,,21为来自总体X ~20(,)N μσ的样本,20σ为已知, 对假设:0011:;:H H μμμμ==其中01μμ≠,试证明:2211212()()n αβσμμμμ--=+⋅- 解 (1)10>μμ当时,由题意知 00110:;:;H H μμμμμ==>犯第一,二类错误分别为,αβ,则有001(|)P X c c u ααμμμ-=>+=⇒=01110(|))X P X c P u αβμμμμμ-=≤+==≤=⇒()()22011111120010u u u u n u u ββααβαβσμμμ------=-=⇒+=⇒=+- (2)10μμ≤当时由题意知 00110:,:H H μμμμμ==≤,犯第一,二类错误分别为,αβ,则有00(|)P X c c u ααμμμ=<+=⇒=()()01102201111120010(|))X P X c P u u u u u n u u αβααβαββμμμμμσμμ-----=≥+==≥+=⇒=⇒+==+-10设171,...,X X 为总体2(0,)X N σ:样本,对假设:2201:9,: 2.905H H σσ==的拒绝域为 }{20 4.93K s =<. 求犯第Ⅰ类错误的概率α和犯第Ⅱ类错的概率β. 解 由题意知 2(0,)X N σ:,222~().nsn χσ%统计假设为 2201:9,: 2.905H H σσ==. 拒绝域为 }{20 4.93K s=<% 则犯第一,二类错误的概率,αβ分别是()()22222221717417174497.3040.0259999171744 3.319120.48810.750.253.319 3.319s s P s P P s P s P ασβσ⎛⎫⎛⎫⨯⨯=<==<=<== ⎪ ⎪⎝⎭⎝⎭⎛⎫⨯=<==-<==-= ⎪⎝⎭%%%%%11 设总体是密度函数是1,01(;)0,x x f x θθθ-<<=⎧⎨⎩其他统计假设 01:1,:2H H θθ==.现从总体中抽取样本21,X X ,拒绝域2134ΚX X =≤⎧⎫⎨⎬⎩⎭,求:两类错误的概率,αβ解 由题意知010213:1;:2,, 2.4H H K X n X θθ⎧⎫===≤=⎨⎬⎩⎭当12121,0,11(;1) 1.~(0,1),(,)0,x x f x X U f x x θ<<⎧===⎨⎩时,其他此时 212121231431(,)0.250.75ln 0.75.4x x P X f x x dx dx X αθ≤⎛⎫=≤===+⎪⎝⎭⎰⎰当1212122,014,0,12(;2).(,)0,0,x x x x x x f x f x x θ<<<<⎧⎧===⎨⎨⎩⎩时,其他其他 此时 21212123143992(,)ln 0.75.4168x x P X f x x dx dx X βθ>⎛⎫=>===+⎪⎝⎭⎰⎰12 设总体2(,)X N μσ:,根据假设检验的基本原理,对统计假设:00110:,:()()H H μμμμμσ==>已知;0010:,:H H μμμμσ≥<(未知),试分析其拒绝域.解 由题意知 2(,)X N μσ:,当00110:,:()H H μμμμμ==>成立时()01X P X c P αμμμ=->==>=-Φ{}1100,u c u K X cααμ--===->所以拒绝域为}{00K X cμ=->当0010:,:H Hμμμμ≥<成立时00()()XP X c P X c Pαμμμμ⎛⎛⎫⎫=-<≥≥-<=<=Φ}{00,c K X cααμμμ===-<所以拒绝域为}{00K X cμ=-<13 设总体2(,)X Nμσ:根据假设检验的基本原理,对统计假设:(1)22220010:,:()H Hσσσσμ=>已知;(2)22220010:,:()H Hσσσσμ≤>未知试分析其拒绝域.解由题意知2~(,)X Nμσ(1)假设统计假设为22220010:=,:>H Hσσσσ其中μ已知当H成立时,拒绝域形式为202=>sK cσ⎧⎫⎪⎨⎬⎪⎭⎩由22222=(n)ns nsχσσ:,可得22=>nsP ncασ⎧⎫⎪⎨⎬⎪⎭⎩所以21-=()nc nαχ,由此可得拒绝域形式为2201-21=>()sK nnαχσ⎧⎫⎪⎨⎬⎪⎭⎩(2)假设统计假设为22220010:<,:>H Hσσσσ其中μ未知当H成立时,选择拒绝域为202=>sK cσ⎧⎫⎪⎨⎬⎪⎭⎩,由222(-1)(1)n snχσ-:得()()()()22221111n s n sP n c P n cασσ⎧⎫⎧⎫--⎪⎪⎪⎪=>-≤>-⎨⎬⎨⎬⎪⎪⎪⎪⎩⎭⎩⎭所以21(1)(1)n c n αχ--=-,由此可得拒绝域形式为2201-201=>(1)1s K n n αχσ⎧⎫⎪-⎨⎬-⎪⎭⎩14 从甲、乙两煤矿各取若干样品,得其含灰率(%)为,甲:24.3, 20.8, 23.7, 21.3, 17.4, 乙:18.2, 16.9, 20.2, 16.7 .假定含灰率均服从正态分布且2212=σσ,问甲、乙两煤矿的含灰率有无显著差异 (=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠ 其中12=5,=4n n 当=0.05α时1/2122.3238,(2) 2.3646w s t n n α-==+-=临界值1-12=(+2) 3.6861w c t n n s α-⋅= 拒绝域为}{0 3.6861K x y c =->= 而 03.5,,.x y c H -=<接受认为没有差别15 设甲、乙两种零件彼此可以代替,但乙零件比甲零件制造简单,造价也低.经过试验获得它们的抗拉强度分别为(单位:kg/cm 2):甲:88,87,92,90,91 乙:89,89,90,84,88假定两种零件的抗拉强度都服从正态分布,且21σ =22σ.问甲种零件的抗拉强度是否比乙种的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12=5,=5n n 当=0.05α时122.2136,(2) 1.86,w s t n n α==+-=-临界值1-212=(+2) 2.2136w c t n n s α-⋅=拒绝域为}{0 2.2136K x y c =->=而 1.6x y c -=<,所以接受0H ,认为甲的抗拉强度比乙的要高.16 甲、乙两车床生产同一种零件.现从这两车床产生的产品中分别抽取8个和9个,测得其外径(单位:mm )为:甲:15.0,14.5,15.2,15.5,14.8,15.1,15.2,14.8乙:15.2,15.0,14.8,15.2,15.0,15.0,14.8,15.1,14.8假定其外径都服从正态分布,问乙车床的加工精度是否比甲车床的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 2222012112:;:H H σσσσ≥<,其中12=8,=9n n当=0.05α时 220.0955,0.0261x y s s ==,临界值 12(1,1)0.2684c F n n α=--=拒绝域为202x ys K c s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩,而22 3.6588x y s F c s ==>,接受0H ,认为乙的精度高.17 要比较甲、乙两种轮胎的耐磨性,现从甲、乙两种轮胎中各取8个,各取一个组成一对,再随机选取8架飞机,将8对轮胎磨损量(单位:mg )数据列表如下:试问这两种轮胎的耐磨性有无显著差异?(=0.05α). 假定甲、乙两种轮胎的磨损量分别满足2212(,),Y (,)X N N μσμσ::且两个样本相互独立.解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12===8n n n当=0.05α时,令()221/211,320,102200,319.69,(1) 2.36461n ZZ i Z X Y z s z z s t n n α-==-==-==-=-∑ 拒绝域为}{0K z c =>,临界值1-2=(1)2138Z c t n s α-⋅=而320z c =<,所以接受0H ,认为两种轮胎耐磨性无显著差异. 18 设总体2212(,),Y (,)X N N μσμσ::, 由两总体分别抽取样本 X :4.4,4.0,2.0,4.8 Y :6.0,1.0,3.2,0.41)能否认为12μμ= (=0.05α)? 2)能否认为2212σσ= (=0.05α)?解 (1) 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12==4=n n n令Z X Y =-,则有22111.15,()9.02331nzi z s z z n ===-=-∑, 当=0.05α时,1-2=(1) 3.1824c t n α-=,1-2=(1)/ 4.78Z c t n s α-⋅= 拒绝域为}{0K z c =>,而 1.15z c =<,所以012,.H μμ=接受认为(2) 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 2222220111:=;:H H σσσσ≠,其中12==4=n n n 其中221.5467, 6.4367x y s s ==,拒绝域为2201222>x x yy s s K c c s s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩或临界值 1/21221212(1,1)0.0648,(1,1)15.4392c F n n c F n n αα-=--==--=而22201220.2403,,.X Ys F H s σσ===接受认为19 从过去几年收集的大量记录发现,某种癌症用外科方法治疗只有2%的治愈率.一个主张化学疗法的医生认为他的非外科方法比外科方法更有效.为了用实验数据证 实他的看法,他用他的方法治疗200个癌症病人,其中有6个治好了.这个医生断 言这种样本中的3%治愈率足够证实他的看法.(1)试用假设检验方法检验这个医生的看法;(2)如果该医生实际得到了4.5%治愈率,问检验将证实化学疗法比外科方法更有效的概率是多少?解 (1) 记每个病人的治愈情况为X ,则有(1,) X B p :设统计假设为 0010:=0.02;:0.02H p p H p p >≤=,其中200,0.05n α==拒绝域为}{00K x p c =-<,临界值10.0163c αμ-==而 000.01,,0.02.x p c H p -=<>拒绝不能认为(2) 不犯第二类错误的概率101 4.5%P X u p p αβ-⎧⎫⎪⎪-=>=⎨⎬⎪⎪⎭⎩由(1,) X B p :,可得 (1),p p EX p DX n-== 由中心极限定理得1 4.5%10.72X P p β⎧⎫⎪-=>=⎬⎪⎭=-Φ=20 在某公路上,50min 之间,观察每15s 内通过的汽车数,得下表通过的汽车数量0 1 2 3 4 ≥5 次数f92 68 28 11 1 0问能否认为通过的汽车辆数服从泊松分布(=0.10α)?解 设统计假设为 0010:()(),()(),200.0.10H F x F x H F x F x n α====4001ˆ,0.805.j j H X j n λν====∑若成立 记 ˆ1,2,3,4ˆ(),!j j j p P x j ej λλ-==-=则有ˆ0.8050102143243500.8050.4471,0.805*0.3599,*0.144920.8050.805*0.0389,*0.0078,10.0014,34j j p e e p p p p p p p p p p λ--=============-=∑检验统计量的值为()2522210.9500 2.1596(1)(4)9.848,~(),0.805.j j n j jnp m r np H X P ανχχχλλ-=-==<--===∑不拒绝认为且21 对某厂生产的汽缸螺栓口径进行100次抽样检验,测得100数据分组列表如下:组限10.93~10.9510.95~10.9710.97~10.9910.99~11.01频数 582034 组限 11.01~11.0311.03~11.0511.05~11.0711.07~11.09 频数1766 4试对螺栓的口径X 的分布做假设检验(=0.05α).解 设X 表示螺栓的口径,2(,)X N μσ:,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中100,0.05,2n r α===在0H 成立的情况下,计算得88221111ˆˆ11.0024,()0.00101888j j j j i i X x v x v μσμ====⋅==-⋅=∑∑ 由ˆ11.0024(0,1)ˆ0.00319X X N μσ--=: 得0810.9311.002411.0911.00242.2689,, 2.74520.003190.00319x x --==-==L所以110887()()0.0386,,()()0.0140p x x p x x =Φ-Φ==Φ-Φ=L检验统计量的值为2822210.951()13.825(1)(5)11.07j j nj jv np m r np αχχχ-=-==>--==∑由此应该20,~(,).H X N μσ拒绝不能认为22 检查产品质量时,每次抽取10个产品检验,共抽取100次,得下表:次品数 0 1 2 3 4 5 6 7 8 9 10 频数35 40 18 5 1 1 0 0 0 0 0问次品数是否服从二项分布(=0.05α)?解 设X 表示抽取的次品数,2(,)X N μσ:,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中10,0.05n α==在0H 成立的情况下,01ˆNjj X pjvN N===∑计算得001011922801011021033710100103101010(1),0,1,,10;ˆˆˆ(1)0.3487,(1)0.3874,(1)0.1937ˆˆ(1)0.0574,(1)10,jj N j j N p C p p j p C p p p C p p p C p p p C p p p C p p--=-==-==-==-==-==-=L L 检验统计量的值为0020()21022210.9505.1295(1)(9)16.92jj n j jnp m r np ανχχχ-=-==<--==∑因此0,~(10,0.1).H X B 不拒绝认为23 请71人比较A 、B 两种型号电视机的画面好坏,认为A 好的有23人,认为B 好的有45人,拿不定主意的有3人,是否可以认为B 的画面比A 的好(=0.10α)?解 设X 表示A 种型号电视机的画面要好些,Y 表示B 中型号电视机画面要好些分布函数分别为()X F x ,()Y F x ,统计假设为 01:()(),:()(),10,100.0.05X Y X Y H F x F x H F x F x N n α=≠===由题意知++=23=45,=+n n n n n --, 检验统计量 ,min()s n n +-=而23(68)25s s α=<=,所以0,.H B 拒绝认为的画面好24 为比较两车间(生产同一种产品)的产品某项指标的波动情况,各依次抽取12个产品进行测量,得下表 甲 1.13 1.26 1.16 1.41 0.86 1.39 1.21 1.22 1.20 0.62 1.18 1.34 乙 1.211.310.991.591.411.481.311.121.601.381.601.84问这两车间所生产的产品的该项指标分布是否相同(=0.05α)?解 设,X Y 分别表示甲乙两车间所生产产品的指标分布,分布函数分别()X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,12,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为112T =且(150,300)T N : 拒绝域为012K u u α-⎧⎫⎪=>⎨⎬⎪⎭⎩而0.9752.194 1.96u u =>=,所以0,.H 拒绝认为指标分布不相同 25 观察两班组的劳动生产率(件/h),得下表:解 设,X Y 分别表示两个组的劳动生产率,分布函数分别为(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,9,9X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为73T = 拒绝域形式为}{01212,<K T t T t t t =<>U 其中而12(9,9)=66,(9,9)105t t =,因此T K ∈, 所以0,.H 接受认为劳动生产率相同26 观观察得两样本值如下:Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41 Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54问这两样本是否来自同一总体(α=0.05)?解 设,X Y 分别表示Ⅰ,Ⅱ两个样本,分布函数分别是(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,6,8,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为49T = 拒绝域形式为}{01212,<K T t T t t t =<>U 其中而12(6,8)=32,(6,8)58t t =,因此0T K ∈, 所以0,.H 接受认为来自同一总体 27 某种动物配偶的后代按体格的属性分为三类,各类的数目是:10,53,46,按照某种遗传模型其比率之比应为:22)1(:)1(2:p p p p --,问数据与模型是否相符(05.0=α)?解 设体格的属性为样本X ,由题意知(2,1)X B p -: 其密度函数为()f x ,其中22(,)(1)0,1,2xxx f x p C pp x -=-=统计假设为 0010:()(),:()()H F x F x H F x F x =≠似然函数为222211(1)(1)i iii nnx x x x n nxnxi i L C pp pp C--===-=-∏∏解得最大似然统计量为 ˆ12xp=- 则 220ˆˆ 1.330.1121pp === 1ˆˆˆ2(1)0.4454p p p =-= 22ˆˆ(1)0.4424p p =-= 拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ0.9134(1)(9) 3.8414ˆj j n j j npm r npανχχχ-=-==<--==∑所以0,.H 不拒绝认为与模型相符28 在某地区的人口调查中发现:15729245个男人中有3497个是聋哑人.16799031个女人中有3072个是聋哑人.试检验“聋哑人与性别无关”的假设(05.0=α).解 设X 表示男人中聋哑人的个数,Y 表示女人中聋哑人的个数,其分布函数分别表示为()X F x ,()Y F x . 统计假设为01:(,)()(),:(,)()()X Y X Y H F x y F x F x H F x y F x F x =≠拒绝域为}{2201(1)K m r αχχ-=>--而21022210.950ˆ()62.64(1)(1) 3.84ˆj j nj j v np m r np αχχχ-=-==>--==∑ 所以0,.H 拒绝认为聋哑与性别相关 29 下表为某药治疗感冒效果的联列表:试问该药疗效是否与年龄有关(α=0.05)?解 设X 表示该药的疗效与年龄有关,Y 表示该药的疗效与年龄无关,其分布函数分别表示为(),X F x ()Y F x . 统计假设为01:(,)()(),:(,)()(),3,3,0.05,X Y X Y H F x y F x F x H F x y F x F x r s α=≠===拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ13.59(1)(4)9.488ˆj j n j j npm r npανχχχ-=-==>--==∑所以0,.H 拒绝认为疗效与年龄相关30 某电子仪器厂与协作的电容器厂商定,当电容器厂提供的产品批的不合格率不超过3%时以高于95%的概率接受,当不合格率超过12%时,将以低于10%的概率接受.试为验收者制订验收抽样方案.解 由题意知,010.03,0.12,0.05,0.1p p αβ====代入式子 01()1()L p L p αβ=-⎧⎨=⎩()L p选用式子()(L P X d P U φ=≤=≤≈计算求得 66,4n d ==,于是抽查方案是:抽查66件产品,如果抽得的不合格产品4X ≤,则接受这批产品,否则拒绝这批产品.31 假设一批产品的质量指标2(,)X N μσ:(2σ已知),要求质量指标值越小越好.试给出检验抽样方案(,n c )的计算公式.若2σ未知,又如何确定检验抽样方案(,n c )?若质量高时指质量指标在一个区间时,又如何确定检验抽样方案(,n c )?解 (1) 解方程组01()1()L L μαμβ=-⎧⎨=⎩ 得 ()201u u n αβσμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+ (2) 若2σ未知,用*2M 估计2σ,从而得出公式()2*201u u M n αβμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+习题四1 下表数据是退火温度x (C 0)对黄铜延性η效应的试验结果,η是以延伸率计算的,且设为正态变量,求η对x 的样本线性回归方程.x (C 0)300 400 500 600 700 800 y (%)40 50 55 60 67 70解 利用回归系数的最小二估计:101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑ 代入样本数据得到:1ˆˆ0.0589,24.6286ββ== 样本线性回归方程为:ˆ24.62860.0589yx =+ 2 证明线性回归函数中(1)回归系数1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ-±-; (2)回归系数0β的置信水平为α-1的置信区间为2ˆ(2)n αβ-±-.证 (1) 由于211ˆ,xx N l σββ⎛⎫ ⎪⎝⎭:()0,1N : 222(2)ES n χσ-:又因为:,()222ˆ2(2)n n σχσ--:故所以()2t n -: 易知 {}11ˆ1p c ββα-<=-,1P α<=-⎪⎭⎩其中()122n α--所以1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ-- (2) 由0ˆβ~2201(,())xxn x N l βσ+,得()0,1N :,()222ˆ2(2)n n σχσ--:,0ˆβ与2ˆσ相互独立,所以:()2T t n ==-:根据11221(2)(2)P T t n P t n ααα--⎫⎪⎛⎫⎪-=<-=<- ⎪⎪⎝⎭⎪⎪⎭()()0001122ˆˆ22P n n ααβββ--⎛⎫ ⎪ ⎪=-<<- ⎪ ⎪ ⎪⎝⎭得到0β的置信度为1α-的置信区间()012ˆ2n αβ-±-.3 某河流溶解氧浓度(以百万分之一计)随着水向下游流动时间加长而下降.现测得8组数据如下表所示.求溶解氧浓度对流动时间的样本线性回归方程,并以α=0.05对回归显著性作检验.流动时间t (天)0.5 1.0 1.6 1.8 2.6 3.2 3.8 4.7 溶解氧浓度(百万分之一)0.280.290.290.180.170.180.100.12解 利用101ˆˆˆtytt l l y t βββ⎧=⎪⎨⎪=-⎩其中2211,n nty i i tt i i i l t y nty l t nt ===-=-∑∑代入样本数据得到: 10ˆˆ0.0472,0.3145ββ=-= 所以,样本线性回归方程为:ˆ0.31450.0472yt =- 拒绝域形式为:{}21ˆc β> ()20.95ˆ1,6,0.0058ttF c c l σ==>而21ˆ0.0022β=,所以回归模型不显著.4 假设X 是一可控制变量,Y 是一随机变量,服从正态分布.现在不同的X 值下分别对Y 进行观测,得如下数据i x0.25 0.37 0.44 0.55 0.60 0.62 0.68 0.70 0.73 i y 2.57 2.31 2.12 1.92 1.75 1.71 1.60 1.51 1.50 i x0.75 0.82 0.84 0.87 0.88 0.90 0.95 1.00 y2σ=DY 的无偏估计;(2)求回归系数210σββ、、的置信度为95%的置信区间; (3)检验Y 和X 之间的线性关系是否显著(=0.05α); (4)求Y 置信度为95%的预测区间;(5)为了把Y 的观测值限制在)68.1,08.1(,需把x 的值限制在什么范围?(=0.05α)解 (1) 利用101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑计算得10ˆˆ2.0698, 3.0332ββ=-=所以,样本线性回归方程为:ˆ 3.0332 2.0698yx =-,22ˆ0.002015ES σ== (2) 根据第二题,1β的置信区间为()112ˆˆ2n αβ-±-,代入值计算得到:()1 2.1825, 1.9571β∈--,0β的置信区间为()02ˆ2n αβσ-±-,代入数值计算得到:()0 2.95069,3.1160β∈.(3) 根据F 检验法,其拒绝域形式为 }{201ˆK c β=> 而 12ˆ(2),xxc tn l ασ-=- 显然10K β∈,所以Y 和X 之间具有显著的线性关系.(4) ()221(0,(1))xxx x y N l nσ-++:,()2ˆ1()1(0,1)xxx x s x N l n -=++:令222ˆ(2)((2)n n t n σχσ---:: 则有1122ˆˆˆ((2),(2))y yt n yt n αα--∈--(5) 根据(4)的结论,令22ˆˆ1.68 1.08yyαα--+=-=,解得 (0.7802,0.8172)x ∈5 证明对一元线性回归系数0ˆβ,1ˆβ相互独立的充分必要条件是0=x . 证 ""⇒()()()()()010011111ˆˆˆˆˆˆcov ,E y x ββββββββββ=--=---2110111101ˆˆˆˆ()E y x y x βββββββββ=---++2211011101ˆy xE y x ββββββββ=---++ ()2211ˆx E ββ=-- 222221111ˆˆˆ()xxE D E l σββββ=+=+若要()01ˆˆcov ,0ββ=,那么0x =.反之显然也成立,命题的证.6 设n 组观测值),...,2,1)(,(n i y x i i =之间有关系式:i i i i x x y εεββ,+-+=)(10~),...,2,1)(,0(2n i N =σ(其中∑==ni i x n x 11),且n εεε,...,,21相互独立.(1) 求系数10,ββ的最小二乘估计量10ˆ,ˆββ; (2) 证明∑∑∑===-+-=-ni in i i i n i i y y y y y y 121212)ˆ()ˆ()(,其中∑==n i i y n y 11 (3) 求10ˆ,ˆββ的分布. 解 (1) 最小化残差平方和:2201[()]Ei i S y x x ββ=---∑01ββ求,的偏导数[][]220101012()02()()0E Ei i i i i S S y x x y x x x x ββββββ∂∂=----==-----=∂∂∑∑, 01ˆˆ,xy xxl y l ββ==得到:(2) 易知()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑ 其中01ˆˆˆ()()xy i ii xxl y x x y x x l ββ=+-=+-,将其代入上式可得1ˆˆ()()0niiii y yy y =--=∑ 所以,∑∑∑===-+-=-ni i n i i i ni iy y yy y y121212)ˆ()ˆ()( (3) 20ˆ~(0,),iN y εσβ=Q ,200ˆ~(,)N nσββ∴同理,易得211ˆ~(,)xxN l σββ∴7 某矿脉中13个相邻样本点处某种金属的含量Y 与样本点对原点的距离X 有如下观测值i xi y 106.42 108.20 109.58 109.50 110.00 109.93 110.49 ix11 14 15 16 18 19 i y 110.59 110.60 110.90 110.76 111.00 111.20分别按(1)x b a y +=;(2)x b a y ln +=;(3)xba y +=. 建立Y 对X 的回归方程,并用相关系数221TES S R -=指出其中哪一种相关最大.解 (1)令v y a bv ==+,根据最小二乘法得到,正规方程:101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,最后得到10ˆˆ1.1947,106.3013ββ==所以:样本线性回归方程为:ˆ106.3013y=+10.8861R = (2) 令ln ,v x y a bv ==+101ˆˆˆvyvv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ1.714,106.3147ββ== 所以:样本线性回归方程为:ˆ106.3147 1.714ln yx =+,20.9367R = (3) 令1,v y a bv x==+ 101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ111.4875,9.833ββ==- 所以:样本线性回归方程为:ˆ111.48759.833yx =-,30.987R = 综上,123R R R <<,所以第三种模型所表示的X Y 与的相关性最大. 8 设线性模型⎪⎩⎪⎨⎧++=+-=+=3213221211122εββεββεβy y y其中i ε~),0(2σN (1,2,3.i =)且相互独立,试求1β、2β的LS 估计.解 令()()1231212310,,,21,(,),,,12T TT Y y y y X βββεεεε⎡⎤⎢⎥==-==⎢⎥⎢⎥⎣⎦则线性模型可转化为 Y X βε=+ 根据 222TTTTES Y X Y Y Y X X X ββββ=-=-+, 令 20ES β∂=∂ 可得 ()1ˆTT X X X Y β-=即 112322311ˆˆ(23),(2)66Y Y Y Y Y ββ=++=--+9 养猪场为估算猪的毛重,随机抽测了14头猪的身长1x (cm),肚围2x (cm)与体重y (kg),得数据如下表所示,试求一个22110x b x b b y ++=型的经验公式.由多元线性模型得:()2140,Y X I βεεσ=+⎧⎪⎨=⎪⎩()()()0121212,,,,,,T T Tn n Y y y y ββββεεεε===L L()114149145581516215271159621627416971ˆ172741787918084190851929419891110395T T X X X X Y β-⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦代入数值得到:12ˆ15.93840.52230.4738yx x =-++ 同样得到:12ˆ15.93840.52230.4738yx x =-++ 10 某种商品的需求量y ,消费者的平均收入1x 和商品价格2x 的统计数据如下表所示.试求y 对1x 、2x 的线性回归方程. 1i x1000 600 1200 500 300 400 1300 1100 1300 300 2i x 5 7 6 6 8 7 5 4 3 9 y解 建立回归模型201122=+++(0,)Y x x N βββεεσ:其中根据2()=0E S ββ∂∂,可求得β的LS 估计为 -1ˆ=(X X)T T X Y β代入x ,得0=111.6918,β 1=0.0143,β 2=7.1882,β-则回归方程为:12ˆ111.69180.01437.1882yx x =+- 11 设n 组观测值),...,2,1)(,(n i y x i i =之间有如下关系:i i i i i x x y εεβββ,+++=2210~),...,2,1)(,0(2n i N =σ,且n εεε,...,,21相互独立.(1)求系数210,,βββ的最小二乘估计量21ˆ,ˆ,ˆβββ; (2)设n i x x y i i i ,...,2,1,ˆˆˆˆ2210=++=βββ,∑==n i i y n y 11,证明:∑∑∑===-+-=-ni i ni i i ni i y y y y y y 121212)ˆ()ˆ()(解 (1) ()()()0121212,,,,,,TTTn n Y y y y ββββεεεε===L L1222211111Tn n X x x x x x x ⎛⎫ ⎪= ⎪ ⎪⎝⎭L L L()1ˆT T X X X Y β-=(2)()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑()()11ˆˆˆˆ()0nT T i i i i x x x x y yy y β-==--=∑其中:y=x ,将其代入,得到 ()22211ˆˆ()()nni i i i i i y y y yy y ==∴-=-+-∑∑ 12(1)求形如2210x b x b b y ++=的回归方程;(2)对上述回归方程的显著性作检验; (3)求当x =5.5时Y 的估计值.解 (1) 令212,xx x x ==,求得回归方程为:2ˆ 3.4167 2.72620.3905yx x =+-(2) 拒绝域形式为:{}21ˆc β> ()20.9521ˆ1,6ˆxxF c l σβ=>而,所以回归方程具有显著性 (3) 将 5.5x =代入回归方程,得到ˆ 6.5982y= 13 设y 和变量12,x x 有形为ε++=2211x b x b y ,2(0,)N εσ:的回归方程模型,试用最小二乘法求出12b b 和的估计.解 令 ()()()121212,,,,,TTTn Y y y y βββεεε===L1112121222Tn n xx x X x x x ⎛⎫= ⎪⎝⎭L L残差平方和为 222T T T T E S Y X Y Y Y X X X ββββ=-=-+令 20E S β∂=∂,得到 112ˆ(,)()T T T X X X Y βββ-==.。
清华大学 杨虎 应用数理统计课后习题参考答案2
习题三1 正常情况下,某炼铁炉的铁水含碳量2(4.55,0.108)X N .现在测试了5炉铁水,其含碳量分别为 4.28,4.40,4.42,4.35,4.37. 如果方差没有改变,问总体的均值有无显著变化?如果总体均值没有改变,问总体方差是否有显著变化(0.05α=)?解 由题意知 2~(4.55,0.108),5,0.05X N n α==,1/20.975 1.96u u α-==,设立统计原假设 0010:,:H H μμμμ=≠拒绝域为 {}00K x c μ=->,临界值1/2 1.960.108/0.0947c u α-==⋅=,由于 0 4.364 4.550.186x c μ-=-=>,所以拒绝0H ,总体的均值有显著性变化.设立统计原假设 22220010:,:H H σσσσ=≠由于0μμ=,所以当0.05α=时 22220.0250.97511()0.03694,(5)0.83,(5)12.83,n i i S X n μχχ==-===∑ 2210.02520.975(5)/50.166,(5)/5 2.567c c χχ====拒绝域为 {}222200201//K s c s c σσ=><或 由于220/ 3.167 2.567S σ=>,所以拒绝0H ,总体的方差有显著性变化.2 一种电子元件,要求其寿命不得低于1000h .现抽测25件,得其均值为x =950h .已知该种元件寿命2(100,)XN σ,问这批元件是否合格(0.05α=)?解 由题意知 2(100,)X N σ,设立统计原假设0010:,:,100.0.05.H H μμμμσα≥<==拒绝域为 {}00K x c μ=->临界值为 0.050.0532.9c u u =⋅=⋅=-由于 050x c μ-=-<,所以拒绝0H ,元件不合格.3 某食品厂用自动装罐机装罐头食品,每罐标准重量为500g,现从某天生产的罐头中随机抽测9罐,其重量分别为510,505,498,503,492,502,497,506,4α=)?95(g),假定罐头重量服从正态分布. 问 (1)机器工作是否正常(0.052)能否认为这批罐头重量的方差为5.52(0.05α=)?解 (1)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ,μ已知设立统计原假设 0010:500,:H H μμμμ==≠,拒绝域 {}00K x c μ=->当0.05α=时,2500.89,34.5, 5.8737x s s ===临界值 1(1) 4.5149c t n α-=-⋅=,由于00.8889x c μ-=<,所以接受0H ,机器工作正常.(2)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ,σ已知设立统计原假设 222220010: 5.5,:H H σσσσ==≠拒绝域为 {}{}222200102K s c s c σσ=<> 当α=0.05时,可得2220.0250.97512500.89,34.5,(5) 2.7,(5)19.02,0.3, 2.11x s c c χχ======由于22001.0138s K σ=∈,所以接受0H ,可以认为方差为25.5.4 某部门对当前市场的鸡蛋价格情况进行调查,抽查某市20个集市上鸡蛋的平均售价为3.399(元/500克),标准差为0.269(元/500克).已知往年的平均售价一直稳定在 3.25(元/500克)左右, 问该市当前的鸡蛋售价是否明显高于往年?(0.05α=)解 设X 表示市场鸡蛋的价格(单位:元/克),由题意知2(,)X N μσ设立统计原假设 0010: 3.25,:H H μμμμ==>, 拒绝域为 {}00K x c μ=->当α=0.05时,13.399,0.269,20,0.0992x n c ασμ-====⋅=临界值由于0 3.399 3.250.149.x c μ-=-=>所以拒绝0H ,当前的鸡蛋售价明显高于往年.5 已知某厂生产的维尼纶纤度2(,0.048)X N μ,某日抽测8根纤维,其纤度分别为 1.32,1.41,1.55,1.36,1.40,1.50,1.44,1.39,问这天生产的维尼纶纤度的方差2σ是否明显变大了(0.05α=)?解 由题意知 2(,0.048)X N μ,0.05α=设立统计原假设 2222220010:0.048,:0.048H H σσσσ==>=拒绝域为{}2200K s c σ=>, 当0.05α=时, 2220.950.951.4213,0.0055,(7)14.07,(7)7 2.0096x s c χχ=====由于220 2.3988s c σ=>,所以拒绝0H ,认为强度的方差明显变大.6 某种电子元件,要求平均寿命不得低于2000h ,标准差不得超过130h .现从一批该种元件中抽取25只,测得寿命均值1950h ,标准差148h s =.设元件寿命服从正态分布,试在显著水平 α=0.05下, 确定这批元件是否合格.解 设X 表示电子元件的平均寿命(单位:h ),由题意知2(,)XN μσ 设立统计原假设 0010:=2000H <H μμμμ≥,:拒绝域为 {}00K x c μ=-<当0.05α=时,1950,148,(1)50.64x s c t n α===-=-临界值由于 050x c μ-=->,所以接受0H ,即这批电子元件的寿命是合格的.7 设n X X X ,...,,21为来自总体(,4)X N μ的样本,已知对统计假01:1;: 2.5H H μμ== 的拒绝域为0K {}2>=X .1)当9=n 时,求犯两类错的概率α与β;2)证明:当n →∞时,α→0,β→0.解 (1)由题意知 {}010~(,4),:1;: 2.5,2,9.X N H H K X n μμμ===>=犯第一类错误的概率为 ()21 1.51(1.5)0.0668.X P X P αμ⎫=>==>==-Φ=⎪⎭犯第二类错误的概率为 ()2 2.50.75(0.75)1(0.75)0.2266.X P X P βμ⎫=≤==≤=-⎪⎭=Φ-=-Φ= (2)若0:1H μ=成立,则(1,4)X N}{}{00000()=11)n P H H P X c P X c nc αμμσ=≥+=-<+=-Φ否定成立 当n →∞时,0)1nc σΦ→,所以0()n n α→→∞同理 }{0010=<+=+c )/)()=0()n P X c n βμμμσΦ-→Φ-∞→∞8 设需要对某一正态总体,4()N μ的均值进行假设检验H 0:μ= 15,H 1:μ<15取检验水平α=0.05,试写出检验H 0的统计量和拒绝域.若要求当H 1中的μ=13时犯第二类错误的概率不超过β=0.05,估计所需的样本容量n .解 由题意知 (,4)X N μ,σ已知, 设立统计原假设 01:15,:15H H μμ=<则拒绝域为}{015K X c =-<,其中临界值0.05c μ=⋅=-犯第二类错误的概率1513130.05P X P Xβ⎛⎫⎛⎫=->==->≤⎪⎭⎝⎝即1.65)0.95Φ≥, 化简得23.311n≥≈.9 设nXXX,...,,21为来自总体X~2(,)Nμσ的样本,2σ为已知, 对假设:0011:;:H Hμμμμ==其中01μμ≠,试证明:22011212()()nαβσμμμμ--=+⋅-解(1)10>μμ当时,由题意知00110:;:;H Hμμμμμ==>犯第一,二类错误分别为,αβ,则有001(|)P X c c uααμμμ-=>+=⇒=011100(|))XP X c P uαβμμμμμ-=≤+==≤=⇒()()220 11111120010 u u u u n u u ββααβαβσμμμ------=-=⇒+==+-(2)10μμ≤当时由题意知00110:,:H Hμμμμμ==≤,犯第一,二类错误分别为,αβ,则有00(|)P X c c uααμμμ=<+=⇒=()()01100220 1111120010 (|))XP X c P uu u u u n u uαβααβαββμμμμμσμμ-----=≥+==≥+=⇒=⇒+==+-10设171,...,XX为总体2(0,)X N σ样本,对假设:2201:9,: 2.905H Hσσ==的拒绝域为}{24.93K s=<. 求犯第Ⅰ类错误的概率α和犯第Ⅱ类错的概率β.解由题意知2(0,)X N σ,222~().nsnχσ统计假设为2201:9,: 2.905H Hσσ==. 拒绝域为}{24.93K s=<则犯第一,二类错误的概率,αβ分别是()()22222221717417174497.3040.0259999171744 3.319120.48810.750.253.319 3.319s s P s P P s P s P ασβσ⎛⎫⎛⎫⨯⨯=<==<=<== ⎪ ⎪⎝⎭⎝⎭⎛⎫⨯=<==-<==-= ⎪⎝⎭ 11 设总体是密度函数是1,01(;)0,x x f x θθθ-<<=⎧⎨⎩其他统计假设 01:1,:2H H θθ==.现从总体中抽取样本21,X X ,拒绝域2134ΚX X =≤⎧⎫⎨⎬⎩⎭,求:两类错误的概率,αβ 解 由题意知 010213:1;:2,, 2.4H H K X n X θθ⎧⎫===≤=⎨⎬⎩⎭当12121,0,11(;1) 1.~(0,1),(,)0,x x f x X U f x x θ<<⎧===⎨⎩时,其他 此时 212121231431(,)0.250.75ln 0.75.4x x P X f x x dx dx X αθ≤⎛⎫=≤===+ ⎪⎝⎭⎰⎰当1212122,014,0,12(;2).(,)0,0,x x x x x x f x f x x θ<<<<⎧⎧===⎨⎨⎩⎩时,其他其他 此时 21212123143992(,)ln 0.75.4168x x P X f x x dx dx X βθ>⎛⎫=>===+ ⎪⎝⎭⎰⎰ 12 设总体2(,)XN μσ,根据假设检验的基本原理,对统计假设:00110:,:()()H Hμμμμμσ==>已知;0010:,:H H μμμμσ≥<(未知),试分析其拒绝域.解 由题意知 2(,)X N μσ,当00110:,:()H H μμμμμ==>成立时()01X P X c P αμμμ=->==>=-Φ {}1100,u c u K X c ααμ--===-> 所以拒绝域为 }{00K X c μ=->当0010:,:H H μμμμ≥<成立时00()()X P X c P X c P αμμμμ⎛⎛⎫⎫=-<≥≥-<=<=Φ}{00,c K X c ααμμμ===-< 所以拒绝域为}{00K X c μ=-<13 设总体2(,)X N μσ根据假设检验的基本原理,对统计假设:(1)22220010:,:()H H σσσσμ=>已知;(2)22220010:,:()H H σσσσμ≤>未知试分析其拒绝域.解 由题意知 2~(,)X N μσ(1)假设统计假设为 22220010:=,:>H H σσσσ 其中μ已知当0H 成立时,拒绝域形式为 2020=>s K c σ⎧⎫⎪⎨⎬⎪⎭⎩由 222220=(n)ns ns χσσ,可得220=>ns P nc ασ⎧⎫⎪⎨⎬⎪⎭⎩所以 21-=()nc n αχ,由此可得拒绝域形式为2201-201=>()s K n n αχσ⎧⎫⎪⎨⎬⎪⎭⎩(2)假设统计假设为 22220010:<,:>H H σσσσ 其中μ未知当0H 成立时,选择拒绝域为 2020=>s K c σ⎧⎫⎪⎨⎬⎪⎭⎩,由222(-1)(1)n s n χσ-得 ()()()()222201111n s n s P n c Pn c ασσ⎧⎫⎧⎫--⎪⎪⎪⎪=>-≤>-⎨⎬⎨⎬⎪⎪⎪⎪⎩⎭⎩⎭所以21(1)(1)n c n αχ--=-,由此可得拒绝域形式为2201-201=>(1)1s K n n αχσ⎧⎫⎪-⎨⎬-⎪⎭⎩14 从甲、乙两煤矿各取若干样品,得其含灰率(%)为,甲:24.3, 20.8, 23.7, 21.3, 17.4, 乙:18.2, 16.9, 20.2, 16.7 .假定含灰率均服从正态分布且2212=σσ,问甲、乙两煤矿的含灰率有无显著差异 (=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ设统计假设为 012112:=;:H H μμμμ≠ 其中12=5,=4n n当=0.05α时1/2122.3238,(2) 2.3646w s t n n α-==+-= 临界值1-212=(+2) 3.6861w c t n n s α-⋅= 拒绝域为}{0 3.6861K x y c =->=而 03.5,,.x y c H -=<接受认为没有差别15 设甲、乙两种零件彼此可以代替,但乙零件比甲零件制造简单,造价也低.经过试验获得它们的抗拉强度分别为(单位:kg/cm 2):甲:88,87,92,90,91 乙:89,89,90,84,88假定两种零件的抗拉强度都服从正态分布,且21σ =22σ.问甲种零件的抗拉强度是否比乙种的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12=5,=5n n当=0.05α时122.2136,(2) 1.86,w s t n n α==+-=- 临界值1-212=(+2) 2.2136w c t n n s α-⋅= 拒绝域为}{0 2.2136K x y c =->=而 1.6x y c -=<,所以接受0H ,认为甲的抗拉强度比乙的要高.16 甲、乙两车床生产同一种零件.现从这两车床产生的产品中分别抽取8个和9个,测得其外径(单位:mm )为:甲:15.0,14.5,15.2,15.5,14.8,15.1,15.2,14.8乙:15.2,15.0,14.8,15.2,15.0,15.0,14.8,15.1,14.8假定其外径都服从正态分布,问乙车床的加工精度是否比甲车床的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ设统计假设为 2222012112:;:H H σσσσ≥<,其中12=8,=9n n当=0.05α时 220.0955,0.0261x y s s ==,临界值12(1,1)0.2684c F n n α=--= 拒绝域为202x y s K c s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩,而22 3.6588x y s F c s ==>,接受0H ,认为乙的精度高. 17 要比较甲、乙两种轮胎的耐磨性,现从甲、乙两种轮胎中各取8个,各取一个组成一对,再随机选取8架飞机,将8对轮胎磨损量(单位:mg )数据列表如下:试问这两种轮胎的耐磨性有无显著差异?(=0.05α). 假定甲、乙两种轮胎的磨损量分别满足2212(,),Y (,)X N N μσμσ且两个样本相互独立.解 由题意知 2212(,),Y (,)X N N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12===8n n n当=0.05α时,令()221/211,320,102200,319.69,(1) 2.36461n ZZ i Z X Y z s z z s t n n α-==-==-==-=-∑ 拒绝域为}{0K z c =>,临界值 1-2=(1)2138Z c t n s α-⋅=而320z c =<,所以接受0H ,认为两种轮胎耐磨性无显著差异.18 设总体2212(,),Y (,)X N N μσμσ, 由两总体分别抽取样本X :4.4,4.0,2.0,4.8 Y :6.0,1.0,3.2,0.41)能否认为12μμ= (=0.05α)? 2)能否认为2212σσ= (=0.05α)?解 (1) 由题意知 2212(,),Y (,)XN N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12==4=n n n令Z X Y =-,则有22111.15,()9.02331nzi z s z z n ===-=-∑, 当=0.05α时,1-2=(1) 3.1824c t n α-=,1-2=(1)/ 4.78Z c t n s α-⋅= 拒绝域为}{0K z c =>,而 1.15z c =<,所以012,.H μμ=接受认为 (2) 由题意知 2212(,),Y(,)XN N μσμσ设统计假设为 2222220111:=;:H H σσσσ≠,其中12==4=n n n 其中221.5467, 6.4367x y s s ==,拒绝域为2201222>x x y y s s K c c s s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩或临界值 1/21221212(1,1)0.0648,(1,1)15.4392c F n n c F n n αα-=--==--=而22201220.2403,,.X Ys F H s σσ===接受认为19 从过去几年收集的大量记录发现,某种癌症用外科方法治疗只有2%的治愈率.一个主张化学疗法的医生认为他的非外科方法比外科方法更有效.为了用实验数据证 实他的看法,他用他的方法治疗200个癌症病人,其中有6个治好了.这个医生断 言这种样本中的3%治愈率足够证实他的看法.(1)试用假设检验方法检验这个医生的看法;(2)如果该医生实际得到了 4.5%治愈率,问检验将证实化学疗法比外科方法更有效的概率是多少?解 (1) 记每个病人的治愈情况为X ,则有(1,) XB p设统计假设为 0010:=0.02;:0.02H p p H p p >≤=,其中200,0.05n α==拒绝域为}{00K x p c =-<,临界值10.0163c αμ-== 而 000.01,,0.02.x p c H p -=<>拒绝不能认为 (2) 不犯第二类错误的概率101 4.5%P X u p p β-⎧⎫⎪⎪-=>=⎨⎬⎪⎪⎭⎩由(1,) XB p ,可得 (1),p p EX p DX n-==由中心极限定理得1 4.5%10.72X P p β⎧⎫⎪-=>=⎬⎪⎭=-Φ=20 在某公路上,50min 之间,观察每15s 内通过的汽车数,得下表通过的汽车数量0 1 2 3 4 ≥5 次数f92 68 28 11 1 0问能否认为通过的汽车辆数服从泊松分布(=0.10α)?解 设统计假设为 0010:()(),()(),200.0.10H F x F x H F x F x n α====4001ˆ,0.805.j j H X j n λν====∑若成立 记 ˆ1,2,3,4ˆ(),!j j j p P x j ej λλ-==-=则有ˆ0.8050102143243500.8050.4471,0.805*0.3599,*0.144920.8050.805*0.0389,*0.0078,10.0014,34j j p e e p p p p p p p p p p λ--=============-=∑检验统计量的值为()2522210.9500 2.1596(1)(4)9.848,~(),0.805.j j n j jnp m r np H X P ανχχχλλ-=-==<--===∑不拒绝认为且21 对某厂生产的汽缸螺栓口径进行100次抽样检验,测得100数据分组列表如下:组限 10.93~10.95 10.95~10.97 10.97~10.99 10.99~11.01 频数582034 组限11.01~11.0311.03~11.0511.05~11.0711.07~11.09频数 17 6 6 4试对螺栓的口径X 的分布做假设检验(=0.05α).解 设X 表示螺栓的口径,2(,)XN μσ,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中100,0.05,2n r α===在0H 成立的情况下,计算得88221111ˆˆ11.0024,()0.00101888j j j j i i X x v x v μσμ====⋅==-⋅=∑∑ 由ˆ11.0024(0,1)ˆ0.00319X X N μσ--=得0810.9311.002411.0911.00242.2689,, 2.74520.003190.00319x x --==-==所以110887()()0.0386,,()()0.0140p x x p x x =Φ-Φ==Φ-Φ=检验统计量的值为2822210.951()13.825(1)(5)11.07j j nj jv np m r np αχχχ-=-==>--==∑由此应该20,~(,).H X N μσ拒绝不能认为22 检查产品质量时,每次抽取10个产品检验,共抽取100次,得下表:次品数 0 1 2 3 4 5 6 7 8 9 10 频数35 40 18 5 1 1 0 0 0 0 0问次品数是否服从二项分布(=0.05α)? 解 设X 表示抽取的次品数,2(,)XN μσ,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中10,0.05n α==在0H 成立的情况下,01ˆNjj X pjvN N===∑计算得00101192280101102103371010010*******(1),0,1,,10;ˆˆˆ(1)0.3487,(1)0.3874,(1)0.1937ˆˆ(1)0.0574,(1)10,jj N j j N p C p p j p C p p p C p p p C p p p C p pp C p p--=-==-==-==-==-==-= 检验统计量的值为0020()21022210.950 5.1295(1)(9)16.92j j n j jnp m r np ανχχχ-=-==<--==∑因此0,~(10,0.1).H X B 不拒绝认为23 请71人比较A 、B 两种型号电视机的画面好坏,认为A 好的有23人,认为B 好的有45人,拿不定主意的有3人,是否可以认为B 的画面比A 的好(=0.10α)?解 设X 表示A 种型号电视机的画面要好些,Y 表示B 中型号电视机画面要好些分布函数分别为()X F x ,()Y F x ,统计假设为01:()(),:()(),10,100.0.05X Y X Y H F x F x H F x F x N n α=≠===由题意知++=23=45,=+n n n n n --, 检验统计量 ,min()s n n +-=而23(68)25s s α=<=,所以0,.H B 拒绝认为的画面好24 为比较两车间(生产同一种产品)的产品某项指标的波动情况,各依次抽取12个产品进行测量,得下表 甲 1.13 1.26 1.16 1.41 0.86 1.39 1.21 1.22 1.20 0.62 1.18 1.34 乙 1.211.310.991.591.411.481.311.121.601.381.601.84问这两车间所生产的产品的该项指标分布是否相同(=0.05α)?解 设,X Y 分别表示甲乙两车间所生产产品的指标分布,分布函数分别()X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,12,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为112T =且(150,300)T N拒绝域为012K u u α-⎧⎫⎪=>⎨⎬⎪⎭⎩而0.9752.194 1.96u u =>=,所以0,.H 拒绝认为指标分布不相同 25 观察两班组的劳动生产率(件/h),得下表:问两班组的劳动生产率是否相同(α=0.05)?解 设,X Y 分别表示两个组的劳动生产率,分布函数分别为(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,9,9X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为73T = 拒绝域形式为}{01212,<K T t T t t t =<>其中而12(9,9)=66,(9,9)105t t =,因此T K ∈, 所以0,.H 接受认为劳动生产率相同26 观观察得两样本值如下:Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41 Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54问这两样本是否来自同一总体(α=0.05)?解 设,X Y 分别表示Ⅰ,Ⅱ两个样本,分布函数分别是(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,6,8,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为49T = 拒绝域形式为}{01212,<K T t T t t t =<>其中而12(6,8)=32,(6,8)58t t =,因此0T K ∈, 所以0,.H 接受认为来自同一总体 27 某种动物配偶的后代按体格的属性分为三类,各类的数目是:10,53,46,按照某种遗传模型其比率之比应为:22)1(:)1(2:p p p p --,问数据与模型是否相符(05.0=α)?解 设体格的属性为样本X ,由题意知(2,1)X B p -其密度函数为()f x ,其中22(,)(1)0,1,2xxx f x p C p p x -=-=统计假设为0010:()(),:()()H F x F x H F x F x =≠似然函数为222211(1)(1)i iii nnx x x x n nxnxi i L C pp pp C --===-=-∏∏ 解得最大似然统计量为 ˆ12xp=- 则220ˆˆ 1.330.1121p p ===1ˆˆˆ2(1)0.4454pp p =-= 22ˆˆ(1)0.4424pp =-= 拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ0.9134(1)(9) 3.8414ˆjj n j j np m r npανχχχ-=-==<--==∑所以0,.H 不拒绝认为与模型相符28 在某地区的人口调查中发现:15729245个男人中有3497个是聋哑人.16799031个女人中有3072个是聋哑人.试检验“聋哑人与性别无关”的假设(05.0=α).解 设X 表示男人中聋哑人的个数,Y 表示女人中聋哑人的个数,其分布函数分别表示为()X F x ,()Y F x . 统计假设为01:(,)()(),:(,)()()X Y X Y H F x y F x F x H F x y F x F x =≠拒绝域为}{2201(1)K m r αχχ-=>--而21022210.950ˆ()62.64(1)(1) 3.84ˆj j nj jv np m r np αχχχ-=-==>--==∑ 所以0,.H 拒绝认为聋哑与性别相关 29 下表为某药治疗感冒效果的联列表:试问该药疗效是否与年龄有关(α=0.05)?解 设X 表示该药的疗效与年龄有关,Y 表示该药的疗效与年龄无关,其分布函数分别表示为(),X F x ()Y F x . 统计假设为01:(,)()(),:(,)()(),3,3,0.05,X Y X Y H F x y F x F x H F x y F x F x r s α=≠===拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ13.59(1)(4)9.488ˆj j n j j np m r npανχχχ-=-==>--==∑所以0,.H 拒绝认为疗效与年龄相关30 某电子仪器厂与协作的电容器厂商定,当电容器厂提供的产品批的不合格率不超过3%时以高于95%的概率接受,当不合格率超过12%时,将以低于10%的概率接受.试为验收者制订验收抽样方案.解 由题意知,010.03,0.12,0.05,0.1p p αβ====代入式子 01()1()L p L p αβ=-⎧⎨=⎩()L p 选用式子()()()(1)(1)L P X d P U np p np p φ=≤=≤≈--计算求得 66,4n d ==,于是抽查方案是:抽查66件产品,如果抽得的不合格产品4X ≤,则接受这批产品,否则拒绝这批产品.31 假设一批产品的质量指标2(,)XN μσ(2σ已知),要求质量指标值越小越好.试给出检验抽样方案(,n c )的计算公式.若2σ未知,又如何确定检验抽样方案(,n c )?若质量高时指质量指标在一个区间时,又如何确定检验抽样方案(,n c )?解 (1) 解方程组01()1()L L μαμβ=-⎧⎨=⎩ 得 ()201u u n αβσμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+ (2) 若2σ未知,用*2M 估计2σ,从而得出公式()2*201u u M n αβμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+习题四1 下表数据是退火温度x (C 0)对黄铜延性η效应的试验结果,η是以延伸率计算的,且设为正态变量,求η对x 的样本线性回归方程.x (C 0)300 400 500 600 700 800 y (%)40 50 55 60 67 70 解 利用回归系数的最小二估计:101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑ 代入样本数据得到:10ˆˆ0.0589,24.6286ββ== 样本线性回归方程为:ˆ24.62860.0589yx =+ 2 证明线性回归函数中(1)回归系数1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ--; (2)回归系数0β的置信水平为α-1的置信区间为2ˆ(2)n αβ-±-.证 (1) 由于211ˆ,xx N l σββ⎛⎫ ⎪⎝⎭()0,1N222(2)ES n χσ-又因为:,()222ˆ2(2)n nσχσ--故所以()2t n -易知 {}11ˆ1pc ββα-<=-,1P α<=-⎪⎭⎩其中()122n α--所以1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ-- (2) 由0ˆβ~2201(,())xxn x N l βσ+,得 ()0,1N ,()222ˆ2(2)n n σχσ--,0ˆβ与2ˆσ相互独立,所以:()2T t n ==-根据11221(2)(2)P T t n P t n ααα--⎫⎪⎛⎫⎪-=<-=<- ⎪⎪⎝⎭⎪⎪⎭()()0001122ˆˆ22P n n ααβββ--⎛⎫ ⎪ ⎪=--<<+- ⎪ ⎪ ⎪⎝⎭得到0β的置信度为1α-的置信区间()012ˆ2n αβ--.3 某河流溶解氧浓度(以百万分之一计)随着水向下游流动时间加长而下降.现测得8组数据如下表所示.求溶解氧浓度对流动时间的样本线性回归方程,并以α=0.05对回归显著性作检验.流动时间t (天) 0.5 1.0 1.6 1.8 2.6 3.2 3.8 4.7 溶解氧浓度(百万分之一)0.28 0.29 0.29 0.18 0.17 0.18 0.10 0.12解 利用101ˆˆˆtyttl l y t βββ⎧=⎪⎨⎪=-⎩其中2211,n n ty i i tt i i i l t y nty l t nt ===-=-∑∑ 代入样本数据得到: 10ˆˆ0.0472,0.3145ββ=-= 所以,样本线性回归方程为:ˆ0.31450.0472yt =- 拒绝域形式为:{}21ˆc β> ()20.95ˆ1,6,0.0058ttF c c l σ==>而21ˆ0.0022β=,所以回归模型不显著.4 假设X 是一可控制变量,Y 是一随机变量,服从正态分布.现在不同的X 值下分别对Y 进行观测,得如下数据i x0.25 0.37 0.44 0.55 0.60 0.62 0.68 0.70 0.73 i y2.57 2.31 2.12 1.92 1.75 1.71 1.60 1.51 1.50 i x 0.75 0.82 0.84 0.87 0.88 0.90 0.95 1.00 i y1.41 1.33 1.31 1.25 1.20 1.19 1.15 1.00(1)假设X 与Y 有线性相关关系,求Y 对X 样本回归直线方程,并求2σ=DY 的无偏估计;(2)求回归系数210σββ、、的置信度为95%的置信区间; (3)检验Y 和X 之间的线性关系是否显著(=0.05α); (4)求Y 置信度为95%的预测区间;(5)为了把Y 的观测值限制在)68.1,08.1(,需把x 的值限制在什么范围?(=0.05α)解 (1) 利用101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑计算得10ˆˆ2.0698, 3.0332ββ=-= 所以,样本线性回归方程为:ˆ 3.0332 2.0698yx =-,22ˆ0.002015ES σ== (2) 根据第二题,1β的置信区间为()112ˆˆ2n αβ--,代入值计算得到: ()1 2.1825, 1.9571β∈--,0β的置信区间为()02ˆ2n αβσ-±-,代入数值计算得到:()0 2.95069,3.1160β∈.(3) 根据F 检验法,其拒绝域形式为 }{201ˆK c β=> 而 12ˆ(2),xxc tn l ασ-=- 显然10K β∈,所以Y 和X 之间具有显著的线性关系.(4)()221(0,(1))xxx x yN l nσ-++,()2ˆ1()1(0,1)xxx x s x N l n -=++令222ˆ(2)(2),(2)ˆ()n nt n s x σχσσ---则有 1122ˆˆˆ((2),(2))y yt nyt n αα--∈--(5) 根据(4)的结论,令 22ˆˆ1.68 1.08yyαα--+=-=,解得 (0.7802,0.8172)x ∈5 证明对一元线性回归系数0ˆβ,1ˆβ相互独立的充分必要条件是0=x . 证 ""⇒()()()()()010011111ˆˆˆˆˆˆcov ,E y x ββββββββββ=--=---2110111101ˆˆˆˆ()E y x y x βββββββββ=---++2211011101ˆy xE y x ββββββββ=---++ ()2211ˆx E ββ=-- 222221111ˆˆˆ()xxE D E l σββββ=+=+若要()01ˆˆcov ,0ββ=,那么0x =.反之显然也成立,命题的证.6 设n 组观测值),...,2,1)(,(n i y x i i =之间有关系式:i i i i x x y εεββ,+-+=)(10~),...,2,1)(,0(2n i N =σ(其中∑==ni i x n x 11),且n εεε,...,,21相互独立.(1) 求系数10,ββ的最小二乘估计量10ˆ,ˆββ; (2) 证明∑∑∑===-+-=-ni in i i i n i i y y y y y y 121212)ˆ()ˆ()(,其中∑==n i i y n y 11 (3) 求10ˆ,ˆββ的分布. 解 (1) 最小化残差平方和:2201[()]Ei i S y x x ββ=---∑01ββ求,的偏导数[][]220101012()02()()0E Ei i i i i S S y x x y x x x x ββββββ∂∂=----==-----=∂∂∑∑, 01ˆˆ,xy xxl y l ββ==得到:(2) 易知()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑ 其中01ˆˆˆ()()xy i ii xxl y x x y x x l ββ=+-=+-,将其代入上式可得1ˆˆ()()0niiii y yy y =--=∑ 所以,∑∑∑===-+-=-ni i n i i i ni iy y yy y y121212)ˆ()ˆ()( (3)20ˆ~(0,),i N y εσβ=,200ˆ~(,)N nσββ∴同理,易得211ˆ~(,)xxN l σββ∴7 某矿脉中13个相邻样本点处某种金属的含量Y 与样本点对原点的距离X 有如下观测值 ix 2 3 4 5 7 8 10 i y 106.42 108.20 109.58 109.50 110.00 109.93 110.49 ix 11 14 15 16 18 19 i y 110.59 110.60 110.90 110.76 111.00 111.20分别按(1)x b a y +=;(2)x b a y ln +=;(3)xba y +=. 建立Y 对X 的回归方程,并用相关系数221TES S R -=指出其中哪一种相关最大.解 (1)令v y a bv ==+,根据最小二乘法得到,正规方程:101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,最后得到10ˆˆ1.1947,106.3013ββ==所以:样本线性回归方程为:ˆ106.3013y=+10.8861R = (2) 令ln ,v x y a bv ==+101ˆˆˆvyvv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ1.714,106.3147ββ== 所以:样本线性回归方程为:ˆ106.3147 1.714ln yx =+,20.9367R = (3) 令1,v y a bv x==+ 101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ111.4875,9.833ββ==- 所以:样本线性回归方程为:ˆ111.48759.833yx =-,30.987R = 综上,123R R R <<,所以第三种模型所表示的X Y 与的相关性最大. 8 设线性模型⎪⎩⎪⎨⎧++=+-=+=3213221211122εββεββεβy y y其中i ε~),0(2σN (1,2,3.i =)且相互独立,试求1β、2β的LS 估计.解 令()()1231212310,,,21,(,),,,12T TT Y y y y X βββεεεε⎡⎤⎢⎥==-==⎢⎥⎢⎥⎣⎦则线性模型可转化为 Y X βε=+ 根据 222TTTTES Y X Y Y Y X X X ββββ=-=-+, 令 20ES β∂=∂ 可得 ()1ˆTT X X X Y β-=即 112322311ˆˆ(23),(2)66Y Y Y Y Y ββ=++=--+ 9 养猪场为估算猪的毛重,随机抽测了14头猪的身长1x (cm),肚围2x (cm)与体重y (kg),得数据如下表所示,试求一个22110x b x b b y ++=型的经验公式.解由多元线性模型得:()2140,Y X I βεεσ=+⎧⎪⎨=⎪⎩()()()0121212,,,,,,TTTn n Y y y y ββββεεεε===()114149145581516215271159621627416971ˆ172741787918084190851929419891110395T T X X X X Y β-⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦代入数值得到:12ˆ15.93840.52230.4738yx x =-++ 同样得到:12ˆ15.93840.52230.4738yx x =-++ 10 某种商品的需求量y ,消费者的平均收入1x 和商品价格2x 的统计数据如下表所示.试求y 对1x 、2x 的线性回归方程. 1i x1000 600 1200 500 300 400 1300 1100 1300 300 2i x 5 7 6 6 8 7 5 4 3 9 y解 建立回归模型201122=+++(0,)Y x x N βββεεσ其中根据2()=0E S ββ∂∂,可求得β的LS 估计为 -1ˆ=(X X)T T X Y β代入x ,得0=111.6918,β 1=0.0143,β 2=7.1882,β- 则回归方程为:12ˆ111.69180.01437.1882yx x =+-11 设n 组观测值),...,2,1)(,(n i y x i i =之间有如下关系:i i i i i x x y εεβββ,+++=2210~),...,2,1)(,0(2n i N =σ,且n εεε,...,,21相互独立.(1)求系数210,,βββ的最小二乘估计量21ˆ,ˆ,ˆβββ; (2)设n i x x y i i i ,...,2,1,ˆˆˆˆ2210=++=βββ,∑==n i i y n y 11,证明:∑∑∑===-+-=-ni i ni i i ni i y y y y y y 121212)ˆ()ˆ()(解 (1) ()()()0121212,,,,,,TTTn n Y y y y ββββεεεε===1222211111Tn n X x x x x x x ⎛⎫ ⎪= ⎪ ⎪⎝⎭()1ˆT T X X X Y β-=(2)()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑()()11ˆˆˆˆ()0nT T i i i i x x x x y yy y β-==--=∑其中:y=x ,将其代入,得到 ()22211ˆˆ()()nni i i i i i y y y yy y ==∴-=-+-∑∑ 12(1)求形如210的回归方程;(2)对上述回归方程的显著性作检验; (3)求当x =5.5时Y 的估计值.解 (1) 令212,xx x x ==,求得回归方程为:2ˆ 3.4167 2.72620.3905yx x =+- (2) 拒绝域形式为:{}21ˆc β> ()20.9521ˆ1,6ˆxxF c l σβ=>而,所以回归方程具有显著性 (3)将5.5x =代入回归方程,得到ˆ 6.5982y=13 设y 和变量12,x x 有形为ε++=2211x b x b y ,2(0,)N εσ的回归方程模型,试用最小二乘法求出12b b 和的估计.解 令 ()()()121212,,,,,TT Tn Y y y y βββεεε===1112121222Tn n x x x X x x x ⎛⎫=⎪⎝⎭残差平方和为 222T T T T E S Y X Y Y Y X X X ββββ=-=-+令 20E S β∂=∂,得到 112ˆ(,)()T T T X X X Y βββ-==.友情提示:本资料代表个人观点,如有帮助请下载,谢谢您的浏览!。
应用数理统计课后习题参考答案
习题五1 某钢厂检查一月上旬内的五天中生产的钢锭重量,结果如下:(单位:k g)日期重旦量1 5500 5800 5740 57102 5440 5680 5240 56004 5400 5410 5430 54009 5640 5700 5660 570010 5610 5700 5610 5400试检验不同日期生产的钢锭的平均重量有无显著差异? ( =0.05)解根据问题,因素A表示日期,试验指标为钢锭重量,水平为 5.2假设样本观测值y j(j 123,4)来源于正态总体Y~N(i, ),i 1,2,...,5检验的问题:H。
:i 2 L 5, H i : i不全相等.计算结果:注释当=0.001表示非常显著,标记为*** '类似地,=0.01,0.05,分别标记为查表F0.95(4,15) 3.06,因为F 3.9496 F0.95(4,15),或p = 0.02199<0.05 ,所以拒绝H。
,认为不同日期生产的钢锭的平均重量有显著差异2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验解根据问题,设因素A表示催化剂,试验指标为化工产品的得率,水平为 4 .2假设样本观测值y j(j 1,2,..., nJ来源于正态总体Y~N(i, ), i 1,2,...,5 .其中样本容量不等,n分别取值为6,5,3,4 .日产量操作工查表 F O .95(3,14) 3.34,因为 F 2.4264 F °.95(3,14),或 p = 0.1089 > 0.05, 所以接受H 。
,认为在四种不同催化剂下平均得率无显著差异3试验某种钢的冲击值(kg Xm/cm2 ),影响该指标的因素有两个,一是含铜量 A ,另一个是温度试检验含铜量和试验温度是否会对钢的冲击值产生显著差异? ( =0.05 )解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用设因素A,B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为 12.2假设样本观测值y j (i 1,2,3, j 1,2,3,4)来源于正态总体 Y j ~N (j ,),i 1,2,3,j 1,2,3,4 .记i 为对应于A 的主效应;记 j 为对应于B j 的主效应;检验的问题:(1) H i 。
应用数理统计课后答案
1 n ˆ xi x n i 1 1 n 2 ˆ 2 ( xi x) 2 sn n i 1
则 , 2 的极大似然估计量:
1 n ˆ n X i X i 1 1 n 2 ˆ 2 ( X i X )2 Sn n i 1
1 e x, F (x) 0,
x 0, x 0.
(1) FY ( y) P{Y y} P{aX b y} P{ X
y b yb }(a 0) F ( ) a a
y b y b 当 0,即y b时,FY ( y ) 1 e a . a 当 y b 0,即y b时,F ( y ) 0. Y a
Xi
i 1
2
(t ) e i1
i ( eit 1)
2
根据特征函数的性质(5)得: X 1 X 2 ~ P(1 2 )
第二章 数理统计的基本概念
8.解:设 X 为样本,x 为样本的观测值。由于数据已经按照从小到大的顺序排列,
于是经验分布函数为:
0, 1 , 8 1 , 4 3 , 8 1 Fn ( x ) , 2 5 8 , 3, 4 7 , 8 1,
y
1 e y, FY ( y ) 0,
y 0, y 0.
14.证明:
Cov( , ) Cov(aX b, cY d ) acCov ( X , Y ) D( ) D(aX b) a 2 D( X )同理:D( ) c 2 D(Y )
由极大似然估计的不变性可知
ˆ Sn
清华大学应用数理统计课后习题及答案
清华大学应用数理统计课后习题及答案习题三1 正常情况下,某炼铁炉的铁水含碳量2(4.55,0.108)X N :.现在测试了5炉铁水,其含碳量分别为4.28,4.40,4.42,4.35,4.37. 如果方差没有改变,问总体的均值有无显著变化?如果总体均值没有改变,问总体方差是否有显著变化(0.05α=)?解 由题意知 2~(4.55,0.108),5,0.05X N n α==,1/20.975 1.96u u α-==,设立统计原假设 0010:,:H H μμμμ=≠ 拒绝域为{}00K x c μ=->,临界值1/21.960.108/0.0947c u α-==⋅=,由于 0 4.364 4.550.186x c μ-=-=>,所以拒绝0H ,总体的均值有显著性变化.设立统计原假设 22220010:,:H H σσσσ=≠ 由于0μμ=,所以当0.05α=时22220.0250.97511()0.03694,(5)0.83,(5)12.83,n i i S X n μχχ==-===∑% 2210.02520.975(5)/50.166,(5)/5 2.567c c χχ====拒绝域为 {}222200201//K s c s c σσ=><%%或由于22/ 3.167 2.567S σ=>%,所以拒绝0H ,总体的方差有显著性变化. 2 一种电子元件,要求其寿命不得低于1000h .现抽测25件,得其均值为x =950h .已知该种元件寿命2(100,)X N σ:,问这批元件是否合格(0.05α=)?解 由题意知 2(100,)X N σ:,设立统计原假设0010:,:,100.0.05.H H μμμμσα≥<==拒绝域为 {}00K x c μ=->临界值为 0.050.0532.9c u u =⋅=⋅=-由于 050x c μ-=-<,所以拒绝0H ,元件不合格.3 某食品厂用自动装罐机装罐头食品,每罐标准重量为500g ,现从某天生产的罐头中随机抽测9罐,其重量分别为510,505,498,503,492,502,497,506,495(g ),假定罐头重量服从正态分布. 问 (1)机器工作是否正常(0.05α=)? 2)能否认为这批罐头重量的方差为5.52(0.05α=)?解 (1)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ:,μ已知 设立统计原假设 0010:500,:H H μμμμ==≠,拒绝域 {}00K x c μ=-> 当0.05α=时,2500.89,34.5, 5.8737x s s ===临界值 12(1) 4.5149c t n α-=-⋅=,由于00.8889x c μ-=<,所以接受0H ,机器工作正常.(2)设X 表示罐头的重量(单位:g). 由题意知2(,)X N μσ:,σ已知设立统计原假设 222220010: 5.5,:H H σσσσ==≠拒绝域为 {}{}222200102K s c s c σ=<>%%U 当α=0.05时,可得2220.0250.97512500.89,34.5,(5) 2.7,(5)19.02,0.3, 2.11x s c c χχ======%由于22001.0138sK σ=∈%,所以接受0H ,可以认为方差为25.5. 4 某部门对当前市场的鸡蛋价格情况进行调查,抽查某市20个集市上鸡蛋的平均售价为3.399(元/500克),标准差为0.269(元/500克).已知往年的平均售价一直稳定在 3.25(元/500克)左右, 问该市当前的鸡蛋售价是否明显高于往年?(0.05α=)解 设X 表示市场鸡蛋的价格(单位:元/克),由题意知2(,)X N μσ: 设立统计原假设 0010: 3.25,:H H μμμμ==>, 拒绝域为 {}00K x c μ=->当α=0.05时,13.399,0.269,20,0.0992x n c ασμ-====⋅=临界值由于0 3.399 3.250.149.x c μ-=-=>所以拒绝0H ,当前的鸡蛋售价明显高于往年.5 已知某厂生产的维尼纶纤度2(,0.048)X N μ:,某日抽测8根纤维,其纤度分别为 1.32,1.41,1.55,1.36,1.40,1.50,1.44,1.39,问这天生产的维尼纶纤度的方差2σ是否明显变大了(0.05α=)?解 由题意知 2(,0.048)X N μ:,0.05α=设立统计原假设 2222220010:0.048,:0.048H H σσσσ==>=拒绝域为{}2200K s c σ=>, 当0.05α=时,2220.950.951.4213,0.0055,(7)14.07,(7)7 2.0096x s c χχ=====由于220 2.3988s c σ=>,所以拒绝0H ,认为强度的方差明显变大.6 某种电子元件,要求平均寿命不得低于2000h ,标准差不得超过130h .现从一批该种元件中抽取25只,测得寿命均值1950h ,标准差148h s =.设元件寿命服从正态分布,试在显著水平 α=0.05下, 确定这批元件是否合格.解 设X 表示电子元件的平均寿命(单位:h ),由题意知2(,)X N μσ: 设立统计原假设 0010:=2000H <H μμμμ≥,: 拒绝域为 {}00K x c μ=-<当0.05α=时,1950,148,(1)50.64x s c t n α===-=-临界值由于 050x c μ-=->,所以接受0H ,即这批电子元件的寿命是合格的. 7 设n X X X ,...,,21为来自总体(,4)X N μ:的样本,已知对统计假01:1;: 2.5H H μμ== 的拒绝域为0K {}2>=X .1)当9=n 时,求犯两类错的概率α与β;2)证明:当n →∞时,α→0,β→0.解 (1)由题意知 {}010~(,4),:1;: 2.5,2,9.X N H H K X n μμμ===>= 犯第一类错误的概率为()21 1.51(1.5)0.0668.X P X P αμ⎫=>==>==-Φ=⎪⎭犯第二类错误的概率为()2 2.50.75(0.75)1(0.75)0.2266.X P X P βμ⎫=≤==≤=-⎪⎭=Φ-=-Φ=(2)若0:1H μ=成立,则(1,4)X N :}{}{00000()=11)n P H H P X c P X c nc αμμσ=≥+=-<+=-Φ否定成立 当n →∞时,0)1ncσΦ→,所以0()n n α→→∞同理 }{0010=<+=+c )/)()=0()n P X c n βμμμσΦ-→Φ-∞→∞ 8 设需要对某一正态总体,4()N μ的均值进行假设检验H 0:μ= 15,H 1:μ<15取检验水平α=0.05,试写出检验H 0的统计量和拒绝域.若要求当H 1中的μ=13时犯第二类错误的概率不超过β=0.05,估计所需的样本容量n .解 由题意知 (,4)X N μ:,σ已知, 设立统计原假设 01:15,:15H H μμ=< 则拒绝域为}{015K X c =-<,其中临界值0.05c μ=⋅=-犯第二类错误的概率1513130.05P X P X β⎛⎫⎛⎫=->==->≤ ⎪ ⎭⎝⎝即1.65)0.95Φ≥, 化简得 23.311n ≥≈.9 设n X X X ,...,,21为来自总体X ~20(,)N μσ的样本,20σ为已知, 对假设:0011:;:H H μμμμ==其中01μμ≠,试证明:2211212()()n αβσμμμμ--=+⋅- 解 (1)10>μμ当时,由题意知 00110:;:;H H μμμμμ==>犯第一,二类错误分别为,αβ,则有001(|)P X c c u ααμμμ-=>+=⇒=01110(|))X P X c P u αβμμμμμ-=≤+==≤=⇒()()22011111120010u u u u n u u ββααβαβσμμμ------=-=⇒+=⇒=+- (2)10μμ≤当时由题意知 00110:,:H H μμμμμ==≤,犯第一,二类错误分别为,αβ,则有00(|)P X c c u ααμμμ=<+=⇒=()()01102201111120010(|))X P X c P u u u u u n u u αβααβαββμμμμμσμμ-----=≥+==≥+=⇒=⇒+==+-10 设171,...,X X 为总体2(0,)X N σ:样本,对假设:2201:9,: 2.905H H σσ==的拒绝域为 }{20 4.93K s =<. 求犯第Ⅰ类错误的概率α和犯第Ⅱ类错的概率β. 解 由题意知 2(0,)X N σ:,222~().nsn χσ%统计假设为 2201:9,: 2.905H H σσ==. 拒绝域为 }{20 4.93K s=<% 则犯第一,二类错误的概率,αβ分别是()()22222221717417174497.3040.0259999171744 3.319120.48810.750.253.319 3.319s s P s P P s P s P ασβσ⎛⎫⎛⎫⨯⨯=<==<=<== ⎪ ⎪⎝⎭⎝⎭⎛⎫⨯=<==-<==-= ⎪⎝⎭%%%%%11 设总体是密度函数是1,01(;)0,x x f x θθθ-<<=⎧⎨⎩其他统计假设 01:1,:2H H θθ==.现从总体中抽取样本21,X X ,拒绝域2134ΚX X =≤⎧⎫⎨⎬⎩⎭,求:两类错误的概率,αβ 解 由题意知010213:1;:2,, 2.4H H K X n X θθ⎧⎫===≤=⎨⎬⎩⎭当12121,0,11(;1) 1.~(0,1),(,)0,x x f x X U f x x θ<<⎧===⎨⎩时,其他此时 212121231431(,)0.250.75ln 0.75.4x x P X f x x dx dx X αθ≤⎛⎫=≤===+⎪⎝⎭⎰⎰当1212122,014,0,12(;2).(,)0,0,x x x x x x f x f x x θ<<<<⎧⎧===⎨⎨⎩⎩时,其他其他 此时 21212123143992(,)ln 0.75.4168x x P X f x x dx dx X βθ>⎛⎫=>===+ ⎪⎝⎭⎰⎰12 设总体2(,)X N μσ:,根据假设检验的基本原理,对统计假设:00110:,:()()H H μμμμμσ==>已知;0010:,:H H μμμμσ≥<(未知),试分析其拒绝域.解 由题意知 2(,)X N μσ:,当00110:,:()H H μμμμμ==>成立时()01X P X c P αμμμ=->==>=-Φ{}1100,u c u K X c ααμ--===->所以拒绝域为 }{00K X c μ=-> 当0010:,:H H μμμμ≥<成立时00()()X P X c P X c P αμμμμ⎛⎛⎫⎫=-<≥≥-<=<=Φ}{00,c K X c ααμμμ===-<所以拒绝域为}{00K X c μ=-<13 设总体2(,)X N μσ:根据假设检验的基本原理,对统计假设: (1)22220010:,:()H H σσσσμ=>已知;(2)22220010:,:()H H σσσσμ≤>未知试分析其拒绝域.解 由题意知 2~(,)X N μσ(1)假设统计假设为 22220010:=,:>H H σσσσ 其中μ已知当0H 成立时,拒绝域形式为 2020=>s K c σ⎧⎫⎪⎨⎬⎪⎭⎩由222220=(n)ns ns χσσ:,可得220=>nsP nc ασ⎧⎫⎪⎨⎬⎪⎭⎩所以 21-=()nc n αχ,由此可得拒绝域形式为2201-201=>()sK n nαχσ⎧⎫⎪⎨⎬⎪⎭⎩(2)假设统计假设为 22220010:<,:>H H σσσσ 其中μ未知当0H 成立时,选择拒绝域为 2020=>sK c σ⎧⎫⎪⎨⎬⎪⎭⎩,由222(-1)(1)n s n χσ-: 得 ()()()()222201111n s n s P n c P n c ασσ⎧⎫⎧⎫--⎪⎪⎪⎪=>-≤>-⎨⎬⎨⎬⎪⎪⎪⎪⎩⎭⎩⎭所以21(1)(1)n c n αχ--=-,由此可得拒绝域形式为2201-201=>(1)1s K n n αχσ⎧⎫⎪-⎨⎬-⎪⎭⎩14 从甲、乙两煤矿各取若干样品,得其含灰率(%)为,甲:24.3, 20.8, 23.7, 21.3,17.4, 乙:18.2, 16.9, 20.2, 16.7 .假定含灰率均服从正态分布且2212=σσ,问甲、乙两煤矿的含灰率有无显著差异 (=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠ 其中12=5,=4n n 当=0.05α时1/2122.3238,(2) 2.3646w s t n n α-==+-=临界值1-212=(+2) 3.6861w c t n n s α-⋅= 拒绝域为}{0 3.6861K x y c =->= 而 03.5,,.x y c H -=<接受认为没有差别15 设甲、乙两种零件彼此可以代替,但乙零件比甲零件制造简单,造价也低.经过试验获得它们的抗拉强度分别为(单位:kg/cm 2):甲:88,87,92,90,91 乙:89,89,90,84,88假定两种零件的抗拉强度都服从正态分布,且21σ =22σ.问甲种零件的抗拉强度是否比乙种的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12=5,=5n n 当=0.05α时122.2136,(2) 1.86,w s t n n α==+-=-临界值1-12=(+2) 2.2136w c t n n s α-⋅= 拒绝域为}{0 2.2136K x y c =->=而 1.6x y c -=<,所以接受0H ,认为甲的抗拉强度比乙的要高.16 甲、乙两车床生产同一种零件.现从这两车床产生的产品中分别抽取8个和9个,测得其外径(单位:mm )为:甲:15.0,14.5,15.2,15.5,14.8,15.1,15.2,14.8乙:15.2,15.0,14.8,15.2,15.0,15.0,14.8,15.1,14.8假定其外径都服从正态分布,问乙车床的加工精度是否比甲车床的高(=0.05α)?解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 2222012112:;:H H σσσσ≥<,其中12=8,=9n n当=0.05α时 220.0955,0.0261x y s s ==,临界值 12(1,1)0.2684c F n n α=--=拒绝域为202x y s K c s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩,而22 3.6588x y s F c s ==>,接受0H ,认为乙的精度高.17 要比较甲、乙两种轮胎的耐磨性,现从甲、乙两种轮胎中各取8个,各取一个组成一对,再随机选取8架飞机,将8对轮胎磨损量(单位:mg )数据列表如下:试问这两种轮胎的耐磨性有无显著差异?(=0.05α). 假定甲、乙两种轮胎的磨损量分别满足2212(,),Y (,)X N N μσμσ::且两个样本相互独立.解 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12===8n n n 当=0.05α时,令()221/211,320,102200,319.69,(1) 2.36461n ZZ i Z X Y z s z z s t n n α-==-==-==-=-∑ 拒绝域为}{0K z c =>,临界值1-2=(1)2138Z c t n s α-⋅= 而320z c =<,所以接受0H ,认为两种轮胎耐磨性无显著差异. 18 设总体2212(,),Y (,)X N N μσμσ::, 由两总体分别抽取样本 X :4.4,4.0,2.0,4.8 Y :6.0,1.0,3.2,0.41)能否认为12μμ= (=0.05α)? 2)能否认为2212σσ= (=0.05α)?解 (1) 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 012112:=;:H H μμμμ≠,其中12==4=n n n令Z X Y =-,则有22111.15,()9.02331n z i z s z z n ===-=-∑,当=0.05α时,1-2=(1) 3.1824c t n α-=,1-2=(1)/ 4.78Z c t n s α-⋅= 拒绝域为}{0K z c =>,而 1.15z c =<,所以012,.H μμ=接受认为(2) 由题意知 2212(,),Y (,)X N N μσμσ::设统计假设为 2222220111:=;:H H σσσσ≠,其中12==4=n n n 其中221.5467, 6.4367x y s s ==,拒绝域为2201222>x x yy s s K c c s s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩或临界值 1/21221212(1,1)0.0648,(1,1)15.4392c F n n c F n n αα-=--==--=而22201220.2403,,.X Ys F H s σσ===接受认为19 从过去几年收集的大量记录发现,某种癌症用外科方法治疗只有2%的治愈率.一个主张化学疗法的医生认为他的非外科方法比外科方法更有效.为了用实验数据证 实他的看法,他用他的方法治疗200个癌症病人,其中有6个治好了.这个医生断 言这种样本中的3%治愈率足够证实他的看法.(1)试用假设检验方法检验这个医生的看法;(2)如果该医生实际得到了4.5%治愈率,问检验将证实化学疗法比外科方法更有效的概率是多少?解 (1) 记每个病人的治愈情况为X ,则有(1,) X B p :设统计假设为 0010:=0.02;:0.02H p p H p p >≤=,其中200,0.05n α==拒绝域为}{00K x p c =-<,临界值10.0163c αμ-== 而 000.01,,0.02.x p c H p -=<>拒绝不能认为 (2) 不犯第二类错误的概率101 4.5%P X u p p β-⎧⎫⎪⎪-=>=⎨⎬⎪⎪⎭⎩由(1,) X B p :,可得 (1),p p EX p DX n-== 由中心极限定理得1 4.5%10.72X P p β⎧⎫⎪-=>=⎬⎪⎭=-Φ=20 在某公路上,50min 之间,观察每15s 内通过的汽车数,得下表通过的汽车数量0 1 2 3 4 ≥5 次数f92 68 28 11 1 0问能否认为通过的汽车辆数服从泊松分布(=0.10α)?解 设统计假设为 0010:()(),()(),200.0.10H F x F x H F x F x n α====4001ˆ,0.805.j j H X j n λν====∑若成立 记 ˆ1,2,3,4ˆ(),!j j j p P x j ej λλ-==-=则有ˆ0.8050102143243500.8050.4471,0.805*0.3599,*0.144920.8050.805*0.0389,*0.0078,10.0014,34j j p e e p p p p p p p p p p λ--=============-=∑检验统计量的值为()2522210.9500 2.1596(1)(4)9.848,~(),0.805.jj n j jnp m r np H X P ανχχχλλ-=-==<--===∑不拒绝认为且21 对某厂生产的汽缸螺栓口径进行100次抽样检验,测得100数据分组列表如下:组限 10.93~10.95 10.95~10.97 10.97~10.99 10.99~11.01 频数582034 组限 11.01~11.0311.03~11.0511.05~11.0711.07~11.09 频数17664试对螺栓的口径X 的分布做假设检验(=0.05α).解 设X 表示螺栓的口径,2(,)X N μσ:,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中100,0.05,2n r α===在0H 成立的情况下,计算得88221111ˆˆ11.0024,()0.00101888j j j j i i X x v x v μσμ====⋅==-⋅=∑∑ 由ˆ11.0024(0,1)ˆ0.00319X X N μσ--=: 得0810.9311.002411.0911.00242.2689,, 2.74520.003190.00319x x --==-==L所以110887()()0.0386,,()()0.0140p x x p x x =Φ-Φ==Φ-Φ=L检验统计量的值为2822210.951()13.825(1)(5)11.07j j nj jv np m r np αχχχ-=-==>--==∑由此应该20,~(,).H X N μσ拒绝不能认为22 检查产品质量时,每次抽取10个产品检验,共抽取100次,得下表:次品数 0 1 2 3 4 5 6 7 8 9 10 频数35 40 18 5 1 1 0 0 0 0 0问次品数是否服从二项分布(=0.05α)?解 设X 表示抽取的次品数,2(,)X N μσ:,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中10,0.05n α==在0H 成立的情况下,01ˆNjj X pjvN N===∑计算得001011922801011021033710100103101010(1),0,1,,10;ˆˆˆ(1)0.3487,(1)0.3874,(1)0.1937ˆˆ(1)0.0574,(1)10,jj N j j N p C p p j p C p p p C p p p C p p p C p p p C p p--=-==-==-==-==-==-=L L 检验统计量的值为0020()21022210.950 5.1295(1)(9)16.92j j n j jnp m r np ανχχχ-=-==<--==∑因此0,~(10,0.1).H X B 不拒绝认为23 请71人比较A 、B 两种型号电视机的画面好坏,认为A 好的有23人,认为B 好的有45人,拿不定主意的有3人,是否可以认为B 的画面比A 的好(=0.10α)?解 设X 表示A 种型号电视机的画面要好些,Y 表示B 中型号电视机画面要好些分布函数分别为()X F x ,()Y F x ,统计假设为01:()(),:()(),10,100.0.05X Y X Y H F x F x H F x F x N n α=≠===由题意知++=23=45,=+n n n n n --, 检验统计量 ,min()s n n +-=而23(68)25s s α=<=,所以0,.H B 拒绝认为的画面好24 为比较两车间(生产同一种产品)的产品某项指标的波动情况,各依次抽取12个产品进行测量,得下表 甲 1.13 1.26 1.16 1.41 0.86 1.39 1.21 1.22 1.20 0.62 1.18 1.34 乙 1.211.310.991.591.411.481.311.121.601.381.601.84问这两车间所生产的产品的该项指标分布是否相同(=0.05α)?解 设,X Y 分别表示甲乙两车间所生产产品的指标分布,分布函数分别()X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,12,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为112T =且(150,300)T N :拒绝域为012K u u α-⎧⎫⎪=>⎨⎬⎪⎭⎩而0.9752.194 1.96u u =>=,所以0,.H 拒绝认为指标分布不相同 25 观察两班组的劳动生产率(件/h),得下表:问两班组的劳动生产率是否相同(α=0.05)?解 设,X Y 分别表示两个组的劳动生产率,分布函数分别为(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,9,9X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为73T = 拒绝域形式为}{01212,<K T t T t t t =<>U 其中而12(9,9)=66,(9,9)105t t =,因此T K ∈, 所以0,.H 接受认为劳动生产率相同26 观观察得两样本值如下:Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41 Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54 问这两样本是否来自同一总体(α=0.05)?解 设,X Y 分别表示Ⅰ,Ⅱ两个样本,分布函数分别是(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,6,8,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为49T = 拒绝域形式为}{01212,<K T t T t t t =<>U 其中而12(6,8)=32,(6,8)58t t =,因此0T K ∈, 所以0,.H 接受认为来自同一总体 27 某种动物配偶的后代按体格的属性分为三类,各类的数目是:10,53,46,按照某种遗传模型其比率之比应为:22)1(:)1(2:p p p p --,问数据与模型是否相符(05.0=α)?解 设体格的属性为样本X ,由题意知(2,1)X B p -: 其密度函数为()f x ,其中22(,)(1)0,1,2xxx f x p C p p x -=-=统计假设为0010:()(),:()()H F x F x H F x F x =≠似然函数为222211(1)(1)i iii nnx x x x n nxnxi i L C pp pp C --===-=-∏∏ 解得最大似然统计量为 ˆ12xp=- 则 220ˆˆ 1.330.1121pp === 1ˆˆˆ2(1)0.4454p p p =-= 22ˆˆ(1)0.4424p p =-= 拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ0.9134(1)(9) 3.8414ˆj j n j j npm r npανχχχ-=-==<--==∑所以0,.H 不拒绝认为与模型相符28 在某地区的人口调查中发现:15729245个男人中有3497个是聋哑人.16799031个女人中有3072个是聋哑人.试检验“聋哑人与性别无关”的假设(05.0=α).解 设X 表示男人中聋哑人的个数,Y 表示女人中聋哑人的个数,其分布函数分别表示为()X F x ,()Y F x . 统计假设为01:(,)()(),:(,)()()X Y X Y H F x y F x F x H F x y F x F x =≠拒绝域为}{2201(1)K m r αχχ-=>--而21022210.950ˆ()62.64(1)(1) 3.84ˆj j nj j v np m r np αχχχ-=-==>--==∑ 所以0,.H 拒绝认为聋哑与性别相关 29 下表为某药治疗感冒效果的联列表:试问该药疗效是否与年龄有关(α=0.05)?解 设X 表示该药的疗效与年龄有关,Y 表示该药的疗效与年龄无关,其分布函数分别表示为(),X F x ()Y F x . 统计假设为01:(,)()(),:(,)()(),3,3,0.05,X Y X Y H F x y F x F x H F x y F x F x r s α=≠===拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ13.59(1)(4)9.488ˆj j n j j npm r npανχχχ-=-==>--==∑所以0,.H 拒绝认为疗效与年龄相关30 某电子仪器厂与协作的电容器厂商定,当电容器厂提供的产品批的不合格率不超过3%时以高于95%的概率接受,当不合格率超过12%时,将以低于10%的概率接受.试为验收者制订验收抽样方案.解 由题意知,010.03,0.12,0.05,0.1p p αβ====代入式子 01()1()L p L p αβ=-⎧⎨=⎩()L p选用式子()(L P X d P U φ=≤=≤≈计算求得 66,4n d ==,于是抽查方案是:抽查66件产品,如果抽得的不合格产品4X ≤,则接受这批产品,否则拒绝这批产品.31 假设一批产品的质量指标2(,)X N μσ:(2σ已知),要求质量指标值越小越好.试给出检验抽样方案(,n c )的计算公式.若2σ未知,又如何确定检验抽样方案(,n c )?若质量高时指质量指标在一个区间时,又如何确定检验抽样方案(,n c )?解 (1) 解方程组01()1()L L μαμβ=-⎧⎨=⎩得 ()201u u n αβσμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+ (2) 若2σ未知,用*2M 估计2σ,从而得出公式()2*201u u M n αβμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+习题四1 下表数据是退火温度x (C 0)对黄铜延性η效应的试验结果,η是以延伸率计算的,且设为正态变量,求η对x 的样本线性回归方程.x (C 0)300 400 500 600 700 800 y (%)40 50 55 60 67 70解 利用回归系数的最小二估计:101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑ 代入样本数据得到:1ˆˆ0.0589,24.6286ββ== 样本线性回归方程为:ˆ24.62860.0589yx =+ 2 证明线性回归函数中(1)回归系数1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ-±-; (2)回归系数0β的置信水平为α-1的置信区间为2ˆ(2)n αβ-±-.证 (1) 由于211ˆ,xx N l σββ⎛⎫ ⎪⎝⎭:()0,1N : 222(2)ES n χσ-:又因为:,()222ˆ2(2)n n σχσ--:故所以()2t n -:易知 {}11ˆ1p c ββα-<=-,1P α<=-⎪⎭⎩其中()122n α--所以1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ-- (2) 由0ˆβ~2201(,())xxnx N l βσ+,得()0,1N :,()222ˆ2(2)n n σχσ--:,0ˆβ与2ˆσ相互独立, 所以:()2T t n ==-:根据11221(2)(2)P T t n P t n ααα--⎫⎪⎛⎫⎪-=<-=<- ⎪⎪⎝⎭⎪⎪⎭()()0001122ˆˆ22P n n ααβββ--⎛⎫ ⎪ ⎪=-<<- ⎪ ⎪ ⎪⎝⎭得到0β的置信度为1α-的置信区间()012ˆ2n αβ-±-.3 某河流溶解氧浓度(以百万分之一计)随着水向下游流动时间加长而下降.现测得8组数据如下表所示.求溶解氧浓度对流动时间的样本线性回归方程,并以α=0.05对回归显著性作检验.流动时间t (天) 0.5 1.0 1.6 1.8 2.6 3.2 3.8 4.7 溶解氧浓度(百万分之一)0.28 0.29 0.29 0.18 0.17 0.18 0.10 0.12解 利用101ˆˆˆtytt l l y tβββ⎧=⎪⎨⎪=-⎩其中2211,n nty i i tt i i i l t y nty l t nt ===-=-∑∑代入样本数据得到: 10ˆˆ0.0472,0.3145ββ=-= 所以,样本线性回归方程为:ˆ0.31450.0472yt =- 拒绝域形式为:{}21ˆc β> ()20.95ˆ1,6,0.0058ttF c c l σ==>而21ˆ0.0022β=,所以回归模型不显著. 4 假设X 是一可控制变量,Y 是一随机变量,服从正态分布.现在不同的X 值下分别对Y 进行观测,得如下数据i x0.25 0.37 0.44 0.55 0.60 0.62 0.68 0.70 0.73 i y2.57 2.31 2.12 1.92 1.75 1.71 1.60 1.51 1.50 i x 0.75 0.82 0.84 0.87 0.88 0.90 0.95 1.00 i y1.41 1.33 1.31 1.25 1.20 1.19 1.15 1.00(1)假设X 与Y 有线性相关关系,求Y 对X 样本回归直线方程,并求2σ=DY 的无偏估计;(2)求回归系数210σββ、、的置信度为95%的置信区间; (3)检验Y 和X 之间的线性关系是否显著(=0.05α); (4)求Y 置信度为95%的预测区间;(5)为了把Y 的观测值限制在)68.1,08.1(,需把x 的值限制在什么范围?(=0.05α)解 (1) 利用101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑计算得10ˆˆ2.0698, 3.0332ββ=-= 所以,样本线性回归方程为:ˆ 3.03322.0698yx =-,22ˆ0.002015ES σ== (2) 根据第二题,1β的置信区间为()112ˆ2n αβ--,代入值计算得到:()1 2.1825, 1.9571β∈--,0β的置信区间为()02ˆ2n αβσ-±-,代入数值计算得到:()0 2.95069,3.1160β∈.(3) 根据F 检验法,其拒绝域形式为 }{201ˆK c β=> 而 12ˆ(2),xxc tn l ασ-=- 显然10K β∈,所以Y 和X 之间具有显著的线性关系.(4)()221(0,(1))xxx x y N l nσ-++:,()2ˆ1()1(0,1)xxx x s x N l n -=++:令222ˆ(2)((2)n n t n σχσ---:: 则有1122ˆˆˆ((2),(2))y yt n yt n αα--∈-+-(5) 根据(4)的结论,令22ˆˆ1.68 1.08yyαα--+=-=,解得 (0.7802,0.8172)x ∈5 证明对一元线性回归系数0ˆβ,1ˆβ相互独立的充分必要条件是0=x . 证 ""⇒()()()()()010011111ˆˆˆˆˆˆcov ,E y x ββββββββββ=--=---2110111101ˆˆˆˆ()E y x y x βββββββββ=---++2211011101ˆy xE y x ββββββββ=---++ ()2211ˆx E ββ=-- 222221111ˆˆˆ()xx E D E l σββββ=+=+ 若要()01ˆˆcov ,0ββ=,那么0x =.反之显然也成立,命题的证.6 设n 组观测值),...,2,1)(,(n i y x i i =之间有关系式:i i i i x x y εεββ,+-+=)(10~),...,2,1)(,0(2n i N =σ(其中∑==ni i x nx 11),且n εεε,...,,21相互独立.(1) 求系数10,ββ的最小二乘估计量10ˆ,ˆββ; (2) 证明∑∑∑===-+-=-ni i n i i i n i i y y y y y y 121212)ˆ()ˆ()(,其中∑==n i i y n y 11(3) 求10ˆ,ˆββ的分布. 解 (1) 最小化残差平方和:2201[()]Ei i S y x x ββ=---∑01ββ求,的偏导数[][]220101012()02()()0E Ei i i i i S S y x x y x x x x ββββββ∂∂=----==-----=∂∂∑∑, 01ˆˆ,xy xxl y l ββ==得到:(2) 易知()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑ 其中01ˆˆˆ()()xy i ii xxl y x x y x x l ββ=+-=+-,将其代入上式可得1ˆˆ()()0niiii y yy y =--=∑ 所以,∑∑∑===-+-=-ni i n i i i ni iy y yy y y121212)ˆ()ˆ()( (3) 20ˆ~(0,),iN y εσβ=Q ,200ˆ~(,)N nσββ∴同理,易得211ˆ~(,)xxN l σββ∴7 某矿脉中13个相邻样本点处某种金属的含量Y 与样本点对原点的距离X 有如下观测值ix 2 3 4 5 7 8 10 i y 106.42 108.20 109.58 109.50 110.00 109.93 110.49ix11 14 15 16 18 19i y110.59 110.60 110.90 110.76 111.00 111.20分别按(1)x b a y +=;(2)x b a y ln +=;(3)xb a y +=. 建立Y 对X 的回归方程,并用相关系数221TES S R -=指出其中哪一种相关最大.解 (1)令v y a bv ==+,根据最小二乘法得到,正规方程:101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,最后得到10ˆˆ1.1947,106.3013ββ==所以:样本线性回归方程为:ˆ106.3013y=+10.8861R = (2) 令ln ,v x y a bv ==+101ˆˆˆvyvv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ1.714,106.3147ββ== 所以:样本线性回归方程为:ˆ106.3147 1.714ln yx =+,20.9367R = (3) 令1,v y a bv x==+ 101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ111.4875,9.833ββ==- 所以:样本线性回归方程为:ˆ111.48759.833yx =-,30.987R = 综上,123R R R <<,所以第三种模型所表示的X Y 与的相关性最大. 8 设线性模型⎪⎩⎪⎨⎧++=+-=+=3213221211122εββεββεβy y y其中i ε~),0(2σN (1,2,3.i =)且相互独立,试求1β、2β的LS 估计.解 令()()1231212310,,,21,(,),,,12T TT Y y y y X βββεεεε⎡⎤⎢⎥==-==⎢⎥⎢⎥⎣⎦则线性模型可转化为 Y X βε=+ 根据 222TTTTES Y X Y Y Y X X X ββββ=-=-+, 令 20ES β∂=∂ 可得 ()1ˆTT X X X Y β-=即 112322311ˆˆ(23),(2)66Y Y Y Y Y ββ=++=--+ 9 养猪场为估算猪的毛重,随机抽测了14头猪的身长1x (cm),肚围2x (cm)与体重y (kg),得数据如下表所示,试求一个22110x b x b b y ++=型的经验公式.解由多元线性模型得:()2140,Y X I βεεσ=+⎧⎪⎨=⎪⎩()()()0121212,,,,,,T T Tn n Y y y y ββββεεεε===L L()114149145581516215271159621627416971ˆ172741787918084190851929419891110395T T X X X X Y β-⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦代入数值得到:12ˆ15.93840.52230.4738yx x =-++ 同样得到:12ˆ15.93840.52230.4738yx x =-++ 10 某种商品的需求量y ,消费者的平均收入1x 和商品价格2x 的统计数据如下表所示.试求y 对1x 、2x 的线性回归方程. 1i x1000 600 1200 500 300 400 1300 1100 1300 300 2i x 5 7 6 6 8 7 5 4 3 9 y100 75 80 70 50 65 90 100 110 60解 建立回归模型201122=+++(0,)Y x x N βββεεσ:其中根据2()=0E S ββ∂∂,可求得β的LS 估计为 -1ˆ=(X X)T T X Y β代入x ,得0=111.6918,β 1=0.0143,β 2=7.1882,β-则回归方程为:12ˆ111.69180.01437.1882yx x =+- 11 设n 组观测值),...,2,1)(,(n i y x i i =之间有如下关系:i i i i i x x y εεβββ,+++=2210~),...,2,1)(,0(2n i N =σ,且n εεε,...,,21相互独立.(1)求系数210,,βββ的最小二乘估计量210ˆ,ˆ,ˆβββ; (2)设n i x x y i i i ,...,2,1,ˆˆˆˆ2210=++=βββ,∑==n i i y n y 11,证明:∑∑∑===-+-=-ni i ni i i ni i y y y y y y 121212)ˆ()ˆ()(解 (1) ()()()0121212,,,,,,T T Tn n Y y y y ββββεεεε===L L1222211111Tn n X x x x x x x ⎛⎫ ⎪= ⎪ ⎪⎝⎭L L L()1ˆT T X X X Y β-=(2)()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑()()11ˆˆˆˆ()0nTTi i i i x x x x y y yy β-==--=∑其中:y=x ,将其代入,得到 ()22211ˆˆ()()nni i i i i i y y y yy y ==∴-=-+-∑∑ 12(1)求形如2210x b x b b y ++=的回归方程;(2)对上述回归方程的显著性作检验; (3)求当x =5.5时Y 的估计值.解 (1) 令212,xx x x ==,求得回归方程为:2ˆ 3.4167 2.72620.3905yx x =+- (2) 拒绝域形式为:{}21ˆc β> ()20.9521ˆ1,6ˆxxF c l σβ=>而,所以回归方程具有显著性 (3) 将 5.5x =代入回归方程,得到ˆ 6.5982y= 13 设y 和变量12,x x 有形为ε++=2211x b x b y ,2(0,)N εσ:的回归方程模型,试用最小二乘法求出12b b 和的估计.解 令 ()()()121212,,,,,TTTn Y y y y βββεεε===L1112121222Tn n x x x X x x x ⎛⎫= ⎪⎝⎭L L残差平方和为 222T T T T E S Y X Y Y Y X X X ββββ=-=-+令 20E S β∂=∂,得到 112ˆ(,)()T T T X X X Y βββ-==.。
应用数理统计,施雨,课后答案,
习题11.1 解:由题意95.01=⎭⎬⎫⎩⎨⎧<--u x p 可得:95.0=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧<-σσn n u x p而()1,0~N u x n σ⎪⎭⎫ ⎝⎛-- 这可通过查N (0,1)分布表,975.0)95.01(2195.0=-+=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧<--σσn n u x p 那么96.1=σn∴2296.1σ=n1.2 解:(1)至800小时,没有一个元件失效,则说明所有元件的寿命>800小时。
{}2.10015.08000015.00800|e 0015.0800--∞+-=∞+-==>⎰e e dx x p x x 那么有6个元件,则所求的概率()2.762.1--==e e p(2)至300小时,所有元件失效,则说明所有元件的寿命<3000小时{}5.4300000015.030000015.001|e 0015.03000----=-==<⎰e e dx x p x 那么有6个元件,则所求的概率()65.41--=e p1。
3解: (1) 123{(,,)|0,1,2,,1,2,3}k x x x x k χ===因为~()i X P λ,所以 112233{,,}P X x X x X x ≤≤≤112233{}{}{}P X x P X x P X x =≤≤≤1233123!!!x x x e x x x ++-λλ=其中,0,1,2,,1,2,3k x k ==(2) 123{(,,)|0;1,2,3}k x x x x k χ=≥=因为~()i X Exp λ,其概率密度为,0()0,0x e x f x x -λ⎧λ≥=⎨ <⎩所以, 123(,,)3123(,,)x x x f x x x e-λ=λ,其中0;1,2,3k x k ≥=(3) 123{(,,)|;1,2,3}k x x x a x b k χ=≤≤=因为~(,)i X U a b ,其概率密度为1,()0,|a x b f x b a x a x b⎧≤≤⎪=-⎨⎪ <>⎩所以,12331(,,)()f x x x b a =-,其中;1,2,3k a x b k ≤≤= (4) 123{(,,)|;1,2,3}k x x x x k χ=-∞<<+∞= 因为~(,1)i X N μ,其概率密度为(2(),()x f x x 2-μ)-=-∞<<+∞所以,311(2123321(,,)(2)k k x f x x x e π2=--μ)∑=,其中;1,2,3k x k -∞<<+∞=1.4解:由题意可得:()⎪⎩⎪⎨⎧∞<<=--,其它00,21)(i 2ln i i 22i x e x x f u x σσπ则∏==ni x f x x f 1i n i )(),...(=⎪⎪⎩⎪⎪⎨⎧=∞<<∏=∑--=,其它0,...1,0,1n )2()(ln 212n 12i 2i x x e i n i i u x ni σπσ1.5证: 令21()()nii F a Xa ==-∑则'1()2()nii F a Xa ==--∑,''()20F a n => 令'1()2()0ni i F a X a ==--=∑,则可解得11ni i a X X n ===∑由于这是唯一解,又因为''()20F a n =>,因此,当11ni i a X X n ===∑时,()F a 取得最小值1.6证: (1)等式左边11((nnii i i XX X X 22==-μ)=-+-μ)∑∑111(2()()(n n n i i i i i X X X X X X 22====-)+-μ-+-μ)∑∑∑21(()ni i X X n X 2==-)+-μ∑左边=右边,所以得证。
清华大学 杨虎 应用数理统计课后习题参考答案3
习题五1试检验不同日期生产的钢锭的平均重量有无显著差异?(α=0.05) 解 根据问题,因素A 表示日期,试验指标为钢锭重量,水平为5.假设样本观测值(1,2,3,4)ij y j =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .检验的问题:01251:,:i H H μμμμ===不全相等 .计算结果:表5.1 单因素方差分析表注释: 当=0.001表示非常显著,标记为 ‘***’,类似地,= 0.01,0.05,分别标记为 ‘**’ ,‘*’ .查表0.95(4,15) 3.06F =,因为0.953.9496(4,15)F F =>,或p = 0.02199<0.05, 所以拒绝0H ,认为不同日期生产的钢锭的平均重量有显著差异.2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验 试检验在四种不同催化剂下平均得率有无显著差异?(α=0.05)解根据问题,设因素A 表示催化剂,试验指标为化工产品的得率,水平为4 .假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .其中样本容量不等,i n 分别取值为6,5,3,4 .检验的问题:012341:,:i H H μμμμμ===不全相等 .计算结果:表5.2 单因素方差分析表查表0.95(3,14) 3.34F =,因为0.952.4264(3,14)F F =<,或p = 0.1089 > 0.05,所以接受0H ,认为在四种不同催化剂下平均得率无显著差异 .3 试验某种钢的冲击值(kg ×m/cm2),影响该指标的因素有两个,一是含铜量A ,另试检验含铜量和试验温度是否会对钢的冲击值产生显著差异?(α=0.05) 解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.设因素,A B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.假设样本观测值(1,2,3,1,2,3,4)ij y ij ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ=1,2,3,4j = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零;(2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; 计算结果:表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =,0.95(3,6) 4.757F =,显然计算值,A B F F 分别大于查表值,或p = 0.0005,0.0009 均显著小于0.05,所以拒绝1020,H H ,认为含铜量和试验温度都会对钢的冲击值产生显著影响作用.设每个工人在每台机器上的日产量都服从正态分布且方差相同 .试检验:(α=0.05)1)操作工之间的差异是否显著? 2)机器之间的差异是否显著?3)它们的交互作用是否显著?解 根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.设因素,A B 分别表示为机器和操作,试验指标为日产量,水平为12. 假设样本观测值(1,2,3,1,2,3,4)ijk y i j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j =,1,2,3k = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;记ij γ为对应于交互作用A B ⨯的主效应; 检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零; (2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; (3)30:ij H γ全部等于零,31:ij H γ不全等于零;计算结果:表5.4 双因素无重复试验的方差分析表查表0.95(3,24) 3.01F =,0.95(2,24) 3.4F =,0.95(6,24) 2.51F =,计算值 3.01,A F <3.4, 2.51B A B F F ⨯>>,或0.05A p >>,而,B A B p p ⨯均显著小于0.05,所以拒绝2030,H H ,接受10H ,认为操作工之间的差异显著,机器之间的差异不显著,它们之间的交互作用显著 . 5 某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示因素 上升温度℃ 保温时间(h)出炉温度℃水平1 800 6 400 水平28208500试填好正交试验结果分析表并对试验结果进行直观分析和方差分析 .解 根据题意,这是一个3因素2水平的试验问题 .试验指标为硬度的合格率 .应选择正交表44(2)L 来安排试验,随机生成正交试验表如下:方差来源 自由度 平方和 均方 F 值 P 值 因素A 因素B 相互效应A ×B误差 总和3 2 6 24 352.750 27.167 73.5 41.333 144.750.917 13.583 12.250 1.7220.5323 7.8871 7.11290.6645 0.00233** 0.00192**由此可见第三号试验条件为:上升温度800℃、保温时间6h 、出炉温度500℃ . 直观分析需要计算K 值,计算结果如下:表5.6 计算表直观分析 由计算的K 值知,因素A 、B 、C 的极差分别为70,40,40,因此主次关系为A B C >=,B ,C 相当 .由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是121,,A B C ,即最佳的水平组合是121A B C ,即最佳搭配为:上升温度800℃、保温时间8h 、出炉温度400℃.采用方差分析法,计算得下表:表5.7 方差分析表方差来源平方和 自由度均方差 F 值 A 1225 1 1225 1 B 400 1 400 0.33 C 400 1 400 0.33 误差 1225 1 1225 总和32504如果显著性检验水平取0.1α=,则查表得0.9(1,1)39.9F =,显然计算的F 值1,0.33A B C F F F ===均小于查表值,所以认为三个因素对结果影响都显著 .6问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:kg/100m 2):62.925,57.075,51.6,55.05,58.05,56.55,63.225,50.7,54.45,试对该正交试验结果进行直观分析和方差分析.解 该问题属于3因素3水平的试验问题,试验指标为水稻产量 .根据题意应选择正交表49(3)L 来安排试验,随机生成正交表如下:由表可知,第8号试验的条件:品种(A 3)珍珠矮11号,插值密度(B 2)3.75棵/100m 2 ,施肥量(C 1)0.75kg/100m 2纯氨; 直观分析需要计算K 值,计算结果如下:表5.9 计算表同上题进行直观分析,得出K 值的大小关系为:111312212223333132,,K K K K K K K K K >>>>>>由直观分析看出:本例较好的水平搭配是:113A B C 采用方差分析法,计算得下表:表5.10 方差分析表方差来源平方和自由度 均方差F 值A 1.759 2 0.879 0.0223B 65.861 2 32.931 0.8361C 6.660 2 3.330 0.0845 误差78.776 239.388 39.3880.9(2,2)9F =,所以认为三个因素对结果影响都不显著.7 在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A ,吡啶量B 和反应时间C 三个因素,它们各取了7个水平如下:原料配比A :1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量B :10,13,16,19,22,25,28 反应时间C :0.5,1.0,1.5,2.0,2.5,3.0,3.5试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:0.33,0.336,0.294,0.476,0.209,0.451,0.482,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.解 根据题意选择均匀设计表47(7)U 来安排试验,有3个因素,根据使用表,实验安排如:表5.11 试验安排表6 6 5 4 0.4517 7 7 7 0.482 所以第7号实验的条件为:原配料比3.4,吡啶量28ml,反应时间3.5h.通过直观分析,最好的实验条件是:原配料比3.4,吡啶量28ml,反应时间3.5h. 通过回归分析,最合适的实验条件是:原配料比2.6,吡啶量16ml,反应时间0.5h.习题六1 从某中学高二女生中随机选取8名,测得其升高、体重如下:1 2 3 4 5 6 78身高(cm)160 159 160 157 169 162 165 154体重(kg)49 46 53 41 49 50 48 43在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图6.1,表6.1和表6.2:最短距离法离差平方和法图6.1 聚类树形图表6.1 聚类附表(最短距离法)步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 6 5.000 0 0 22 1 2 10.000 1 0 43 4 8 13.000 0 0 74 1 7 13.000 2 0 55 1 3 13.000 4 0 66 1 5 17.000 5 0 7表6.2 聚类附表(离差平方和法)2 已知五个变量的距离矩阵为03674012340444401592343331).;2);3)036034022020401000⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.解 针对距离矩阵1),采用两种方法计算如下. ①最短距离法的聚类步骤如下:12345036740159036020w w w w w ⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭a )将()236,1w w f h =合并为一类,,{}11456,,,,H w w w h =距离矩阵如下0743023060⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}()457457),,,2b w w h w w f h ==合并为一类,{}2167,,,H w h h =距离矩阵如下:034030⎛⎫ ⎪⎪ ⎪⎝⎭{}()()1681689),,3,3c w h h w h f h f h ===合并为一类,最后,,聚类图和树状图如图6.2:图6.2 聚类图(左)与树状图(右)②最长距离法与最短距离法类似,步骤如下: a )()236,1w w f h =合并为一类,{}11456,,,,H w w w h =距离矩阵如下0746025090⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ {}(){}4574572167),,,2,,,b w w h w w f h H w h h ===合并为一类,距离矩阵如下:067090⎛⎫⎪⎪ ⎪⎝⎭{}()()1681689),,69c w h h w h f h f h ===合并为一类,最后,,,聚类图和树状图如图6.3:图6.3 聚类图(左)与树状图(右)(2)针对距离矩阵2)012340234034040⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭①最短距离法的聚类步骤如下 a )()216,1w w f h =合并为一类,{}13456,,,,0342043040H w w w h =⎛⎫⎪⎪ ⎪ ⎪⎝⎭距离矩阵如下{}()367367),,,2b w h h w h f h ==合并为一类,{}24567,,,,H w w h h =聚类矩阵如下:043040⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,聚类图和树状图如图6.4:图6.4 聚类图(左)与树状图(右)②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略). (3)044440333022010⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭最短距离法的聚类步骤如下a ) ()456,1w w f h =合并为一类,{}11236,,,,H w w w h =距离矩阵如下0444033020⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}(){}36736724567),,,2,,,,b w h h w h f h H w w h h ===合并为一类,距离矩阵如下:044030⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,,聚类图和树状图如图6.5:图6.5 聚类图(左)与树状图(右)由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).3 在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:总氮量(%)0.63 1.19 2.30 1.29 0.73 0.52 0.33 0.61 0.47 0.66在绝对距离下,试用重心法对其进行聚类分析.解由R软件得到重心法聚类分析的结果如图6.6与表6.3:图6.6 聚类树形图表6.3 聚类过程记录表步骤聚类合并系数首次出现的阶段类别下一步组 1 组 2 组 1 组 21 1 8 .001 0 0 22 1 10 .002 1 0 43 6 9 .005 0 0 64 15 .010 2 0 75 2 4 .010 0 0 86 67 .027 3 0 77 1 6 .048 4 6 88 1 2 .459 7 5 99 1 3 2.572 8 0 0 4 1975年Dagnelie收集了11年的气象数据资料如下表变量年序x1x2x3x4其中:x 1—前一年11月12日的降水量;x 2—7月均温;x 3—7月降雨量;x 4—月日辐射,试对这四个气象因子进行主成分分析. 解 由R 软件分析得到如下表6.4,6.5:表6.4 各主成分的重要性:主成分1 主成分2 主成分3 主成分4 标准差 1.6103349 0.9890848 0.53407741 0.37854199 方差贡献率 0.6482947 0.2445722 0.07130967 0.03582351 累积贡献率0.64829470.89286680.964176491.00000000表6.5 因子荷载:主成分1 主成分2 主成分3 主成分4 X1 0.291 0.871 0.332 -0.214 X2 -0.506 0.425 -0.742 -0.111 X3 0.577 0.136 -0.418 0.688 X4-0.5710.2050.4040.685由于前两个主成分对应的累积贡献率已经达到89.287,因此选取主成分的数目为2.5 对某初中12岁的女生进行体检,测量其身高x 1、体重x 2、胸围x 3和坐高x 4,共测得58个样本,并算得1234(,,,)x x x x x ='的样本协方差为19.9410.5023.566.5919.7120.958.637.97 3.937.55S ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭ 试进行样本主成分分析.解 首先计算样本的相关系数矩阵:10.484410.32240.887210.70330.59760.31251⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭设相关系数矩阵的特征值和特征向量分别为d 和v 阵,计算得到0.0546000 0 0.312600= 000.96470 000 2.6681d ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭即四个特征值依次为:2.6681,0.9647,0.3126,0.0546,前两个主成分的累计贡献率为:90.8471%,因此提取主成分为2.四个特征根相应的特征向量为0.06000.70600.5333 0.4620 0.7317 0.17430.34040.5642=0.60570.19320.60400.48060.30690.65870.48460.4870v -⎛⎫ ⎪-⎪ ⎪--- ⎪-⎝⎭ 因此,两个主成分的表达式为:112340.060.73170.60570.3069z x x x x =+-- 212340.7060.17430.19320.6587z x x x x =-+-+6 比较因子分析和主成分分析模型的异同,阐明两者的关系. 解(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:主成分分析是将n 个原始变量提取m 个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.(3)统用降维的方法,但差异也很明显:主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.(5)两者分析的实质及重点不同.主成分的数学模型为Y AX =,因子分析的数学模型为X AF ε=+.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.(6)SPSS 数据的实现:两者都通过“analyze data reduction Factor···”过程实现,但主成分分析主要使用“descriptires ”,“extraction ”,“stores ”对话框,而因子分析处使用这些外,还可使用“rotaction ”对话框进行因子旋转.7 试对第4题的变量作因子分析,并将结果和上面的结果进行比较. 解 用SPSS 分析,计算结果如下表6.6-6.8:表6.6 反应压缩比情况表 提取方法: 主成分法计算的相关系数矩阵的特征值和方差贡献率:表6.7 方差解释度提取方法: 主成分法表6.8 主成分矩阵8 为研究某一树种的叶片形态,选取50片叶测量其长度x 1(mm )和宽度x 2(mm ),按样本数据求得其平均值和协方差矩阵为:129048134,92,4845x x S ⎛⎫=== ⎪⎝⎭求出相关系数阵R ,并由R 出发作因子分析;解1)求相关系数矩阵:904810.7303,48900.73031S R ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭ 2)用R 软件求R 的特征根及其相应的特征向量,软件输出结果如下:$values[1] 2.99393809 0.07273809 $vectors[,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068122.9939,0.0727,λλ∴==12(),()0.7071,0.7071-0.7071,0.7071T Tηη==3) 求载荷矩阵A :1.22350.19071.22350.1907A -⎛⎫= ⎪⎝⎭4)22121.5333, 1.5333,h h == 0.98810.154*0.98810.154A -⎛⎫= ⎪⎝⎭12121,1,0.3043,0.3043u u v v ===-=,222222000011112,0,()0.9074,20i i iii i i i i i A u B v C u v D u v =========-===∑∑∑∑9 1981年,生物学家Grogan 和Wirth 对两种蠓虫Af 和Apf 根据其触角长度x 1和翼长x 2进行了分类,分类的数据资料如下:Af 1 2 3 4 5 6 7 8 x 1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 x 2 1.27 1.74 1.64 1.82 1.90 1.70 1.82 1.82 Apf 1 2 3 4 5 6 x 1 1.14 1.18 1.20 1.26 1.28 1.30 x 2 1.78 1.96 1.86 2.00 2.00 1.96 (1)试建立Af 和Apf 的Fisher 判别模型;(2)对样本(1.24,1.80),(1.28,1.84),(1.40,2.04)进行判别分类. 解 (1)建立Fisher 判别模型991122121111(,)(1.42,1.75),(,)(1.23,1.93)99T TT T i i i i i i x x y y μμ======∑∑120.08480.1490.01980.0218,0.1490.39120.02180.039A A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭12120.0080.0130.0130.0332A A n n ⎛⎫+== ⎪+-⎝⎭∑()120.19,0.18Tμμ-=-,()()121 1.325,1.842T μμ+= 1345.05135.42135.4283.33--⎛⎫= ⎪-⎝⎭∑, 带入Fisher 判别函数 ()12345.05135.42[(,)(1.325,1.84)]0.19,0.18135.4283.33Tx x -⎛⎫-- ⎪-⎝⎭1291.301741.336944.534x x =--(2)把三个样本(1.24,1.80),(1.28,1.84),(1.4,2.04)带入模型,得到结果:三个样本均属于Apf 类.10 在两个玉米品种之间进行判别:137玉米G 1和甜玉米G 2,选取的两个变量是:x 1—玉米果穗长;x 2—玉米果穗直径,两个类的样本容量为n 1=n 2=40,实际算得两个类的样本均值和样本协方差为:121218.5625.348.120 4.4589.661 3.720,,,5.98 4.12 4.458 4.350 3.720 3.410x x S S ⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭试建立G 1,G 2的Bayes 类线性判别函数.解 因为已知两类的样本均值和样本协方差为:12(18.56,5.98),(25.34,4.12)T T x x ==,128.120 4.4589.661 3.720,4.458 4.350 3.720 3.410S S ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭可计算得到修正的公共协方差矩阵和逆矩阵12120.2280.1450.1450.0992A A n n ⎛⎫+== ⎪+-⎝⎭∑,15.6393.738.25147.38--⎛⎫= ⎪-⎝⎭∑()()()121216.78,1.86,21.95,5.052TTμμμμ-=-+= 带入Fisher 判别函数()112121(())()2T W x x μμμμ-=-+-∑ ()()12 5.6393.73[(,)21.95,5.05] 6.78,1.868.25147.38Tx x -⎛⎫=-- ⎪-⎝⎭1274.396.951141.29x x =-+-。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)检验线性回归效果的显著性( 0.05 ); (3)求回归系数 b 的区间估计(置信度为1 0.95 );
(4)求 x0 225kg 时,0 的预测值及预测区间(置信度为1 0.95 )。
(参考数据:)
5-5. 解:解:(1)计算得
求未知参数 a、b 的估计值,并求回归方程的残差平方和。
5-14.
解:两边对 y
b
ae x
取对数,有: ln y
ln a
ln
y
,
A
ln a
,
t
1 x
,
得 z A bt
将数据整理如下表:
xi
0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47
xi2 518600 ,
x
1 12
xi 205 ,
y
1 12
yi 72.6 ,
xi yi 182943 ,
yi2 64572 .84 ,
所以 lxx xi2 nx 2 518600 12 2052 14300
lxy xi yi nxy 182943 12 205 72.6 4347
(参考数据:)
6-2. 解:检验问题 H0 :1 2 3
工厂
寿命
Ti
Ti
2
或 i
n
i
S
2 i
甲
40 48 38 42 45 (1600 2304 1444 1764 2025
213
45369 42.6
63.2
乙
26 34 30 28 32 676 1156 900 784 1024
t
2 i
11
t
2
3406
.681
.
i 1
i 1
所以
bˆ
lt z lt t
496 .583 3406 .681
0.146
;
Aˆ z bˆ t 0.532 .
得 zˆ 0.532 0.146 t .
换 yˆ ezˆ , aˆ e Aˆ 1.73 , x 1 t
计算得:
t
1 11
11
ti
i 1
7.947
;
z
1 11
11 i 1
zi
6.731 ;
11
11
lt z (ti t )( zi z ) ti zi 11 t z 496 .583 ;
i 1
i 1
11
11
lt t
(ti t )2
试用 W 检验法检验这批零件的直径是否服从正态分布?(显著性水平 0.05 )
(参考数据:) 4-45. 解:数据的顺序统计量为:
10.18,10.32,10.38,10.41,10.49,10.52,10.59,10.64,10.67,10.77,10.82
L 的计算如下表:
k
x(k )
x x x (n1k )
150 22500
30
40
丙
39 40 43 50 50 1521 1600 1849 2500 2500)
222
49284
44.4
113.2
3
r =3
n =15
T =585
39 S e
n
i
S
2 i
216 .4
i 1
ST
3 i1
5
2 ij j1
T2 n
23647
4-51. 对核动力工厂的某类仪器实施甲、乙两种不同的维修方案,现观测到两组失效时间(单
位:小时)如下表所示:
甲
7
26 10
8
27 30 25 35
乙
3 150 42 84 72 28 101 29
在显著性水平 0.05 下,用游程检验法(两种方法)检验这两种维修方案是否有一
种维修方案显著地优于另一种方案?
故得
回归方程为:
yˆ
1 .73
e
0 .146 x
且
习题 6:
11
回归方程的残差平方和为: Se ( yi yˆi )2 0.006 . i 1
6-2. 现有某种型号的电池 3 批,它们分别是甲、乙、丙 3 个厂生产的,为评论其质量,各
随机抽取 5 只电池为样品,经试验得其寿命(h)如下表所示:
(n
2)
1
1 n
(x0
x)2 lxx
)
所以 当 0.05 时,有:
(
x0
)
ˆ
t 12
(n
2)
1
1 n
(
x0
lxx
x
)
2
0.466 2.2281
1
1 12
(225 205)2 14300
1.09455
即得 所求预测区间为: ( 77.5855, 79.7746) 。
(3)由于 b 的1 置信区间为: ( bˆ t12 (n 2) ˆ * lxx )
所以 当 0.05 时,有: ( 0.304 t0.975(10) ˆ* lxx )
( 0.304 t0.975(10) ˆ* lxx ) ( 0.304 2.2281 0.466 14300) ( 0.304 0.00868) (0.2953, 0.3127)
(参考数据:)
4-51. 解:(1)基于游程总个数 R 的检验法
设 甲仪器失效时间 服从分布 F1(x) ,乙仪器失效时间 服从分布 F2 (x) 。
检验问题 H0 :F1(x) F2 (x)
将 、 混排( 的样本值带下划线)得:
3 7 8 10 25 26 27 28 29 30 35 42 72 84 101 150 即 游程总个数 R = 5
4-47. 甲、乙两个车间生产同一种产品,要比较这种产品的某项指标波动的情况,从这两个
车间连续 15 天取得反映波动大小的数据如下表:
甲 1.13 1.26 1.16 1.41 0.86 1.39 1.21 1.22 1.20 0.62 1.18 1.34 1.57
乙 1.21 1.31 0.99 1.59 1.41 1.48 1.31 1.12 1.60 1.38 1.60 1.84 1.95
yi ti 1 xi
0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29
20 16.67 14.29 10 7.143 5
4 3.226 2.632 2.325 2.128
z i ln y i -2.302 -1.966 -1.429 -0.994 -0.528 -0.236 0 0.113 0.174 0.223 0.255
第二章
第三章
第四章
4-45. 自动车床加工中轴,从成品中抽取 11 根,并测得它们的直径(mm)如下:
10.52,10.41,10.32,10.18,10.64,10.77,10.82,10.67,10.59,10.38,10.49
所以 每立方米混凝土中增加 1kg 水泥时,可提高的抗压强度是: yˆ(x 1) yˆ(x) 0.304
(2)检验假设 H0 :b 0 .
用 T 检验法:
由 lyy yi2 ny 2 64572.84 12 72.62 1323.72
ˆ *
Se n2
0.3585 0.1492 0.0655 0.0329 0.0070
11
又 x 10.5264 , 得 (xi x)2 0.38197 i 1
故 W 11 L 2
0.984 ,
(xi x)2
i 1
又 当 n = 11 时,W0.05 0.85
即有 W0.05 W 1 , 从而 接受正态假设,亦即 零件直径服从正态分布。
(n1k) (k)
a(k )
a(k)[x(n1k) x(k)]
1
10.18 10.82
2
10.32 10.77
3
10.38 10.67
4
10.41 10.64
5
10.49 10.59
0.64
0.5601
0.45
0.3315
0.29
0.2260
0.23
0.1429
0.10
0.0695
5
所以 L a(k)[x(n1k) x(k) ] 0.6131, k 1
由上表知: n 11 , n 2 , n n n 13
查 n 13 , 0.05 的符号检验表, 得 临界值 S 2.5 ,
而 S min{n , n} 2 ,
即: S S , 故 拒绝 H0
即 认为这两车间所生产的产品的该项指标波动情况不同.
而 当 n1 n2 8, 0.05 时, R1, 0.05 6
所以 R R1, 0.05 ,
故 拒绝 H0 ,认为这两种维修方案有一种维修方案显著地优于另一种方案。
习题 5:
5-5. 某建材实验室在作陶粒混凝土强度实验中,考察每立方米混凝土的水泥用量 x (kg)对
28 天后的混凝土抗压强度 ( kg cm2 ) 的影响,测得数据如下: