数理统计5.2例子
数理统计第五章总结
x1 ,, xn .
(2).主要类型
(1).性质:二重性
随机性 确定性
完全样本 分组样本
第五章 知识点总结
x1 ,, xn ~ F ( x ), (3).简单随机样本:
(4).样本的联合分布函数: F ( x1 ,, xn )
0, k (5). 经验分布函数: Fn ( x ) , n 1, x x( 1 )
n 2 n ![ F ( z ) F ( y )] p( y ) p( z ) p1n ( y, z ) . (n 2)!
( y z)
第五章 知识点总结
(3). 次序统计量的函数及其分布
①. 样本中位数:
n 2k 1, x( n21 ), x n x n (2) ( 2 1) , n 2k . 2
i 1 j i 1 n j n ![ F ( y )] [ F ( z ) F ( y )] [ 1 F ( z )] p( y ) p( z ) pij ( y, z ) . (i 1)!( j i 1)!(n j )!
( y z)
次序统计量 ( x(1) , x(n) ) 的联合密度函数为
若 X ~ 2 (n), 则 E ( X ) n, Var( X ) 2n. 若 X ~ 2 (m ), Y ~ 2 (n), 且 X 与 Y 独立, 则
X Y ~ 2 (m n).
2 2. 分布的分位数: P( 2 1 (n)) 1 .
第五章 知识点总结
第20页
6. 对来自总体N(2,4) 的样本 y1 , y2 ,, y25 , S 2 是样本方差, 若 2 b s 2 ~ 2 (24), 则b = ( ).
概率论与数理统计
1 lim P ( X 1 X 2 X n ) p 1, n n nA 即 lim P p 1. n n
关于伯努利定理的说明:
nA 伯努利定理表明事件发 生的频率 依概 n 率收敛于事件的概率p, 它以严格的数学形式 表达了频率的稳定性 .
x
定理5.6表明:
无论各个随机变量 X 1 , X 2 ,, X n ,服从什么 分布, 只要满足定理的条件 , 那么它们的和 X k
k 1 n
当 n 很大时, 近似地服从正态分布 .
下面介绍的定理是定理5.5的特殊情况.
定理5.7:
设随机变量 X服从参数为 n, p(0 p 1)的二项分布,则 ( 1 )(拉普拉斯定理)局 部极限定理:
且np 2, npq 1.265.
3 ( 1 )直接计算: P{ X 3} C10 0.23 0.87 0.2013
第一节
大数定律
一、问题的引入 二、基本定理 三、典型例题 四、小结
一、问题的提出:
契比雪夫不等式
定理 设随机变量 X 具有数学期望 E ( X ) μ, 方差 D( X ) σ 2 , 则对于任意正数 ε , 不等式 σ2 P{ X μ ε } 2 ε 成立. 证明
取连续型随机变量的情况来证明.
则随机变量之和的标准化变量 n n n n X k E X k X k k k 1 k 1 k 1 Z n k 1 n Bn D X k k 1 的分布函数 Fn ( x ) 对于任意x 满足
n n X k k k 1 k 1 lim Fn ( x ) lim P n n Bn t2 x 1 2 e dt ( x ). 2π
概率论与数理统计(浙大版)第五章第六章课件大数定律和中心极限定理
Yn x
lim P i1 n
n
x
x
证明略。
在实用上,n≥30
1
t2
e 2 dt
2
此定理表明,当n充分大时,Yn近似服从N 0,1.
n
即: X(i 近似)~N (n, n 2 ), i=1
从而,P(a
n i 1
Xi
b)
(b n ) ( a n ).
n
n
答案:N (, 2 )
关键词: 总体 个体 样本 统计量
2 分布 t 分布 F 分布
23
引言:数理统计学是一门关于数据收集、整理、分析 和推断的科学。在概率论中已经知道,由于大 量的 随机试验中各种结果的出现必然呈现它的 规律 性,因而从理论上讲只要对随机现象进行 足够多次观察,各种结果的规律性一定能清楚 地呈现,但是实际上所允许的观察永远是有限 的,甚至是 少量的。 例如:若规定灯泡寿命低于1000小时者 为次 品,如何确定次品率?由于灯泡寿命试验是 破坏性试验,不可能把整批灯泡逐一检测,只 能抽取一部分灯泡作为样本进行检验,以样本 的信 息来推断总体的信息,这是数理统计学研 究的问题之一。
24
§1 总体和样本
总体:研究对象的全体。如一批灯泡。 个体:组成总体的每个元素。如某个灯泡。 抽样:从总体X中抽取有限个个体对总体进行观察的取值过程。 随机样本:随机抽取的n个个体的集合(X1,X2,…,Xn), n为样本容量 简单随机样本:满足以下两个条件的随机样本(X1,X2,…,Xn)称
2. 用泊松分布近似计算
np 400 0.02 8 查表得
P X 2 1 P X 0 P X 1 1 0.000335 0.002684 0.9969
14级--GZ《概率与统计》_第12讲_5.1大数定律_5.2中心极限定理
§2 中心极限定理
5.2 中心极限定理
简介
中心极限定理是研究在什么条件下,独立随机变 量序列部分和的极限分布为正态分布的一系列定理 的总称。 在自然界与生产中,一些现象受到许多相互独立 的随机因素的影响,如果每个因素所产生的影响都 很微小时,总的影响可以看作是服从正态分布的。 中心极限定理就是从数学上证明了这一现象 。 它是近两个世纪概率论研究的中心问题,因此这 些定理称为中心极限定理。
P(120000 aX 60000 ) 0.9,即 P( X
由棣莫弗 - 拉普拉斯定理知,
60000 ) 0.9. a
60000 X 60 60000 a 60 P( X ) P( ) 0 . 9. a 60 9.4% 60 9.4%
5.2 中心极限定理
定理1:独立同分布中心极限定理 (变形)
P( k 1
n
X
n
k
n
当n 时 x) ( x)
n
k
X
式中
k 1
n
n
X n n 1 X X
分子分母同时除以n n k 1
k
X 近似 ~ N (0,1) 故: n
或
X ~ N (,
为什么会有这种规律性?这是由于大量试验过程中,随
机因素相互抵消、相互补偿的结果。
用极限方法来研究大量独立(包括微弱相关)随机试验
的规律性的一系列定律称为大数定律。
5.1 大数定律
弱大数定理(辛钦大数定理)
设随机变量序列 X1, X2, … 独立同分布,具有有限的 数学期望 E(Xk)=μ, k=1, 2, …,则对任给 ε >0 ,有
棣莫弗 – 拉普拉斯定理 (针对二项分布)
数理统计课后复习题解
数理统计复习题详解:(姚赛君、黄慧坚编制)方差分析5.1 某灯泡厂试验4种不同材料的灯丝对灯泡寿命的影响,结果如表所示(1)假定4种不同材料的灯丝对灯泡寿命分别服从正态分布,且方差相等,试在显著水平α=0.05下检验这4种灯泡的平均寿命是否有显著差异。
(2)分别给出4种不同的材料灯泡平均寿命的无偏估计值。
解:以α1、α2、α3、α4分别表示不同材料对应的效应,则需检验假设H 0:α1=α2=α3=α4=0 依题意得:r=4,n=19,n 1=6,n 2=5,n 3=4,n 4=4=-=∑∑==r i n j j i T ix x S 112)(96663.16=-=∑∑==r i n j i j i ix x Se 112)(71580S A =S T -S e =25083.16=--=)/()1/(r n Se r S F A 1.7521(统计量)由设定显著水平α=0.05,得F 1-α(r-1,n-r)=F 0.95(3,15)=3.28738(F 分布分位数) F< F 0.95(3,15),不拒绝原假设H 0,因此4种灯泡的平均寿命无显著差异。
(解法:xls ,方差分析) (2)过程未搞,答案:1 690,1668,1655,1590(P29)5.2 某林场对一种树的种子进行了4种不同的种植方法,每种方法试种6粒种子,一段时间后观测树高,获得数据如表所示。
假定树种在4种处理方法下的树高分别服从正态分布,且方差相等。
种植方法及相应树高 单位:cm(2)试求误差项的方差σ2的点估计值。
解:(1)以α1、α2、α3、α4分别表示不同方法种植的效应,则需检验假设H 0:α1=α2=α3=α4=0, 依题意得:r=4,n=28,n 1=7,n 2=7,n 3=7,n 4=7=-=∑∑==r i n j j i T i x x S 112)(902.37857 =-=∑∑==r i n j i j i ix x Se 112)(596.36571S A =S T -S e =306.01286=--=)/()1/(r n Se r S F A 4.10504(统计量)由设定显著水平α=0.05,得F 1-α(r-1,n-r)=F 0.95(3,15)=3.00879(F 分布分位数) F > F 0.95(3,15),拒绝原假设H 0,因此树苗的平均高度有显著差异。
数理统计习题答案-2
数理统计习题答案习题5.1解答1. 设总体服从()λP 分布,试写出样本的联合分布律. n X X X ,,,12 解:()的分布律为:即X P X ~,λ ()!k e P X k k λλ-==, 0,1,2,,,n k =n X X X ,,,12 的联合分布律为:()n n P X x X x X x ===,,,1122 = ()()()n n P X x P X x P X x === 1122=nx x x x e x e x e nλλλλλλ---⋅2121=λλn n x x xe x x x n-+++!!!1212, n i n x i 0,1,2,,,1,2,, ==2. 设总体X 服从()0,1N 分布,试写出样本的联合分布密度. n X X X ,,,12 解:,即()~0,1X N X 分布密度为:()2221x p x e -=π,+∞<<-∞xn X X X ,,,12 的联合分布密度为:()∏==ni i n x x x p x p112*(),,...=22222221212121n x x x eee --⋅-πππ=()}212exp{122∑=--n i i x n π x i n i ,1,2,, =+∞<<∞-. 3. 设总体X 服从()2,μσN 分布,试写出样本的联合分布密度. n X X X ,,,12 解:()2~,μσX N ,即X 分布密度为:()p x =()}2exp{2122σμπσ--x ,∞<<∞-xn X X X ,,,12 的联合分布密度为:()∏==ni i n x xx p x p 112*,,...)(=)()}21exp{121222∑-⋅⋅-=-ni i n n x μσπσ, x i n i ,1,2,, =+∞<<∞-.4. 根据样本观测值的频率分布直方图可以对总体作什么估计与推断? 解:频率分布直方图反映了样本观测值落在各个区间长度相同的区间的频率大小,可以估计X 取值的位置与集中程度,由于每个小区间的面积就是频率,所以可以估计或推断X 的分布密度. 5. 略. 6. 略.习题5.2解答1. 观测5头基础母羊的体重(单位:kg)分别为53.2,51.3,54.5,47.8,50.9,试计算这个样本观测值的数字特征:(1)样本总和,(2)样本均值,(3)离均差平方和,(4)样本方差,(5)样本标准差,(6)样本修正方差,(7)样本修正标准差,(8)样本变异系数,(9)众数,(10)中位数,(11)极差,(12)75%分位数.解:设53.2,51.3,54.5,47.8,50.954321=====x x x x x()257.7151=∑=i ix,()51.54251==∑=i ix x(3) ss =()2512512xx xnx i ii i-=-∑∑===13307.84-5×51.542=25.982(4)=2s ()∑=-51251i i x x =51ss =5.1964, (5)s =2.28; (6) =s s *ss n 11-=6.4955(7)=2.5486; (8)*s cv =100⨯*xs =4.945;(9)每个数都是一个,故没有众数.(10)中位数为=51.3; (11)极差为54.5-47.8=6.7;(12)0.75分位数为53.2. 3x2. 观测100支金冠苹果枝条的生长量(单位:cm)得到频数表如下:组下限 19.5 24.5 29.5 34.5 39.5 44.5 49.5 54.5 59.5 组上限 24.5 29.5 34.5 39.5 44.5 49.5 54.5 59.5 64.5 组中值 22 27 32 37 42 47 52 57 62频数 8 11 13 18 18 15 10 4 3试计算这个样本观测值的数字特征:(1)样本总和,(2)样本均值,(3)离均差平方和,(4)样本方差,(5)样本标准差,(6)样本修正方差,(7)样本修正标准差,(8)样本变异系数,(9)众数,(10)中位数,(11)极差,(12)75%分位数.解:设组中值依次为,频数依次为,129,,,x x x 129,,,n n n +=++=912n n n n 100,()=∑=911i i in x 3950;()=+=∑=911912i i in xn n x 39.5;()()-=-==∑∑==29129123ss n x x n xnx i i ii i i 210039.5166300-⨯=10275;()==s ss 100142102.75; ()=s 510.137;()=-=*ss n s 1162103.788 ()=*s 710.188;()=⨯=*1008xs cv 25.79;()93742或众数是()50,210=n ;中位数为39.523742=+;()11极差为:62-22=40;()4783,0.7568,12612512分位数为+++=+++=∴n n n n n n .3.略.4. 设是一组实数,a 和是任意非零实数,n x x x ,,,12 b bx ay i i -=(i n 1,, =),x 、y 分别为、的均值, =i x i y 2xs ∑-iixn(x 2)1,=2ys 1n(y y i i-)∑2,试证明:① b x a y -=;② 222b s s x y =. 解①:∑∑==-==ni i ni i b x a ny ny 1111= ()∑=-ni i x a bn11= ⎪⎪⎭⎫ ⎝⎛-∑=n i i x na nb 11= b x a -;②=2y s 1n∑-ii y y 2()=∑=⎪⎪⎭⎫⎝⎛---ni i b x a b x a n121=∑=⎪⎪⎭⎫⎝⎛-ni i b x x n 121=221x s b .1.求分位数(1),(2)()820.05x ()1220.95x 。
概率论与数理统计 第五章 大数定律与中心极限定理
的概率很小” ,用数学语言表达,就是要证明: 0 ,有
nA nA lim P p 0 lim P p 1 n ,或 n n . n
另一种提法是:研究随机变量 n A 的分布的极限行为,即讨 论分布函数
nA lim P p 0 lim P n n 或 n
nA p 1 . n
证 引入
1 , 第i次试验中事件A发生 Xi ,i 1 , 2 , , n , 0 , 第i次试验中事件A不发生
下面我们进一步来讨论贝努利试验.若记 n A 为 n 次贝努利试
nA 验中事件 A 发生的次数, 则事件 A 发生的频率为 n . 所谓 “频 率的稳定性” ,无非是指当试验次数 n 无限增大(即 n )时,
nA 频率 n 无限接近于某个固定常数.这个固定的常数就是“事 件 A 在一次试验中发生的的概率 p” . nA 由此可见,讨论频率 n 的极限行为,是理解概率论中最基本
2019年1月14日星期一
11 / 102
§5.1
大数定律
作为预备知识,我们先明确随机变量序列收敛的
相关概念,同时给出一个重要的不等式,它是以下理 论证明所用的主要工具之一.
定 义 1.1 设 a 是常数,对于随机变量序列 ,如果 0 ,有
X1 , X 2 ,
, Xn ,
lim P
n
个常数,即在这个常数的附近摆动,这就是所谓的“频
率稳定性”.但对这一点,至今为止我们尚未给予理论 上的说明.另外,在第二章我们给出了二项分布的泊松 逼近,那么更一般的近似计算方案又是怎样呢?
概率论与数理统计第五章2
分布的上 分位数或上侧临界值, 的数tα(n)为t分布的上α分位数或上侧临界值, 其几何意义见图5-7. 其几何意义见图
标准正态分布的分位数
在实际问题中, 在实际问题中, α常取0.1、0.05、0.01. 常用到下面几个临界值: 常用到下面几个临界值:
u0.05 =1.645, , u0.05/2=1.96, ,
u0.01 =2.326 u0.01/2=2.575
数理统计中常用的分布除正态分布外, 数理统计中常用的分布除正态分布外,还有 三个非常有用的连续型分布, 三个非常有用的连续型分布,即
定理5.1 定理5.1
设(X1,X2,…,Xn)为来自正态总体 X~N( ,σ 2)的样本,则 的样本, ~ (1) 样本均值 X与样本方差S 2相互独立; 相互独立; n (2)
(n 1)S
2
σ
2
=
∑(X X)
i =1 i
2
σ
2
~ χ (n 1)
2
(5.8)
与以下补充性质的结论比较: 与以下补充性质的结论比较: 性质 设(X1,X2,…,Xn)为取自正态总体
上侧临界值. 如图. 上侧临界值 如图
概率分布的分位数(分位点) 概率分布的分位数(分位点) 定义 对总体X和给定的α (0<α<1),若存在xα, α 分布的上侧 分位数或 上侧α 使P{X≥xα} =α, 则称xα为X分布的上侧α分位数或 α y α o xα x
P{X≥xα} =α α
∫ xα
其中Sn
(5.10)
=
2 (n1 1)S1
2 2 S1、S2 分别为两总体的样本方差 分别为两总体的样本方差.
n1 + n2 2
应用数理统计课后习题参考答案
习题五1试检验不同日期生产的钢锭的平均重量有无显著差异?(α=0.05) 解 根据问题,因素A 表示日期,试验指标为钢锭重量,水平为5.假设样本观测值(1,2,3,4)ij y j =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .检验的问题:01251:,:i H H μμμμ===L 不全相等 .计算结果:表5.1 单因素方差分析表注释: 当=0.001表示非常显著,标记为 ‘***’,类似地,= 0.01,0.05,分别标记为 ‘**’ ,‘*’ .查表0.95(4,15) 3.06F =,因为0.953.9496(4,15)F F =>,或p = 0.02199<0.05, 所以拒绝0H ,认为不同日期生产的钢锭的平均重量有显著差异.2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验 试检验在四种不同催化剂下平均得率有无显著差异?(α=0.05)解根据问题,设因素A 表示催化剂,试验指标为化工产品的得率,水平为4 .假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .其中样本容量不等,i n 分别取值为6,5,3,4 .检验的问题:012341:,:i H H μμμμμ===不全相等 .计算结果:表5.2 单因素方差分析表查表0.95(3,14) 3.34F =,因为0.952.4264(3,14)F F =<,或p = 0.1089 > 0.05,所以接受0H ,认为在四种不同催化剂下平均得率无显著差异 .3 试验某种钢的冲击值(kg ×m/cm2),影响该指标的因素有两个,一是含铜量A ,另试检验含铜量和试验温度是否会对钢的冲击值产生显著差异?(α=0.05) 解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.设因素,A B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.假设样本观测值(1,2,3,1,2,3,4)ij yi j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ=1,2,3,4j = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零;(2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; 计算结果:表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =,0.95(3,6) 4.757F =,显然计算值,A B F F 分别大于查表值,或p = 0.0005,0.0009 均显著小于0.05,所以拒绝1020,H H ,认为含铜量和试验温度都会对钢的冲击值产生显著影响作用.设每个工人在每台机器上的日产量都服从正态分布且方差相同 .试检验:(α=0.05)1) 操作工之间的差异是否显著? 2) 机器之间的差异是否显著?3) 它们的交互作用是否显著?解 根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.设因素,A B 分别表示为机器和操作,试验指标为日产量,水平为12. 假设样本观测值(1,2,3,1,2,3,4)ijk y i j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j =,1,2,3k = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;记ij γ为对应于交互作用A B ⨯的主效应; 检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零; (2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; (3)30:ij H γ全部等于零,31:ij H γ不全等于零;计算结果:表5.4 双因素无重复试验的方差分析表查表0.95(3,24) 3.01F =,0.95(2,24) 3.4F =,0.95(6,24) 2.51F =,计算值 3.01,A F <3.4, 2.51B A B F F ⨯>>,或0.05A p >>,而,B A B p p ⨯均显著小于0.05,所以拒绝2030,H H ,接受10H ,认为操作工之间的差异显著,机器之间的差异不显著,它们之间的交互作用显著 . 5 某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示因素 上升温度℃ 保温时间(h)出炉温度℃水平1 800 6 400 水平28208500试填好正交试验结果分析表并对试验结果进行直观分析和方差分析 .解 根据题意,这是一个3因素2水平的试验问题 .试验指标为硬度的合格率 .应选择正交表44(2)L 来安排试验,随机生成正交试验表如下:方差来源 自由度 平方和 均方 F 值 P 值 因素A 因素B 相互效应A ×B误差 总和3 2 6 24 352.750 27.167 73.5 41.333 144.750.917 13.583 12.250 1.7220.5323 7.8871 7.11290.6645 0.00233** 0.00192**由此可见第三号试验条件为:上升温度800℃、保温时间6h 、出炉温度500℃ . 直观分析需要计算K 值,计算结果如下:直观分析 由计算的K 值知,因素A 、B 、C 的极差分别为70,40,40,因此主次关系为A B C >=,B ,C 相当 .由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是121,,A B C ,即最佳的水平组合是121A B C ,即最佳搭配为:上升温度800℃、保温时间8h 、出炉温度400℃.采用方差分析法,计算得下表:表5.7 方差分析表方差来源平方和 自由度 均方差 F 值 A 1225 1 1225 1 B 400 1 400 0.33 C 400 1 400 0.33 误差 1225 1 1225 总和32504如果显著性检验水平取0.1α=,则查表得0.9(1,1)39.9F =,显然计算的F 值1,0.33A B C F F F ===均小于查表值,所以认为三个因素对结果影响都显著 .6问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:kg/100m 2):62.925,57.075,51.6,55.05,58.05,56.55,63.225,50.7,54.45,试对该正交试验结果进行直观分析和方差分析.解 该问题属于3因素3水平的试验问题,试验指标为水稻产量 .根据题意应选择正交表49(3)L 来安排试验,随机生成正交表如下:由表可知,第8号试验的条件:品种(A 3)珍珠矮11号,插值密度(B 2)3.75棵/100m 2,施肥量(C 1)0.75kg/100m 2纯氨; 直观分析需要计算K 值,计算结果如下:同上题进行直观分析,得出K 值的大小关系为:111312212223333132,,K K K K K K K K K >>>>>>由直观分析看出:本例较好的水平搭配是:113A B C 采用方差分析法,计算得下表:表5.10 方差分析表方差来源平方和自由度 均方差F 值A 1.759 2 0.879 0.0223B 65.861 2 32.931 0.8361C 6.660 2 3.330 0.0845 误差78.776 239.388 39.3880.9(2,2)9F =,所以认为三个因素对结果影响都不显著.7 在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A ,吡啶量B 和反应时间C 三个因素,它们各取了7个水平如下:原料配比A :1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量B :10,13,16,19,22,25,28 反应时间C :0.5,1.0,1.5,2.0,2.5,3.0,3.5试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:0.33,0.336,0.294,0.476,0.209,0.451,0.482,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.解 根据题意选择均匀设计表47(7)U 来安排试验,有3个因素,根据使用表,实验安排如:表5.11 试验安排表6 6 5 4 0.4517 7 7 7 0.482 所以第7号实验的条件为:原配料比3.4,吡啶量28ml,反应时间3.5h.通过直观分析,最好的实验条件是:原配料比3.4,吡啶量28ml,反应时间3.5h. 通过回归分析,最合适的实验条件是:原配料比2.6,吡啶量16ml,反应时间0.5h.习题六1 从某中学高二女生中随机选取8名,测得其升高、体重如下:1 2 3 4 5 6 78身高(cm)160 159 160 157 169 162 165 154体重(kg)49 46 53 41 49 50 48 43在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图6.1,表6.1和表6.2:最短距离法离差平方和法图6.1 聚类树形图表6.1 聚类附表(最短距离法)步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 6 5.000 0 0 22 1 2 10.000 1 0 43 4 8 13.000 0 0 74 1 7 13.000 2 0 55 1 3 13.000 4 0 66 1 5 17.000 5 0 7表6.2 聚类附表(离差平方和法)2 已知五个变量的距离矩阵为03674012340444401592343331).;2);3)036034022020401000⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.解 针对距离矩阵1),采用两种方法计算如下. ①最短距离法的聚类步骤如下:12345036740159036020w w w w w ⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭a )将()236,1w w f h =合并为一类,,{}11456,,,,H w w w h =距离矩阵如下0743023060⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}()457457),,,2b w w h w w f h ==合并为一类,{}2167,,,H w h h =距离矩阵如下:034030⎛⎫ ⎪⎪ ⎪⎝⎭{}()()1681689),,3,3c w h h w h f h f h ===合并为一类,最后,,聚类图和树状图如图6.2:图6.2 聚类图(左)与树状图(右)②最长距离法与最短距离法类似,步骤如下: a )()236,1w w f h =合并为一类,{}11456,,,,H w w w h =距离矩阵如下0746025090⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ {}(){}4574572167),,,2,,,b w w h w w f h H w h h ===合并为一类,距离矩阵如下:067090⎛⎫⎪⎪ ⎪⎝⎭{}()()1681689),,69c w h h w h f h f h ===合并为一类,最后,,,聚类图和树状图如图6.3:图6.3 聚类图(左)与树状图(右)(2)针对距离矩阵2)012340234034040⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭①最短距离法的聚类步骤如下 a )()216,1w w f h =合并为一类,{}13456,,,,0342043040H w w w h =⎛⎫⎪⎪ ⎪ ⎪⎝⎭距离矩阵如下{}()367367),,,2b w h h w h f h ==合并为一类,{}24567,,,,H w w h h =聚类矩阵如下:043040⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,聚类图和树状图如图6.4:图6.4 聚类图(左)与树状图(右)②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略). (3)044440333022010⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭最短距离法的聚类步骤如下a ) ()456,1w w f h =合并为一类,{}11236,,,,H w w w h =距离矩阵如下0444033020⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}(){}36736724567),,,2,,,,b w h h w h f h H w w h h ===合并为一类,距离矩阵如下:044030⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,,聚类图和树状图如图6.5:图6.5 聚类图(左)与树状图(右)由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).3 在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:总氮量(%)0.120.63 1.19 2.30 1.29 0.73 0.52 0.33 0.61 0.470.66在绝对距离下,试用重心法对其进行聚类分析.解由R软件得到重心法聚类分析的结果如图6.6与表6.3:图6.6 聚类树形图表6.3 聚类过程记录表步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 8 .001 0 0 22 1 10 .002 1 0 43 6 9 .005 0 0 64 15 .010 2 0 75 2 4 .010 0 0 86 67 .027 3 0 77 1 6 .048 4 6 88 1 2 .459 7 5 99 1 3 2.572 8 0 04 1975年Dagnelie收集了11年的气象数据资料如下表变量年序x1x2x3x4其中:x 1—前一年11月12日的降水量;x 2—7月均温;x 3—7月降雨量;x 4—月日辐射,试对这四个气象因子进行主成分分析. 解 由R 软件分析得到如下表6.4,6.5:表6.4 各主成分的重要性:主成分1 主成分2 主成分3 主成分4 标准差 1.6103349 0.9890848 0.53407741 0.37854199 方差贡献率 0.6482947 0.2445722 0.07130967 0.03582351 累积贡献率0.64829470.89286680.964176491.00000000表6.5 因子荷载:主成分1 主成分2 主成分3 主成分4 X1 0.291 0.871 0.332 -0.214 X2 -0.506 0.425 -0.742 -0.111 X3 0.577 0.136 -0.418 0.688 X4-0.5710.2050.4040.685由于前两个主成分对应的累积贡献率已经达到89.287,因此选取主成分的数目为2.5 对某初中12岁的女生进行体检,测量其身高x 1、体重x 2、胸围x 3和坐高x 4,共测得58个样本,并算得1234(,,,)x x x x x ='的样本协方差为19.9410.5023.566.5919.7120.958.637.97 3.937.55S ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭ 试进行样本主成分分析.解 首先计算样本的相关系数矩阵:10.484410.32240.887210.70330.59760.31251⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭设相关系数矩阵的特征值和特征向量分别为d 和v 阵,计算得到0.0546000 0 0.312600= 000.96470 000 2.6681d ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭即四个特征值依次为:2.6681,0.9647,0.3126,0.0546,前两个主成分的累计贡献率为:90.8471%,因此提取主成分为2.四个特征根相应的特征向量为0.06000.70600.5333 0.4620 0.7317 0.17430.34040.5642=0.60570.19320.60400.48060.30690.65870.48460.4870v -⎛⎫ ⎪-⎪ ⎪--- ⎪-⎝⎭ 因此,两个主成分的表达式为:112340.060.73170.60570.3069z x x x x =+-- 212340.7060.17430.19320.6587z x x x x =-+-+6 比较因子分析和主成分分析模型的异同,阐明两者的关系. 解(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:主成分分析是将n 个原始变量提取m 个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.(3)统用降维的方法,但差异也很明显:主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.(5)两者分析的实质及重点不同.主成分的数学模型为Y AX =,因子分析的数学模型为X AF ε=+.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.(6)SPSS 数据的实现:两者都通过“analyzedata reduction Factor ···”过程实现,但主成分分析主要使用“descriptires ”,“extraction ”,“stores ”对话框,而因子分析处使用这些外,还可使用“rotaction ”对话框进行因子旋转.7 试对第4题的变量作因子分析,并将结果和上面的结果进行比较. 解 用SPSS 分析,计算结果如下表6.6-6.8:表6.6 反应压缩比情况表 提取方法: 主成分法计算的相关系数矩阵的特征值和方差贡献率:表6.7 方差解释度提取方法: 主成分法表6.8 主成分矩阵8 为研究某一树种的叶片形态,选取50片叶测量其长度x 1(mm )和宽度x 2(mm ),按样本数据求得其平均值和协方差矩阵为:129048134,92,4845x x S ⎛⎫=== ⎪⎝⎭求出相关系数阵R ,并由R 出发作因子分析;解1)求相关系数矩阵:904810.7303,48900.73031S R ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭ 2)用R 软件求R 的特征根及其相应的特征向量,软件输出结果如下:$values[1] 2.99393809 0.07273809 $vectors[,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068122.9939,0.0727,λλ∴==12(),()0.7071,0.7071-0.7071,0.7071T Tηη==3) 求载荷矩阵A :1.22350.19071.22350.1907A -⎛⎫= ⎪⎝⎭4)22121.5333, 1.5333,h h == 0.98810.154*0.98810.154A -⎛⎫= ⎪⎝⎭12121,1,0.3043,0.3043u u v v ===-=,222222000011112,0,()0.9074,20i i iii i i i i i A u B v C u v D u v =========-===∑∑∑∑9 1981年,生物学家Grogan 和Wirth 对两种蠓虫Af 和Apf 根据其触角长度x 1和翼长x 2进行了分类,分类的数据资料如下:Af 1 2 3 4 5 6 7 8 x 1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 x 2 1.27 1.74 1.64 1.82 1.90 1.70 1.82 1.82 Apf 1 2 3 4 5 6 x 1 1.14 1.18 1.20 1.26 1.28 1.30 x 2 1.78 1.96 1.86 2.00 2.00 1.96 (1)试建立Af 和Apf 的Fisher 判别模型;(2)对样本(1.24,1.80),(1.28,1.84),(1.40,2.04)进行判别分类. 解 (1)建立Fisher 判别模型991122121111(,)(1.42,1.75),(,)(1.23,1.93)99T TT T i i i i i i x x y y μμ======∑∑120.08480.1490.01980.0218,0.1490.39120.02180.039A A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭12120.0080.0130.0130.0332A A n n ⎛⎫+== ⎪+-⎝⎭∑()120.19,0.18Tμμ-=-,()()121 1.325,1.842T μμ+= 1345.05135.42135.4283.33--⎛⎫= ⎪-⎝⎭∑, 带入Fisher 判别函数 ()12345.05135.42[(,)(1.325,1.84)]0.19,0.18135.4283.33Tx x -⎛⎫-- ⎪-⎝⎭1291.301741.336944.534x x =--(2)把三个样本(1.24,1.80),(1.28,1.84),(1.4,2.04)带入模型,得到结果:三个样本均属于Apf 类.10 在两个玉米品种之间进行判别:137玉米G 1和甜玉米G 2,选取的两个变量是:x 1—玉米果穗长;x 2—玉米果穗直径,两个类的样本容量为n 1=n 2=40,实际算得两个类的样本均值和样本协方差为:121218.5625.348.120 4.4589.661 3.720,,,5.98 4.12 4.458 4.350 3.720 3.410x x S S ⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭试建立G 1,G 2的Bayes 类线性判别函数.解 因为已知两类的样本均值和样本协方差为:12(18.56,5.98),(25.34,4.12)T T x x ==,128.120 4.4589.661 3.720,4.458 4.350 3.720 3.410S S ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭可计算得到修正的公共协方差矩阵和逆矩阵12120.2280.1450.1450.0992A A n n ⎛⎫+== ⎪+-⎝⎭∑,15.6393.738.25147.38--⎛⎫= ⎪-⎝⎭∑()()()121216.78,1.86,21.95,5.052TTμμμμ-=-+= 带入Fisher 判别函数()112121(())()2T W x x μμμμ-=-+-∑ ()()12 5.6393.73[(,)21.95,5.05] 6.78,1.868.25147.38Tx x -⎛⎫=-- ⎪-⎝⎭1274.396.951141.29x x =-+-。
第五章 数理统计 大数定律与中心极限定理
) 0.999
查正态分布函数表得
(3.1) 0.999
故
N 120 48
≥ 3.1,
从中解得N≥141.5,
即所求N=142.
也就是说, 应供应142 千瓦电力就能以99.9%的 概率保证该车间不会因供电不足而影响生产.
例3 对于一个学生而言,来参加家长会的家长人数
是一个随机变量,设一个学生无家长、 1名家长、名 2 家长来参加会议的概率分别为0.05、.8、.15.若学校 0 0 共有 400名学生,设各学生参加会议的家长数相互 独立,且服从同一分布.
lim P n X np np 1 p x 1 2
x
t
2
e
2
dt x
证明:设 则
第i次试验事件A发生 第i次试验事件A不发生
由中心极限定理,结论得证
当 n 充分大时,二项分布 X ~ B n , p 可近似地用正态分布N np , np 1 p 来代替。
由于无穷个随机变量之和可能趋于∞,故我们 不研究n个随机变量之和本身而考虑它的标准化的随 n 机变量. 即考虑随机变量X k ( k 1,n)的和 X k
k 1
讨论Yn的极限分布是否为标准 正态分布
在概率论中,习惯于把和的分布收敛于正态分 布这一类定理都叫做中心极限定理.
5.2
中心极限定理 标准化随机变量
如
意思是:当
时,Xn落在
内的概率越来越大.
a
而
意思是:
,当
几个常用的大数定律
定理5-2 切比雪夫大数定律
,
设{Xi, i=1,2,...}为独立的随机变量序列, 且存在数学期望、方差 E X n nDBiblioteka X n2 nDX
概率论与数理统计 第五章
贝努里定理. 它的叙述如下:设是n次重复独立 对于任意给定的ε>0,有
lim P{| nA p | } 1
n
n
lim P{| nA p | } 1
n
n
其中nA/n是频率,p是概率,即次数多
时事件发生的频率收敛于概率.表示频率的稳定性.
定理3
lim P{|
n
1 n
n i 1
Xi
| } 1
数理统计的方法属于归纳法,由大量的资料作依据,而不
是从根据某种事实进行假设,按一定的逻辑推理得到的.例
如统计学家通过大量观察资料得出吸烟和肺癌有关,吸烟
者得肺癌的人比不吸烟的多好几倍.因此得到这个结论.
数理统计的应用范围很广泛.在政府部门要求有关的资
料给政府制定政策提供参考.由局部推断整体,学生的假期
第五章 大 数 定 律 与 中 心 极 限 定 律
§ 5.1大 数 定 律
定理1(切比雪夫定理) 设X1,X2,...,Xn,...是相互独立的随机变
量序列若存在常数C,使得D(Xi)≤C. (i=1,2,...n),则对任意给
定的ε>0,有
lim P{|
n
1 n
n i 1
[Xi
E( X i )] |
7200 6800 2
200 1
D 2
1
2100 2002
0.95
可见虽有10000盏灯,只要电力供应7200盏灯即有相当大的保 证率切贝谢夫不等式对这类问题的计算有较大价值,但它的精度 不高.为此我们研究下面的内容.
2021/9/5
10
§ 5.2 中 心 极 限 定 理
在随机变量的一切可能性的分布律中,正态分布占有特殊的
《概率论与数理统计》课件第五章大数定律及中心极限定理
4.大样本统计推断的理论基础
是什么?
大数定律中心极限定理
随机现象中平均结果的稳定性
大数定律的客观背景
大量抛掷硬币正面出现频率
字母使用频率
生产过程中的废品率
§5.1 大数定律
背景:1. 频率稳定性2. 大量测量结果算术平均值的稳定性
回顾
随机现象的主要研究方法
概率分布
01
证:_x001A__x001B__x001B_,_x001A__x001B__x001B_,⋯, _x001A__x001B__x001B_, ⋯相互独立同分布,则_x001A__x001B__x001B__x001B_,_x001A__x001B__x001B__x001B_, ⋯,_x001A__x001B__x001B__x001B_, ⋯也相互独立同分布,由辛钦大数定律得证.
第五章 大数定律及中心极限定理
§5.1 大数定律§5.2 中心极限定理
要点:用切比雪夫不等式估算概率独立同分布,用中心极限定理计算对于二项分布,当n很大时,计算
本章要解决的问题
1.为何能以某事件发生的频率
作为该事件的概率的估计?
2.为何能以样本均值作为总体
期望的估计?
3.为何正态分布在概率论中占
解:(1)设X表示一年内死亡的人数,则~(, ),其中=,=.%. 设Y表示保险公司一年的利润,=×−.需要求的是_x001A_<_x001B_.
由中心极限定理
_x001A_<_x001B_=_x001A_×−<_x001B_ =_x001A_>_x001B_=−_x001A_≤_x001B_
且,
由中心极限定理
解:设为第i个螺丝钉的重量, 相互独立同分布. 于是,一盒螺丝钉的重量为
概率论与数理统计第5章作业题解
第五章作业题解5.1 已知正常男性成人每毫升的血液中含白细胞平均数是7300, 标准差是700. 使用切比雪 夫不等式估计正常男性成人每毫升血液中含白细胞数在5200到9400之间的概率.解:设每毫升血液中含白细胞数为,依题意得,7300)(==X E μ,700)(==X Var σ由切比雪夫不等式,得)2100|7300(|)94005200(<-=<<X P X P982100700112222=-=-≥εσ.5.2 设随机变量X 服从参数为λ的泊松分布, 使用切比雪夫不等式证明1{02}P X λλλ-<<≥.解:因为)(~λP X ,所以λμ==)(X E 。
λσ==)(2X Var故由切比雪夫不等式,得)|(|)20(λλλ<-=<<X P X P λλλλεσ111222-=-=-≥不等式得证.5.3 设由机器包装的每包大米的重量是一个随机变量, 期望是10千克, 方差是0.1千克2. 求100袋这种大米的总重量在990至1010千克之间的概率.解:设第i 袋大米的重量为X i ,(i =1,2,…,100),则100袋大米的总重量为∑==1001i i X X 。
因为 10)(=i X E ,1.0)(=i X Var ,所以 100010100)(=⨯=X E ,101.0100)(=⨯=X Var由中心极限定理知,101000-X 近似服从)1,0(N故 )10|1000(|)1010990(<-=<<X P X P1)10(2)10|101000(|-Φ≈<-=X P998.01999.021)16.3(2=-⨯=-Φ=5.4 一加法器同时收到20个噪声电压,(1,2,,20)i V i = ,设它们是相互独立的随机变量,并且都服从区间[0,10]上的均匀分布。
记201kk V V==∑,求(105)P V >的近似值。
自考概率论与数理统计大数定律及中心极限定理
则
是这16只元件的寿命的总和.
E(Y)=100×16=1 600,D(Y)= 160 000,
则所求概率为:
定理5.6(李雅普诺夫定理)
设随机变量 X1, X2 ,, Xn ,相互独立, 它 们具有数学期望和方差:
E(Xk ) k ,
D( Xk
)
2 k
0
(k
1,2,),
n
记
Bn2
0.310000k
k 6801
如果用契比雪夫不等式估计:
E( X ) np 10000 0.7 7000 D( X ) npq 10000 0.7 0.3 2100
P(6800<X<7200)=P(|X
7000|<200)
1
2100 2002
0.95
可见,虽然有10000盏灯,但是只要有供应7200盏 灯的电力就能够以相当大的概率保证够用.事实上, 契比雪夫不等式的估计只说明概率大于0.95,后面 将具体求出这个概率约为0.99999.
k1
的分布函数 Fn( x) 对于任意x 满足
lim
n
Fn
(
x
)
lim
n
P
n k 1
X
k Bn
n k 1
k
x
x
1
t2
e 2 dt
( x).
2π
定理5.6表明:
无论各个随机变量 X1, X2 ,, Xn ,服从什么
自从高斯指出测量误差服从正态 分布之后,人们发现,正态分布在 自然界中极为常见.
数理统计(汪荣鑫)答案第三章
2
∴接受 H0 。 4.某电器零件的平均电阻一直保持在 2.64Ω 。 改变加工工艺后, 测得 100 个零件的 平均电阻为 2.62Ω, 电阻标准差 (s) 为 0.06Ω , 问新工艺对此零件的电阻有无显著影响
(α = 0.01 )? 解: n = 100 , x = 2.62 , s = 0.06 ①建立原假设 H0 : µ = 2.64Ω
= Φ(0.575)
= 0.719
3.某批矿砂的 5 个样品中的镍含量经测定为
x(%) 3.25, 3.27, 3.24, 3.26, 3.24
数理统计(汪荣鑫)Chapitre 3
设测定值服从正态分布。问在α = 0.01 下能否接受假设:这批矿砂的(平均)镍含量为 3.25。 解:设 x ~ N (µ,σ 2 ) ,σ 2 未知,计算得 x = 3.252 , s* = 0.013
问此段时间内该机工作是否正常(α = 5% )?假定金属棒长度服从正态分布。
解: n = 15 , x = 10.48 , s* = 0.2366
①建立原假设 H0 : µ = 10,5
②在 H 0 成立前提下,构造统计量 T
=
x − µ0 s* / n
~ t(n −1)
{ } ③给定α = 0.05 ,查得 tα (14) = 2.1448 ,使 p T > tα (n −1) = α
=
x − µ0 σn
~
N (0,1)
③给定显著水平α = 0.05 ,有 µα = 1.96 ,使
2
{ } P µ ≥ µα
=
α
即
⎧ P⎨
x
−
µ0
⎫ ≥ 1.96⎬ = 0.05
应用数理统计课后习题参考答案
习题五1 某钢厂检查一月上旬内的五天中生产的钢锭重量,结果如下:(单位:k g)日期重旦量1 5500 5800 5740 57102 5440 5680 5240 56004 5400 5410 5430 54009 5640 5700 5660 570010 5610 5700 5610 5400试检验不同日期生产的钢锭的平均重量有无显著差异? ( =0.05)解根据问题,因素A表示日期,试验指标为钢锭重量,水平为 5.2假设样本观测值y j(j 123,4)来源于正态总体Y~N(i, ),i 1,2,...,5检验的问题:H。
:i 2 L 5, H i : i不全相等.计算结果:注释当=0.001表示非常显著,标记为*** '类似地,=0.01,0.05,分别标记为查表F0.95(4,15) 3.06,因为F 3.9496 F0.95(4,15),或p = 0.02199<0.05 ,所以拒绝H。
,认为不同日期生产的钢锭的平均重量有显著差异2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验解根据问题,设因素A表示催化剂,试验指标为化工产品的得率,水平为 4 .2假设样本观测值y j(j 1,2,..., nJ来源于正态总体Y~N(i, ), i 1,2,...,5 .其中样本容量不等,n分别取值为6,5,3,4 .日产量操作工查表 F O .95(3,14) 3.34,因为 F 2.4264 F °.95(3,14),或 p = 0.1089 > 0.05, 所以接受H 。
,认为在四种不同催化剂下平均得率无显著差异3试验某种钢的冲击值(kg Xm/cm2 ),影响该指标的因素有两个,一是含铜量 A ,另一个是温度试检验含铜量和试验温度是否会对钢的冲击值产生显著差异? ( =0.05 )解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用设因素A,B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为 12.2假设样本观测值y j (i 1,2,3, j 1,2,3,4)来源于正态总体 Y j ~N (j ,),i 1,2,3,j 1,2,3,4 .记i 为对应于A 的主效应;记 j 为对应于B j 的主效应;检验的问题:(1) H i 。
《概率论与数理统计》-5.2.1
i 1
2
(n
1)
,
2
n
(Xi X )2
i 1
2 1
(n
1)
2
例10 对上例求产品重量的均方差 的95%的置 信区间. 解 因为 S 3.00, n 9, 0.05,查 2分布表得
2 1
(n
1)
2 0.975
(8)
2.180
2
•
,
2
(n
1)
2 0.025
(8)
17.535
2
( X t (n 1)
2
S, n
X t (n 1)
2
S) n
.
• 例8 今从某机器所生产的一批产品中抽取9件
产品,分别秤得重量为(单位:公斤):
52.1 50.5 51.2 49.7 49.5 50.5 58.7 50.5 48.3
试求产品平均重量的95%的置信区间.
• 解 因为 2未知,所以不能用统计量 U ,而应
• 2)当 未知时,求 的置信水平为 1 的置
信区间 • 因为 D(X ) 未知,可用 D(X )的估计量
S 2
1 n 1
n
(Xi
i 1
X )2
来代替 D(X ),而用随机变量
T X E(X ) S/ n
来代替1)中的统计量 U ,这时 T 不再服 从 N(0,1) ,但是当 X ~ N(, 2 ) 时,可以证明
f
(x)
1
2
n1 2
(
n
1)
2
n3 x
x2e2
,
0,
x 0, x0
且 2 ~ 2 (n 1).
对给定的 (0 1),由 2 分布的上侧 分位数
5.2样本函数与统计量
( n 1) S 2
2
(D)
n( X ) S
统计量中不含任何未知参数.
由以上定义得下述结论:
若总体 X 的k 阶矩 E ( X k ) 记成 k 存在, P V k , k 1, 2,. 则当n 时, k
证明 因为 X 1 , X 2 ,, X n 独立且与X 同分布,
k k 所以 X 1k , X 2 , , X n 独立且与X k 同分布, k E( X ) E( X ) E ( X n ) k .
该段时间内通过的 汽车数所在区间
区间中点值x( i )
225 235 245 255 265 275 285
频数 mi
1 3 6 14 4 1 1 30
(220,230] (230,240] (240,250] (250,260] (260,270] (270,280] (280,290] 总 计
数据只需分7次输入计算器即可算得,
1 7 x mi x(i ) 253 , 30 i 1
7 1 s 2 mi ( x(i ) x ) 2 147.59 , 29 i 1
7 1 2 ~2 m ( x x ) 142.67 . i (i ) 30 i 1
小结
1.有关概念: 样本函数与统计量(注意两者的区别)
n 1 2 S2 ( X X ) , i n 1 i 1 n 1 2 s2 ( x x ) . i n 1 i 1
其观测值记作
1 n 2 s ( x x ) . i n 1 i 1
4.样本 k 阶原点矩
1 n k Vk X i n i 1
38.2 40.0 42.4 37.6 39.2 41.0 44.0 43.2 38.8 40.6
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
239.968
+95.0%CL
295.690
例:研究货运总量 y(万吨)与工业总产值
x1 (亿元)、农业总产值 x 2 (亿元)、居
民非商品支出 x 3 (亿元)的关系。
(1) 求出 y 关于 x1 , x 2 , x3 的三元线性
回归方程; (2) 对线性回归效果作显著性检验; (3) 对每一系数作显著性检验; (4) 如果有的回归系数没有通过显著性检
Predicting Values for variabl.675630 75.00000 350.672 X2 8.970961 42.00000 376.780
Intercept
-459.624
Predicted
267.829
-95.0%CL
X3 0.277096 0.235286 12.447 10.5693 1.17770 0.283510
Regression Summary for Dependent Variable: Y R= .87209434 R2= .76054853 Adjusted R2= .69213383
F(2,7)=11.117 p<.00672 Std.Error of estimate: 24.081
验,将其剔除,重新建立回归方程,再 作对回归方程的显著性检验和回归系数 的显著性检验; (5) 求当 x 01 = 75 , x 02 = 42 时的 yˆ 0 ;并求 其概率为 95%的预测区间。
编号
1 2 3 4 5 6 7 8 9 10
货运总 量y (万 吨)
160 260 210 265 240 220 275 160 275 250
Beta Std.Err. B Std.Err. t(7) p-level
Intercept
-459.624 153.0576 -3.00295 0.019859
X1 0.479242 0.186144 4.676 1.8161 2.57459 0.036761
X2 0.676489 0.186144 8.971 2.4685 3.63423 0.008351
工业总 产值 x1 (亿 元)
70 75 65 74 72 68 78 66 70 65
农业总 产值 x 2 (亿 元)
35 40 40 42 38 45 42 36 44 42
居民非 商品支
出 x3 (亿 元)
1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0
Regression Summary for Dependent Variable: Y R= .89750082 R2= .80550771 Adjusted R2= .70826157 F(3,6)=8.2832 p<.01487 Std.Error of estimate: 23.442
Beta Std.Err. B Std.Err. t(6) p-level
Intercept
-348.280 176.4592 -1.97371 0.095855
X1 0.384781 0.198161 3.754 1.9333 1.94176 0.100197
X2 0.535456 0.217198 7.101 2.8803 2.46528 0.048769