数理统计第五章

合集下载

概率论与数理统计第五章 大数定律及中心极限定理

概率论与数理统计第五章 大数定律及中心极限定理
解: 设Xk为第k次炮击炮弹命中的颗数(k=1,2,…,100),
在100次炮击中炮弹命中的总颗数
100
X = ∑ Xk k =1
相互独立地服从同一分布,
E(Xk)=2, D(Xk)=1.52 (k=1,2,…,100)
随机变量
∑ 1
100 × 1.5
100 k =1
(
X
k

2)
=
1 15
(
X

200)
2. 伯努利定理 事件发生的频率依概率收敛于事件的概率
3. 辛钦定理 (随机变量序列独立同分布且数学期望存在)
n个随机变量的算术平均值以概率收敛于算术 平均值的数学期望。
给出了“频率稳定性”的严格数学解释. 提供了通过试验来确定事件概率的方法. 是数理统计中参数估计的重要理论依据之一.
§5.2 中心极限定理
望 E( Xk ) = µ (k = 1,2,"),则对于任意ε > 0,有
∑ lim
n→∞
P {|
1 n
n k =1
Xk

µ
|<
ε
}
=
1
说明
伯努利大数定理是辛钦定理的特殊情
况。n个随机变量的算术平均值以概率收敛于算
术平均值的数学期望。
三 小结
1、切比雪夫(Chebyshev)定理的特殊情况 算术平均值依概率收敛于数学期望
= 1 − P { V − 100 ≤ 0.387 } (10 12 ) 20
∫ 0.387
≈ 1−
1
e − t 2 dt
−∞ 2π
= 1 −Φ (0.387) = 0.348
所以 P{V > 105} ≈ 0.348

概率论与数理统计 第五章

概率论与数理统计 第五章

Xn ⎯ ⎯→ X 2. 依概率收敛与依分布收敛的关系
依概率收敛 ⇒ 依分布收敛
L
3. 定义:中心极限定理 设随机变量 X ~ N(0,1),{Xi },i = 1, 2, … 相互独 立,且数学期望和方差都存在, 若标准化随机变量序列

n
i =1
Xi −
∑ E(X
i =1
n
i
)

n
i =1
D(X i)
所以结论成立。 由此有,若X ~ B( n, p ),对于足够大的n,有 ⎧ m1 − np X − np m2 − np ⎫ ⎪ ⎪ < ≤ P{m1 < X ≤ m2 }= P ⎨ ⎬ np(1 − p) np(1 − p) ⎪ ⎪ np(1 − p) ⎩ ⎭
⎧ Yn − np ⎫ ⎪ ⎪ ≤ x ⎬ = Φ( x ) lim P ⎨ n →∞ ⎪ np(1 − p ) ⎪ ⎩ ⎭
证明:对于任意正整数n,随机变量Yn 可表示为 证明:对于任意正整数n Yn = X1+ X2+…+ Xn X1, X2,…, Xn 相互独立,Xi ~ B( 1, p ),且有 E( Xi ) = p , D( Xi ) = p(1-p) 所以随机变量序列{ Xi }, i =1,2,…满足独立同分布 中心极限定理条件。即有
切比雪夫不等式的应用 1)估计随机变量落在某个区间内的概率 (P125例5.5.2) 2)估计ε的值, 使 P(│X - E(X)│<ε) ≥ a (0<a<1) 3)证明大数定律。
二. 大数定律 定义: 依概率收敛 设{Xn}是一个随机变量序列,X 是一个随机变量 或常数,若对于任意的ε> 0,有 lim P{| X n − X |≥ ε } = 0

概率论与数理统计课件第5章-PPT精品文档

概率论与数理统计课件第5章-PPT精品文档

PX Q 0 . 5 2
1
第三四分位数Q3: PX Q 0 . 7 5 3
例1
为对某小麦杂交组合F2代的株高X进行研究,抽
取容量为100的样本,测试的原始数据记录如下(单位: 厘米),试根据以上数据,画出它的频率直方图,求随
机变量X的分布状况。
87 99 86 87 84 85 96 90 103 88 91 94 94 91 88 109 83 89 111 98 102 92 82 80 91 84 88 91 110 99 86 94 83 80 91 85 73 98 89 102 99 81 80 87 95 70 97 104 88 102 69 94 95 92 92 90 94 75 91 95 102 76 104 98 83 94 90 96 80 80 90 92 105 92 92 90 94 97 86 91 95 94 88 96 80 94 92 91 77 83
样本方差( X X i n 1i 1


几个常用的统计量
设 (X ,X , 1 2 是总体 X 的一个样本, ,X n) 样本均方差或标准差
2 1 n S X i X n 1i 1


它们的观测值用相应的小写字母表示.反映总 体X取值的平均,或反映总体X取值的离散程度。
几个常用的统计量
设 (X ,X , 1 2 是总体 X 的一个样本, ,X n)
子样的K阶(原点)矩
1 n k Ak X i n i 1
子样的K阶中心矩
1 B k X i X n i1
n


k
数据的简单处理
为了研究随机现象,首要的工作是收集原始数据. 一般通过抽样调查或试验得到的数据往往是杂乱无章

概率论与数理统计 第五章 大数定律与中心极限定理

概率论与数理统计 第五章 大数定律与中心极限定理
nA 一种提法是: “当 n 足够大时,频率 n 与概率 p 有较大偏差
的概率很小” ,用数学语言表达,就是要证明: 0 ,有
nA nA lim P p 0 lim P p 1 n ,或 n n . n
另一种提法是:研究随机变量 n A 的分布的极限行为,即讨 论分布函数
nA lim P p 0 lim P n n 或 n
nA p 1 . n
证 引入
1 , 第i次试验中事件A发生 Xi ,i 1 , 2 , , n , 0 , 第i次试验中事件A不发生
下面我们进一步来讨论贝努利试验.若记 n A 为 n 次贝努利试
nA 验中事件 A 发生的次数, 则事件 A 发生的频率为 n . 所谓 “频 率的稳定性” ,无非是指当试验次数 n 无限增大(即 n )时,
nA 频率 n 无限接近于某个固定常数.这个固定的常数就是“事 件 A 在一次试验中发生的的概率 p” . nA 由此可见,讨论频率 n 的极限行为,是理解概率论中最基本
2019年1月14日星期一
11 / 102
§5.1
大数定律
作为预备知识,我们先明确随机变量序列收敛的
相关概念,同时给出一个重要的不等式,它是以下理 论证明所用的主要工具之一.
定 义 1.1 设 a 是常数,对于随机变量序列 ,如果 0 ,有
X1 , X 2 ,
, Xn ,
lim P
n
个常数,即在这个常数的附近摆动,这就是所谓的“频
率稳定性”.但对这一点,至今为止我们尚未给予理论 上的说明.另外,在第二章我们给出了二项分布的泊松 逼近,那么更一般的近似计算方案又是怎样呢?

概率论与数理统计----第五章大数定律及中心极限定理

概率论与数理统计----第五章大数定律及中心极限定理

= 1 − Φ(3.54)
=0.0002
一箱味精净重大于20500的概率为 的概率为0.0002. 一箱味精净重大于 的概率为
推论:
特别,若X~B(n,p),则当n充分大时, 特别, ~B(n 则当n充分大时,
X~N(np,npq) X~N(np,npq) np
若随机变量X~B( X~B(n, ),则对任意实数x有 ),则对任意实数 即 若随机变量X~B( ,p),则对任意实数 有
不等式证明 P{-1<X<2n+1}≥(2n+1)/(n+1)(n+1)
3. 设P{|X-E(X)|<ε}不小于 不小于0.9,D(X)=0.009.则用 不小于 则用
切比绍夫不等式估计ε的 最小值是( 切比绍夫不等式估计 的 最小值是
0.3 ).
4.(894) 设随机变量 的数学期望为 设随机变量X的数学期望为 的数学期望为µ, 标准差为σ,则由切比绍夫不等式 标准差为 则由切比绍夫不等式 P{|X-µ|≥3σ}≤( ). 1/9 5. 设随机变量X的分布律为 设随机变量 的分布律为 P{X=0.3}=0.2, P{X=0.6}=0.8, 用切比绍夫不等式估计 |X-E(X)|<0.2的概率 的概率. 的概率
1 n lim P ∑ Xi − µ < ε = 1 n→∞ n i =1
定理(贝努里利大数定律) 设每次实验中事件A发生的概率 定理(贝努里利大数定律) 设每次实验中事件A 为p,n次重复独立实验中事件A发生的次数为nA,则对任 次重复独立实验中事件A发生的次数为n 意的ε>0 意的ε>0 ,事件的频率 nA ,有 ε>

+∞
−∞

数理统计第5章部分习题解答

数理统计第5章部分习题解答

第五章习题5.1.假设X 和Y 为随机变量,且满足E [X ]=-2, E [Y ]=2, Var[X ]=1, Var[Y ]=9, X 与Y 的相关系数,X Y r =-0.50.5.试由切比雪夫不等式确定满足不等式.试由切比雪夫不等式确定满足不等式{6}P X Y +³c £的最小正数c 之值之值. .解:因为{][][]220[][][]2cov(,)[][]2(,)[][]E X Y E X E Y Var X Y Var X Var Y X Y Var X Var Y r X Y Var X Var Y +=+=-+=+=++=++192(0.5)197=++´-´´=.2[](()[]6)6Var X Y P X Y E X Y ++-+³£由切比雪夫不等式:,有277(6)=636P X Y +³£.得736c =.5.2.设12,X X 为随机变量且0,[]1(1,2)i i EX Var X i ===. . 证明:证明:对任意的0,l >有22121{2}P X X l l+³£.证明:不妨设12(,)X X 为二维连续型随机变量,其密度函数为12,X X f . 由于12222212,[]()(,)X X E X X x y fx y dxdy +¥+¥-¥-¥+=+òò,12122222222212,,22(2)(,)(,)2X X X X x y x y x y P X X f x y dxdy f x y dxdylll l+³+³++³=£òòòò1222,22221212221122(,)2111[][][]22211([]([]))([]([]))22X X x y f x y dxdy E X X E X E X Var X E X Var X E X lll ll l+¥+¥-¥-¥+£=+=+=+++òò111(10)(10)22lll=+++=.5.3.在一枚均匀正四面体的四个面上分别画上1,2,3,4个点个点. . . 现将该四面体重复投现将该四面体重复投掷,(1,2,)i X i =为第i 次投掷向下一面的点数,试求当n ¥®时,211ni i X n =å依概率收敛的极限.的极限.解: 已知已知 (1,2,3,)i X i =的分布列为的分布列为12341/41/41/41/4i X P4422211115[]() , 1,2,3,.42i i k k E X k P X k k i ===×==×==åå可见,222123,,,X X X 是独立同分布的随机变量序列,且有相同的数学期望152,满足辛钦大数定律,因此对任意0e >,有,有 21115lim 02n i n i P X n e ®+¥=æö-³=ç÷èøå,即211ni i X n =å依概率收敛的极限为152.5.4.设{n X }是独立的随机变量序列,且假设{ln }{ln }0.5, 1,2,n n P X n P X n n ===-==,问{n X }是否服从大数定律?是否服从大数定律?解: []ln 0.5(ln )0.50,i E X i i =´+-´=22222[][]([]) (ln )0.5(ln )0.50ln , 1,2,3,.i i i Var X E X E X i i i i =-=´+-´-==则1111[][]0, n n i i i i E X E X n n ====åå 22111111[][]ln , 1,2,3,.n n n i i i i i Var X Var X i n n n n ======ååå利用切比雪夫不等式:对任意0e >,由,由12111[]11([])ni n n i i i i i Var X n P X E X n n e e===-³£ååå, 得2211222111ln ln 1ln (0)nnni i ii i nn nnP X n n e eee===-³££=ååå,从而有从而有211ln 0lim (0)lim 0nin n i n P X n n e e ®+¥®+¥=£-³£=å,得 11lim (0)0n i n i P X n e ®+¥=-³=å.即随机变量序列{}n X 服从大数定律服从大数定律. .5.5.设{n X }是独立同分布的随机变量序列,且假设[]2, []6n n E X Var X ==,证明:22212345632313,Pn n n X X X X X X X X X a n n --++++++¾¾®®¥,并确定常数a 之值.之值.解:232313 1,2,3,k k k k Y X X X k --=+=令.由于{}k X 是独立同分布的随机变量序列,所以{}k Y 也是独立同分布的随机变量序列也是独立同分布的随机变量序列,,且223231332313[][][][] k k k k k k k E Y E X X X E X E X X ----=+=+232323132 ([]([]))[][] (62)2214, 1,2,.k k k k Var XE XE X E X k ---=++=++´==可见,序列{}k Y 满足辛钦大数定律的条件满足辛钦大数定律的条件. . . 根据辛钦大数定律,得根据辛钦大数定律,得根据辛钦大数定律,得1214, PnY Y Y n n+++¾¾®®+¥ 即2221234563231314, Pn n nX X X X X X X X X n n--++++++¾¾®®+¥ 所以,a =14.5.6.设随机变量X ~B(100,0.8)B(100,0.8),试用棣莫弗—拉普拉斯定理求,试用棣莫弗—拉普拉斯定理求{80100}P X £<的近似值.似值.解:由~(100,0.8)X B 知[]1000.880, []1000.80.216E X Var X =´==´´=. 根据棣莫弗根据棣莫弗--拉普拉斯定理作近似计算,有拉普拉斯定理作近似计算,有99[]80[](80100)(8099)[][]E X E X P X P X Var X Var X æöæö--£<=££»F -F ç÷ç÷ç÷ç÷èøèø()()99808080 4.75010.5=0.51616--æöæö=F -F =F -F =-ç÷ç÷èøèø.5.7.一仪器同时收到50个信号k X ,k =1,2,=1,2,………………,50. ,50. ,50. 设设150,,X X 相互独立,且都服从区间服从区间[0[0[0,,9]9]上的均匀分布,试求上的均匀分布,试求501(250)k k P X =>å的近似值.的近似值.解:由~(0,9) , (0,9) , 1,1,2,,50k X U k =,有,有[]92kE X =,[]()212790124kVar X =-=.根据林德伯格根据林德伯格--莱维定理作近似计算,有莱维定理作近似计算,有5050112501250k k k k P X P X ==æöæö>=-£ç÷ç÷èøèøåå250509/215027/4-´æö»-Fç÷´èø()1 1.3610.9130.087=-F =-=.5.8.一个复杂的系统由n 个相互独立起作用的部件所组成,每个部件损坏的概率为0.100.10,,为了使整个系统正常运行,至少需要80%80%或或80%80%以上的部件正常工作,问以上的部件正常工作,问n 至少为多大才能使整个系统正常工作的概率不小于95%95%..解: : 将将n 个部件编号:个部件编号:1,2,...,n, 1,2,...,n, 1,2,...,n, 记记1, 1,2,,.0,i i X i n ì==íî若第个部件正常工作个部件正常工作,,否则否则,,则 ~(1,0.9)i X B ,且12,,,n X X X 相互独立相互独立. .依题意,要求有依题意,要求有110.80.95nii P X n =æö³³ç÷èøå即要求满足即要求满足 10.80.95n i i P X n =æö³³ç÷èøå.根据棣莫弗根据棣莫弗--拉普拉斯定理作近似计算,有拉普拉斯定理作近似计算,有10.80.90.811330.90.1ni i n n n n P X n n =æöæö-´-æöæö³»-F =-F =F ÷ç÷ç÷ç÷ç´´èøèøèøèøå. 由(1.65)0.95F =,应有 1.653n ³,即()23 1.6524.5025n ³´=,取25n =.。

第五章 数理统计 大数定律与中心极限定理

第五章 数理统计 大数定律与中心极限定理

) 0.999
查正态分布函数表得
(3.1) 0.999

N 120 48
≥ 3.1,
从中解得N≥141.5,
即所求N=142.
也就是说, 应供应142 千瓦电力就能以99.9%的 概率保证该车间不会因供电不足而影响生产.
例3 对于一个学生而言,来参加家长会的家长人数
是一个随机变量,设一个学生无家长、 1名家长、名 2 家长来参加会议的概率分别为0.05、.8、.15.若学校 0 0 共有 400名学生,设各学生参加会议的家长数相互 独立,且服从同一分布.
lim P n X np np 1 p x 1 2

x

t
2

e
2
dt x
证明:设 则
第i次试验事件A发生 第i次试验事件A不发生
由中心极限定理,结论得证
当 n 充分大时,二项分布 X ~ B n , p 可近似地用正态分布N np , np 1 p 来代替。
由于无穷个随机变量之和可能趋于∞,故我们 不研究n个随机变量之和本身而考虑它的标准化的随 n 机变量. 即考虑随机变量X k ( k 1,n)的和 X k
k 1
讨论Yn的极限分布是否为标准 正态分布
在概率论中,习惯于把和的分布收敛于正态分 布这一类定理都叫做中心极限定理.
5.2
中心极限定理 标准化随机变量

意思是:当
时,Xn落在
内的概率越来越大.
a

意思是:
,当
几个常用的大数定律
定理5-2 切比雪夫大数定律

设{Xi, i=1,2,...}为独立的随机变量序列, 且存在数学期望、方差 E X n nDBiblioteka X n2 nDX

第五章 数理统计基础知识

第五章 数理统计基础知识

(3)对360个零售商店调查零售额(单位:元)的结果 如下:
商店数 零售额
61 135
110
42
12
1000 (1000 ,5000 ] (5000 ,10000 ] (10000 ,20000 ] (20000 ,30000 ]
这是一个容量为360的样本的观察值,对应的总体是所 有零售店的周零售额.不过这里没有给出每一个样品的观 察值,而是给出了样本观察值所在的区间,称为分组样本 的观察值.
这便是一个容量为30的样本观察值,其样本均值为:
x

1 (156 30

134





161

151)

153.5
它反映了该厂工人周工资的一般水平.
例3(分组样本均值的近似计算)如果在例2中收集
得到的样本观察值用分组样本形式给出(见下表),
此时样本均值可用下面方法近 似计算:以 xi ,表示
第 i 个组的组中值(即区间的中点),ni 为第 i 组的频
(2)对某型号的20辆汽车记录每加仑汽油各自行驶的 里和数(单位:公里)如下:
29.8 27.6 28.3 28.7 27.9 30.1 29.9 28.0 28.7 27.9 28.5 29.5 27.2 26.9 28.4 27.8 28.0 30.0 29.6 29.1
这是一个容量为20的样本的观察值,对应的总体是该 型号汽车每加仑汽油行驶的里程.
即下表所示.
X
0
1
P
1 p p
其中 X 是一个随机变量,表示抽查一台彩电的质量后 所得到的不合格数,X 0 表示该彩电合格,X 1 表示该 彩电不合格.不同厂家的总体间的差异就体现在不同的 p 上.

概率论数理统计基础知识第五章

概率论数理统计基础知识第五章

C
]
(A)Y ~ 2 (n). (B)Y ~ 2 (n 1). (C)Y ~ F (n,1). (D)Y ~ F (1, n).
【例】设 随机变量X和Y都服从标准正态分布,则[ C ]
(A)X+Y服从正态分布.
2 2 2
(B)X2 +Y2服从 2分布. Y
2
2 X (C)X 和Y 都服从 分布. (D)
(X ) ~ t ( n 1) S n
客、考点 10,正态总体的抽样分布
33/33
34/33
35/33
【例】设总体 X ~ N (0,1),X 1 , X 2 , X1 X 2
2 2 X3 X4
, X n 是简单随机
2 X i. i 4 n
样本 , 试问下列统计量服从什么分布? (1 ) ; (2 ) n 1X1
记:F分布是两个卡方分布的商
2. F 分布的上侧分位数
设 F ~ F (k1 , k2 ) ,对于给定的 a (0,1) ,称满足条件
P{F Fa (k1 , k2 )}

Fa ( k1 ,k2 )
f F ( x)dx a
的数 Fa (k1 , k2 ) 为F 分布的上侧a 分位数。
服从F分布.
§5.5 正态总体统计量的分布
一、单个正态总体情形 总体
X ~ N ( , 2 ) ,样本 X1 , X 2 , , Xn ,
1 n 样本均值 X X i n i 1
n 1 2 样本方差 S 2 ( X X ) i n 1 i 1
1. 定理1 若设总体X~N(μ,σ2), 则统计量
有一约束条件
(X
i 1

概率论与数理统计 第五章

概率论与数理统计 第五章

贝努里定理. 它的叙述如下:设是n次重复独立 对于任意给定的ε>0,有
lim P{| nA p | } 1
n
n
lim P{| nA p | } 1
n
n
其中nA/n是频率,p是概率,即次数多
时事件发生的频率收敛于概率.表示频率的稳定性.
定理3
lim P{|
n
1 n
n i 1
Xi
| } 1
数理统计的方法属于归纳法,由大量的资料作依据,而不
是从根据某种事实进行假设,按一定的逻辑推理得到的.例
如统计学家通过大量观察资料得出吸烟和肺癌有关,吸烟
者得肺癌的人比不吸烟的多好几倍.因此得到这个结论.
数理统计的应用范围很广泛.在政府部门要求有关的资
料给政府制定政策提供参考.由局部推断整体,学生的假期
第五章 大 数 定 律 与 中 心 极 限 定 律
§ 5.1大 数 定 律
定理1(切比雪夫定理) 设X1,X2,...,Xn,...是相互独立的随机变
量序列若存在常数C,使得D(Xi)≤C. (i=1,2,...n),则对任意给
定的ε>0,有
lim P{|
n
1 n
n i 1
[Xi
E( X i )] |
7200 6800 2
200 1
D 2
1
2100 2002
0.95
可见虽有10000盏灯,只要电力供应7200盏灯即有相当大的保 证率切贝谢夫不等式对这类问题的计算有较大价值,但它的精度 不高.为此我们研究下面的内容.
2021/9/5
10
§ 5.2 中 心 极 限 定 理
在随机变量的一切可能性的分布律中,正态分布占有特殊的

《概率论与数理统计》课件第五章大数定律及中心极限定理

《概率论与数理统计》课件第五章大数定律及中心极限定理
有极其重要的地位?
4.大样本统计推断的理论基础
是什么?
大数定律中心极限定理
随机现象中平均结果的稳定性
大数定律的客观背景
大量抛掷硬币正面出现频率
字母使用频率
生产过程中的废品率
§5.1 大数定律
背景:1. 频率稳定性2. 大量测量结果算术平均值的稳定性
回顾
随机现象的主要研究方法
概率分布
01
证:_x001A__x001B__x001B_,_x001A__x001B__x001B_,⋯, _x001A__x001B__x001B_, ⋯相互独立同分布,则_x001A__x001B__x001B__x001B_,_x001A__x001B__x001B__x001B_, ⋯,_x001A__x001B__x001B__x001B_, ⋯也相互独立同分布,由辛钦大数定律得证.
第五章 大数定律及中心极限定理
§5.1 大数定律§5.2 中心极限定理
要点:用切比雪夫不等式估算概率独立同分布,用中心极限定理计算对于二项分布,当n很大时,计算
本章要解决的问题
1.为何能以某事件发生的频率
作为该事件的概率的估计?
2.为何能以样本均值作为总体
期望的估计?
3.为何正态分布在概率论中占
解:(1)设X表示一年内死亡的人数,则~(, ),其中=,=.%. 设Y表示保险公司一年的利润,=×−.需要求的是_x001A_<_x001B_.
由中心极限定理
_x001A_<_x001B_=_x001A_×−<_x001B_ =_x001A_>_x001B_=−_x001A_≤_x001B_
且,
由中心极限定理
解:设为第i个螺丝钉的重量, 相互独立同分布. 于是,一盒螺丝钉的重量为

概率论与数理统计第五章知识点

概率论与数理统计第五章知识点

概率论与数理统计第五章知识点第五章的概率论与数理统计的知识点主要涉及到概率函数、统计推断、分布函数和多元正态分布等内容,这其中包括了多项式概率分布、超几何分布、二项分布、线性回归、假设检验、多重切线回归、卡方检验、小抽样检验、检验均值和协方差等内容。

首先,多项式概率分布是一种特殊的概率分布,它建立了在有限次试验中某个事件出现次数的概率,它由定义性的概率空间和一组完备的事件集合组成,并可以使用不同的统计技术来计算它们。

其次,超几何分布是一种分布,用于计算取样观测中某种特征发生次数的概率,它与多项式分布有着很大的不同,它建立了一个独立的取样模型,它是一种独立取样模型,它利用概率论中的概率空间来分析一个独立取样实验中观测到一个特征发生次数的概率。

再次,二项分布也是一种概率分布,它用来计算一系列试验中出现某种特征的次数的概率。

它是一种特殊的多项式分布,可以使用概率论的工具来应用二项式分布,以确定两个不同事件之间的概率。

此外,线性回归也是第五章概率论与数理统计中一个重要的概念,它是一种统计方法,用来预测一个变量的变化可能会导致另一个变量的变化。

线性回归的基本原理是拟合两个变量的关系,使回归线能够最佳地拟合所有数据,以找到其中的趋势。

另外,假设检验是一种重要的统计技术,在假设检验中,需要使用概率空间,以便计算假设检验中备择假设的概率,并判断假设是否成立。

另外,多重切线回归也是一种重要的统计方法,它是以多元关系作为因变量和因变量之间的关系来拟合数据,以确定多元回归线的最佳拟合方式,让其效果最好。

此外,卡方检验、小抽样检验和检验均值和协方差等也是第五章概率论与数理统计的重要内容。

其中,卡方检验是一种特殊的假设检验,用来判断一组数据的差异是否大于预期,以确定数据的分布情况。

而小抽样检验是一种统计方法,用于给出总体参数的精确估计,以帮助确定相关的总体统计量,用来估计总体参数。

最后,检验均值和协方差也是一种重要的统计方法,它可以帮助分析两个变量之间的关系,以确定两个变量之间的相关程度。

概率论与数理统计第5章

概率论与数理统计第5章

2、定理以数学形式证明了随机变量X
1
,
X
的算术平均
n
X

1 n
n i 1
X i接近数学期望E( X k ) (k
1,2, n),这种接近
说明其具有的稳定性
这种稳定性的含义说明算术平均值是依概率收敛的意义下 逼近某一常数.
1.(2010-1)设 n 为n次独立重复试验中事件A发生的次数,p是事件
10
3.(2009 1)
设X i

0, 1,
事件A不发生 事件A发生 (i 1, 2,
,100),且P(A) 0.8,
100
X1, X 2 , , X100相互独立,令Y Xi则由中心极限定理知Y 近似服从于 i 1
正态分布,其方差为________ .
4.(2008 -10)设总体X的分布律为P{X 1} p, P{X 0} 1- p, 其中0 p 1.
P{|
m n

p
|
}1

ln im
P{|
m n

p
|

}
0
注: 贝努里大数定律表明,当重复试验次数n充分 大时,事件A发生的频率m/n与事件A的概率p有较 大偏差的概率很小.
事件发生的频率可以代替事件的概率.
5.2.2 独立同分布随机变量的切比雪夫大数定律
定理5-3
设随机变量X
1
,
X

2
,X
n
,
是独立同分布随机变量序列,
E( Xi ) , D( Xi ) 2 (i 1, 2, )均存在,则对任意 0有
lim{|
n

概率论与数理统计-第五章

概率论与数理统计-第五章

【数理统计简史】
1. 近代统计学时期
18 世纪末到 19 世纪,是近代统计学时期.这一 时期的重大成就是大数定律和概率论被引入统计 学.之后最小二乘法、误差理论和正态分布理论 等相继成为统计学的重要内容.这一时期有两大 学派:数理统计学派和社会统计学派.
【数理统计简史】 数理统计学派始于19世纪中叶,代表人物是比 利时的凯特莱( A.Quetelet , 1796-1874 ),著有 《概率论书简》《社会物理学》等,他主张用研 究自然科学的方法研究社会现象,正式把概率论 引入统计学,并最先用大数定律证明了社会生活 中随机现象的规律性,提出了误差理论.凯特莱 的贡献,使统计学的发展进入个了一个新的阶 段.
i =1 36
1 2 2 3 2 2 2 2 D( X ) = E ( X ) − E ( X ) = ( 0 + 1 + 2 + 3 ) − 4 2 5 = 4
2
二、样本与抽样 由于X1,X2,...,X36均与总体X同分布,且相互独 立,所以,Y的均值和方差分别为
E (Y ) = E ( ∑ X i ) = 36 E ( X ) = 54,
【数理统计简史】 18世纪到 19世纪初期,高斯从描述天文观测的 误差而引进正态分布,并使用最小二乘法作为估 计方法,是近代数理统计学发展初期的重大事件, 对社会发展有很大的影响.
【数理统计简史】 用正态分布描述观测数据的应用是如此普遍,以 至 在 19 世 纪 相 当 长 的 时 期 内 , 包 括 高 尔 顿 ( Galton )在内的一些学者,认为这个分布可用 于描述几乎是一切常见的数据.直到现在,有关 正态分布的统计方法,仍占据着常用统计方法中 很重要的一部分.最小二乘法方面的工作,在 20 世纪初以来,经过一些学者的发展,如今成了数 理统计学中的主要方法.

概率与数理统计第五章

概率与数理统计第五章

由定理 3, 随机变量
X
k 1
400
k
400 1.1
400 0.19
近似 X 400 1 . 1 ~ N (0,1), 400 0.19
X 400 1.1 450 400 1.1 故 P{ X 450} P 400 0.19 400 0.19 X 400 1 . 1 1 P 1.147 400 0.19 1 (1.147 ) 0.1357.
自从高斯指出测量误差服从正 态分布之后,人们发现,正态分布 在自然界中极为常见.
观察表明,如果一个量是由大量相互独 立的随机因素的影响所造成,而每一个别因 素在总影响中所起的作用不大. 则这种量一 般都服从或近似服从正态分布.
现在我们就来研究独立随机变量之和所 特有的规律性问题. 当n无限增大时,这个和的极限分布是 什么呢?
n2
n ln 2 n lim 0 2 n n
1 n 0 lim 2 D X i lim n n i 1 n
2 ln i i 1
n
n2
n ln 2 n lim 0 2 n n
故有
P
1 n n2 D X i 1 n 1 n i 1 n X i E( X i ) 0 2 n i 1 n i 1
k 1 n
n
Var ( X k )
k 1
的分布函数的极限.
可以证明,满足一定的条件,上述极 限分布是标准正态分布. 这就是下面要介 绍的 中心极限定理
第二节 中心极限定理
中心极限定理是确定在什么条件下 大量的随机变量之和的分布可以用正态 分布近似,它不仅提供了计算独立随机 变量之和的近似概率而且有助于解释为 什么很多随机现象可以用正态分布描述 这一事实.

概率论与数理统计--第五章 统计量及其分布

概率论与数理统计--第五章 统计量及其分布
例。 某公司要采购一批产品,每件产品不是合格的就是不合格的。该批产品的不合格率是p,由此,若从该批产品中中随机抽取一件,设X为其产品的不合格数,显然X的分布是两点分布,但p是未知的,而p决定了该批产品的质量,直接影响采购行为的经济效益,因此人们就会对p提出一些问题: 1,p的大小如何? 2,p大概落到什么范围? 3,能否认为p满足设定要求?(p≤0.05)
5.2.2 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。
例5.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
(1) 对样本进行分组:作为一般性的原则,组数通 常在5~20个,对容量较小的样本;
这是一个容量为10的样本的观测值,(体会抽样作用) 对应的总体为该厂生产的瓶装啤酒的净含量。
这样的样本称为完全样本。
例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:
表5.1.2 100只元件的寿命数据
表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。
设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样本联合分布函数为
用简单随机抽样方法得到的样本称为 简单随机样本,也简称样本。
于是,样本 x1, x2, …, xn 可以看成是 独立同分布( iid ) 的随机变量, 其共同分布即为总体分布。
5.2.1 经验分布函数
(2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数;
(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd, 形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak]
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章1.通过原点的一元回归的线性模型为i i i Y x βε=+,1,2,,i n =⋅⋅⋅ 其中各i ε相互独立,并且都服从正态分布()20,N σ。

试由n 组观测值(),i i x y ,1,2,,i n =⋅⋅⋅,用最小二乘法估计β,并用矩法估计2σ。

解:对一元回归的线性模型为i i i Y x βε=+ 1,2,,i n =⋅⋅⋅离差平方和为 ()21ni i i Q y x β==-∑对Q 求β的偏导数,并令其为0,即()10niiii y x xβ=-=∑变换得 21111n n i i i i i x y x n n β===∑∑解此方程得 2xy xβ∧=因为 22D E σεε== i i i y x εβ=-所以 2211n i i i y x n σβ∧∧=⎛⎫=- ⎪⎝⎭∑()()()222122222222221222n i i i i i y x y x n y xy xxyxyx y x x ββββ∧∧=∧∧⎛⎫=-+ ⎪⎝⎭=-+=-+∑()222xy yx=-其中 11n i i i xy x y n ==∑ 2211n i i x x n ==∑ 2211n i i y y n ==∑2.在考察硝酸钠的可溶性程度时,对一系列不同温度观察它在100ml 的水中溶解的硝酸钠的从经验和理论知i Y 和i x 之间有下述关系式i i i Y x αβε=++,1,2,,9i =⋅⋅⋅其中各i ε相互独立,并且都服从正态分布()20,N σ。

试用最小二乘法估计参数,αβ,并用矩法估计2σ。

解:将 26x = 90.14y = 2736.511xy = 2451.11x m = 2342.665y m =代入得2222222736.5112690.140.8706451.1190.140.87062667.5088342.6650.8706451.110.7487x yx xy x y m y x m m βαβσβ∧∧∧∧∧--⨯====-=-⨯==-=-⨯=3.为了得到一元线性回归分析的简化计算法,作变换1010,,1,2,,,i i i i x c y cu v i n d d --===⋅⋅⋅且010,0d d ≠≠。

若原经验回归直线方程为y x αβ∧∧∧=+变换后经验回归直线方程为''v u αβ∧∧∧=+试证'''0000111,d d d c c d d ββααβ∧∧∧∧∧==+-,并且22''2011nni i i i i i y x d v u αβαβ∧∧∧∧==⎛⎫⎛⎫--=-- ⎪ ⎪⎝⎭⎝⎭∑∑证明:'002211d d uv uvd d u u β∧-=- ()()()1211nii i nii uu v vdd uu==--=-∑∑()()()()()()1001111000211111110012121112111ni i i n i i ni i i nii niii nii x c y c y c x c d d d d d d x c x c d d x x y yd d d d x x d x x y y x x β======∧⎛⎫⎛⎫------ ⎪ ⎪⎝⎭⎝⎭=⎛⎫--- ⎪⎝⎭--=---=-=∑∑∑∑∑∑''00011''000011'10001'01d d c c d d d v d u c c d c d v c d u d d y xd y x αββββββα∧∧∧∧∧∧∧∧+-=-+-⎛⎫=+-+ ⎪⎝⎭=-=-=()2''2012''00012''1000112'''0000111121n i i i ni i i ni i i ni i i ni i i d v u d v d d u x c y c d d d d d y c d x c d d y x αβαβαβαββαβ∧∧=∧∧=∧∧=∧∧∧=∧∧=⎛⎫-- ⎪⎝⎭⎛⎫=-- ⎪⎝⎭-⎡⎤=---⎢⎥⎣⎦⎛⎫=---+ ⎪⎝⎭⎛⎫=-- ⎪⎝⎭∑∑∑∑∑4.为了研究纱的品质指标与支数之间的数量关系,进行有关试验,得20对数据如下:画出点图。

从经验知i Y 与i x 之间有关系式,1,2,,20i i i Y x i αβε=++=⋅⋅⋅其中各i ε相互独立,而且都服从分布()20,N σ。

试用最小二乘法估计α、β,并求2σ的无偏估计量的值。

解:品质指标支数将 35.353x = 2211.2y = 76061.676xy = 2132.130x m = 234527.46y m =代入得()22222276061.67635.3532211.215.98132.1302211.215.9835.3532776.1434527.4615.98132.130786.69x yx xy x y m y x m m βαβσβ∧∧∧∧∧--⨯===-=-=+⨯==-=--⨯=*2σ∧为2σ∧的无偏估计量*2220786.69874.10218n n σσ∧∧===- 5.某医院用光电比色计检验尿汞时,得尿汞含量()mg 与消光系数读数的结果如下:已知它们之间有关系式,1,2,,i i i Y x i n αβε=++=⋅⋅⋅其中()20,iN εσ,且各i ε相互独立,试求,αβ的最小二乘法估计,并在显著水平0.05下检验β是否为38。

解:将 6x = 210.4y = 1558xy = 28x m = 210929.84y m =代入得()2*222*15586210.436.958210.436.95611.3510929.8436.95812.37233.517x xy x y m y x n n βαβσσσ∧∧∧∧∧∧--⨯====-=-⨯=-==-⨯=-=假设 0:38H β= 1:38H β≠ 用T 检验法 拒绝域为()22t n α≥-查表得 ()0.0253 3.1824t =将上面的数据代入得()0.0251.893t t =< 所以 接受0H 即认为β为38(1)试将这六对观测值用点画在坐标纸上,直观上能否认为长度对于质量的回归是线性的; (2)写出经验回归直线方程;(3)试在16x =时作出Y 的95%预测区间。

解:(1)由散点图看,x 的回归函数具有线性函数形式,认为长度对于质量的回归是线性的。

长度质量(2)将 17.5x = 9.49y = 179.37xy = 272.92x m = 22.45y m =代入得2179.3717.59.490.18272.92x xy xy m β∧--⨯=== 9.490.18217.5 6.305y x αβ∧∧=-=-⨯= 6.3050.182y x x αβ∧∧∧=+=+ (3)当16x =时 0016y a b ε=++ 由T 分布定义()2T t n∧∧=-()0.02520.95P t n⎫⎪⎪⎪⎪<-=⎬⎪⎪⎪⎪⎭所以Y的预测区间为()()**00.02500.02522x t n x t nαβσαβσ∧∧∧∧∧∧⎡+--++-⎢⎣查表得()0.0254 2.776t=将(2)的数据代入得()*222*62.450.18272.920.0075240.0866nnσσσ∧∧∧==-⨯=-=计算得Y的预测区间为()8.9521,9.47217.具有重复试验的一元线性回归表述如下:对变量,x Y作n次试验,自变量x取不同值12,,,rx x x⋅⋅⋅;在每一个ix x=上对Y作im次试验观察,它的观测值为12,,ii i imy y y⋅⋅⋅,而1riim n==∑。

一元回归的线性模型为,1,2,,;ij i ij iY x j mαβε=++=⋅⋅⋅1,2,,i r=⋅⋅⋅试求α,β的最小二乘估计。

8.对于自变量和因变量都分组的情形,经验回归直线的配置方法如下:对x和Y作n次试验得n对试验值,把自变量的试验值分成r组,组中值记为12,,,rx x x⋅⋅⋅,各组以组中值为代表;把因变量的试验值分为s组,组中值记为12,,,sy y y⋅⋅⋅,同样地各组以组中值为代表。

如果(),x Y 取(),i i x y 有ij m 对,1,2,,i r =⋅⋅⋅,1,2,,j s =⋅⋅⋅;而11r siji j mn ===∑∑。

用最小二乘法配直线y x αβ=+,试求,αβ的估计量。

7.5 12.5 17.522.5 27.532.537.542.590110 21 110130 34 3 1301505 10 8 1501701 6 1 1 170190在x 与Y 的,每一分组中,以组中值作为代表。

试用第八题得到的公式,求回归直线y x αβ=+中α与β的估计量。

解:利用第八题得到的公式将 21x = 141.2y = 3138xy = 290x m =代入得2313821141.21.9290141.2 1.9221100.88x xy x y m y x βαβ∧∧∧--⨯====-=-⨯=10.通过原点的二元线性回归模型为1122,1,2,,i i i i Y x x i n ββε=++=⋅⋅⋅其中()20,i N εσ,且各i ε相互独立。

试写出正规方程。

并求出1β与2β的最小二乘估计。

解:二元线性回归模型为1122,1,2,,i i i i Y x x i n ββε=++=⋅⋅⋅ 离差平方和为()21221ni i i i i Q y x x ββ==--∑对Q 求12,ββ的偏导数并令其为0()()11221111222100ni i i i i ni i i i i y x x x y x x x ββββ==⎧--=⎪⎪⎨⎪--=⎪⎩∑∑可变换为2111212111221122211100n n n i i i i i i i i n n ni i i i i i i i x y x x x y x x x x ββββ======⎧--=⎪⎪⎨⎪--=⎪⎩∑∑∑∑∑∑正规方程为21112212121222x x x x yx x x x yββββ∧∧∧∧⎧+=⎪⎨⎪+=⎩最小二乘估计为2212121222121221122122221212x yx x x yx x x x xx yx x x yx x x x x ββ∧∧-=--=-其中1111n i i i x y x y n ==∑ 2211n i i i x y x y n ==∑ 121211n i i i x x x x n ==∑ 2211n j ij i x x n ==∑ 1,2j =11.在某项钢材的新型规范试验中,研究含碳量()1x 和回火温度()2x 对它的伸长率()Y 的关根据经验,Y 关于1x 、2x 有二元线性回归关系01122Y x x βββε=+++其中()20,N εσ。

相关文档
最新文档