数理统计 第五章1
数理统计第五章总结
x1 ,, xn .
(2).主要类型
(1).性质:二重性
随机性 确定性
完全样本 分组样本
第五章 知识点总结
x1 ,, xn ~ F ( x ), (3).简单随机样本:
(4).样本的联合分布函数: F ( x1 ,, xn )
0, k (5). 经验分布函数: Fn ( x ) , n 1, x x( 1 )
n 2 n ![ F ( z ) F ( y )] p( y ) p( z ) p1n ( y, z ) . (n 2)!
( y z)
第五章 知识点总结
(3). 次序统计量的函数及其分布
①. 样本中位数:
n 2k 1, x( n21 ), x n x n (2) ( 2 1) , n 2k . 2
i 1 j i 1 n j n ![ F ( y )] [ F ( z ) F ( y )] [ 1 F ( z )] p( y ) p( z ) pij ( y, z ) . (i 1)!( j i 1)!(n j )!
( y z)
次序统计量 ( x(1) , x(n) ) 的联合密度函数为
若 X ~ 2 (n), 则 E ( X ) n, Var( X ) 2n. 若 X ~ 2 (m ), Y ~ 2 (n), 且 X 与 Y 独立, 则
X Y ~ 2 (m n).
2 2. 分布的分位数: P( 2 1 (n)) 1 .
第五章 知识点总结
第20页
6. 对来自总体N(2,4) 的样本 y1 , y2 ,, y25 , S 2 是样本方差, 若 2 b s 2 ~ 2 (24), 则b = ( ).
《概率论与数理统计》课件 概率学与数理统计 第五章
时,
n
n
X k =BnZn + k
k 1
k 1
n
近似地服从正态分布 N( k,Bn2) 。这说明无论随机变量 Xk (k
i 1
n
=1, 2,…)具有怎样的分布,只要满足定理条件,那么它们的和Xk
k 1
当n很大时就近似地服从正态分布。而在许多实际问题中,所
考虑的随机变量往往可以表示为多个独立的随机变量之和,因
实测值的算术平均值
时,取
作为 a 1 n
n i1 X i
1 n
n i 1
Xi
,根据此定理,当
n
足够大
的近似值,可以认为所发生的误差是
很小的,所以实用上往往用某物体的某一指标值的一系列
实测值的算术平均值来作为该指标值的近似值。
第二节 中心极限定理
在第二章,我们说只要某个随机变量受到许多相互独立 的随机因素的影响,而每个个别因素的影响都不能起决定性 的作用,那么就可以断定这个随机变量服从或近似服从正态 分布。这个结论的理论依据就是所谓的中心极限定理。概率 论中有关论证独立随机变量的和的极限分布是正态分布的一 系列定理称为中心极限定理( Central limit theorem) 。下面介 绍几个常用的中心极限定理.
P{X 102} P{ X 100 102 100} 1 P{X 100 2}
1
1
1 (2) 1 0.977250 0.022750.
例
对敌人的防御地进行100次轰炸,每次轰炸命中目标的炸弹数目是 一个随机变量,其期望值是2,方差是。求在100次轰炸中有180颗到 220颗炸弹命中目标的概率。 解 令第 i 次轰炸命中目标的炸弹数为 Xi ,100次轰炸中命中目
《概率论与数理统计》第五章
第五章 极限定理
‹#›
研究随机现象的大量观测, 常采用极限形式, 由此导致了极限定理的研究。 极限定理的内容很 广泛, 最重要的有两种:
“大数定律”和“中心极限定理”。
第五章 极限定理
‹#›
§1 大数定律
对随机现象进行大量重复观测,各种结果的出 现频率具有稳定性。
大量地掷硬币 正面出现频率
生产过程 中废品率
棣莫佛—拉普拉斯定理的内容是:当 n 很大时 ,二项分布可用正态分布近似。
总结/summary
第五章 极限定理
‹#›
切比雪夫不等式 理解切比雪夫不等式
大数定律
了解辛钦大数定理。
中心极限定理
掌握运用列维-林德伯格中心定理和棣 莫弗-拉普拉斯中心极限定理求解独立 随机变量之和的近似概率值
第五章 极限定理
字母使用频率
第五章 极限定理
‹#›
1. 切比雪夫不等式
定理1: 设随机变量X有期望μ和方
差σ2,则对任给的ε> 0, 有
P
X
2
1
2
或
P | X |
2 2
.
第五章 极限定理
‹#›
证明:只对X 是连续型情况加以证明。
设X 的概率密度函数为 f(x),则有
P | X | f (x) dx
2.5
1
P
X
n 14 0.2
2.5
1 (2.5) 0.0062 ;
第五章 极限定理
‹#›
(2).
P{X n
14}
P
X
n
14
14 14
2 / 100 2 / 100
1
P
X
n 14 0.2
概率论与数理统计 第五章
∑ X − ∑µ
k =1 k =1
k
Bn
≤ x} = ∫
ቤተ መጻሕፍቲ ባይዱ
x
1 2π
−∞
e
t2 − 2
dt=Φ(x).
说明: 说明
在定理条件下, r.v. Zn =
∑ X − ∑µ
k =1 k k =1
n
n
k
Bn
当 n很 大
时, 近似地服从正态分布N(0, 1),由此当n很大时,
∑X
k =1 n
n
t2 2
(本定理 可以由独立同分布 的中心极限定理证 明)
说明: 说明 本定理不难看出 :若ηn
~ b(n,p), 有
t2 2
b ηn − np 1 lim P a < e dt = Φ(b) − Φ(a), ≤ b = ∫ a n →∞ npq 2π 因 而 当 n较 大 时 , 我 们 可 以 用 正 态 分 布 近 似 计 算 二 项 分布 的 概率 。
2. 切比雪夫大数定律: 设X1 , X 2 , L Xn , L 是由两两互 不相关的随机变量所构成的序列, 每一个随机变量都 有有限的方差, 并且它们有公共的上界 , D(X1 ) ≤ C, D(X 2 ) ≤ C, L , D(Xn ) ≤ C, L 则对∀ε > 0, 都有 1 n 1 n lim P ∑ Xk − ∑ E(Xk ) < ε = 1. n →∞ n k =1 n k =1
k
2 , k = 0,1, L ,90000. 3 ≤ 30500}
90000-k
显然直接计算十分麻烦, 我们利用德莫佛-拉普拉斯定理 来求它的近 似 值 即有P{29500 < X ≤ 30500} 29500-np = P < np(1-p ) 30500-np ≤ np(1-p ) np(1-p ) X-np
概率论与数理统计(第五章第1节)
பைடு நூலகம்
定义2. 设有随机变量序列 {Xn}, n = 1, 2, · · ; X是随机变量。Fn(x) 和 FX (x) 分 ·· ·· 别是 Xn 和 X 的分布函数, 如果在 FX (x) 的 连续点处, 都有
则称 {Xn} 依分布收敛于X, 也说 Xn 以 X 的 分布为极限分布。记为
6
依分布收敛是随机变量序列的又一种 收敛形式, 可以证明: 如果 反之则不一定。
第五章 大数定律与中心极限定理
极限理论是概率论与数理统计的基本 理论, 在理论研究和应用中都十分重要。 随机现象的统计规律性描述的实际上 是试验次数无限增大时呈现的极限状态。
大数定律和中心极限定理是关于随机 变量序列的极限定理最基本的两种类型。 下面先介绍关于随机变量序列收敛性的概 念。
1
第一节 随机变量序列的收敛性
4
例1. 设随机变量序列 X1, X2,·, · · Xn· · 服从如下的分布: ·· ··
P{ Xn = 0 }= 1 则对任意的 0, 有 P{ | Xn |≥ } = P{ Xn = 2n } = 0 P{ Xn = 2n }=
故 {Xn} 依概率收敛于 0。但无论对多大的 n, Xn都可能取远离 0 的值 2n。
两种收敛性 的关系
7
, 则必有
,
3
在定义 1中, 随机变量X也可以是一个 常数 a, 称为随机变量序列 {Xn} 依概率收 敛于常数 a。记为 随机变量序列依概率收敛和一般序列 的收敛有很大的不同。假定 {Xn} 依概率收 敛于常数 a , 是指当 n 足够大时, 有足够 大的概率保证 Xn 任意接近于 a , 但此时Xn 仍然有可能取与 a 相差很大的数值(参见下 面例1 ), 即依概率收敛不是绝对保证。
数理统计第五章
=
2 2 c σ ∑ k =1 k k . n
证明:因 X k ~ N ( ak , σ k2 ), 故其特征函数 (c.f.)为 1 2 iak t − t 2σ k 1 2 2 itX k 2 ϕ k (t ) = E(e ) = e = exp{iak t − t σ k }, 2 it ∑ c X itc X itT n
⎧ ⎫ ⎡ ⎤ ⎪ ⎪ = ∏ ⎨C (θ )exp ⎢ ∑ W j (θ )T j ( xi ) ⎥ h( xi ) ⎬ i =1 ⎪ ⎪ ⎣ j=1 ⎦ ⎩ ⎭
n k
i =1
= C (θ ) exp
n '
{∑ C (θ ) exp { ∑
k j =1 k
W j (θ )∑ i =1 T j ( xi )
7
如何抽样(how to get a sample)
抽取样本的目的是为了利用样 本对总体进行统计推断,这就要求 样本能很好的反映总体的特性且便 于处理.为此,需对抽样提出一些要 求,通常有两条:
数理统计
1. 代表性: X1,X2,…, Xn中每一个与所考察的总体X有相同的 分布. (Why?) 2. 独立性: X1,X2,…, Xn是相互独立的随机变量. (And Why?) 满足上述两条性质的样本称为简单随机样本. 获得简单随机样本的抽样方法称为简单随机抽样.
n
}∏
n i =1
h( xi )
' ' ' W ( θ ) T ( x ) h ( x) j j j =1
}
18
只要样本如何?(just sample?)
样本容量可能很大 无法从样本信息做直观的统计推断
数理统计
必须对样本进行加工!
数理统计课本 第五章 统计量及其分布
D (X
)
+
[E
(X
)]2,
E( X
2)
=
D( X
)
+ [E(X
)]2
=
1 n
D( X
)
+ [E(X
)]2
,
n
则 E[∑ ( X i i =1
−
X )2 ] =
n{D( X )
+ [E( X )]2} −
n{1 n
D(X )
+ [E( X )]2} = (n
− 1)D( X ) ,
4
故
E
(S
2)
=
i =1
对于连续型总体的情形,设总体 X 的密度函数为 p (x),故样本(X1, X2, …, X n)的联合密度函数为
n
p(x1, x2 ,", xn ) = p(x1 ) p(x2 )" p(xn ) = ∏ p(xi ) . i =1
例 设 X ~ e (λ ),求样本 (X1, X2, …, X n) 的联合密度函数.
得c
=
1 n
n
∑
i =1
Xi
=
X
,且
g ″(c)
=
2n
>
0,
3
n
n
故当 c = X 时, g(c) = ∑ ( X i − c)2 为最小值 ∑ ( X i − X )2 ;
i =1
i =1
(3)
E( X
)
=
E⎜⎜⎝⎛
1 n
n
∑
i =1
Xi
⎟⎟⎠⎞
=
1 n
n
∑
《概率论与数理统计》5-1 中心极限定理
例5. 为了测定一台机床的质量, 将其分解成若干个部件 来称量. 假定每个部件的称量误差(单位: kg )服从区 间 1,1 上的均匀分布, 且每个部件的称量是独立的, 试 问至多分成多少个部件才能以不低于99%的概率保证 机床的称量总误差的绝对值不超过10.
1.55 1.55
2 1.55 1 0.8788.
例3. 有一批钢材, 其中80%的长度不小于3m, 现从钢材 中随机取出100根, 试利用中心极限定理求小于3m的钢 不超过30根的概率. 解 以Yn 为100根钢材中小于3m的钢材根数, 由题意知:
1 E X p, D X p 1 p n
定理5.3 独立同分布情形下大数定律
设
X1 , X 2 ,
是一个独立同分布的随机变量序列. 且
P E X , D X 2 . 则 X
证明关键步骤:
1 2 E X , D X n
Yn
B 200,0.15 .
Y np N 30 0.95, P Yn N P n np 1 p 25.5 N 30 查表得: 1.645, 即: N 38.3068, 所以可取
25.5
N 39方能以95%的把握保证在该时刻分机可以使用外
在§1.3中, 我们曾经提到频率的稳定性. 设随机事件A的概率P(A)=p, 在n重贝努利试验中事件A 发生的频率为 f n A .当n很大时, 将与p非常接近. 由 于 f n A 本质上是一个随机变量,它随着不同的n次试 验可能取不同的值, 因而需要对随机变量序列引进新 的收敛性定义.
概率论数理统计基础知识第五章
C
]
(A)Y ~ 2 (n). (B)Y ~ 2 (n 1). (C)Y ~ F (n,1). (D)Y ~ F (1, n).
【例】设 随机变量X和Y都服从标准正态分布,则[ C ]
(A)X+Y服从正态分布.
2 2 2
(B)X2 +Y2服从 2分布. Y
2
2 X (C)X 和Y 都服从 分布. (D)
(X ) ~ t ( n 1) S n
客、考点 10,正态总体的抽样分布
33/33
34/33
35/33
【例】设总体 X ~ N (0,1),X 1 , X 2 , X1 X 2
2 2 X3 X4
, X n 是简单随机
2 X i. i 4 n
样本 , 试问下列统计量服从什么分布? (1 ) ; (2 ) n 1X1
记:F分布是两个卡方分布的商
2. F 分布的上侧分位数
设 F ~ F (k1 , k2 ) ,对于给定的 a (0,1) ,称满足条件
P{F Fa (k1 , k2 )}
Fa ( k1 ,k2 )
f F ( x)dx a
的数 Fa (k1 , k2 ) 为F 分布的上侧a 分位数。
服从F分布.
§5.5 正态总体统计量的分布
一、单个正态总体情形 总体
X ~ N ( , 2 ) ,样本 X1 , X 2 , , Xn ,
1 n 样本均值 X X i n i 1
n 1 2 样本方差 S 2 ( X X ) i n 1 i 1
1. 定理1 若设总体X~N(μ,σ2), 则统计量
有一约束条件
(X
i 1
概率论与数理统计总结之第五章
证明:
因为 ~ ,有
…
其中, … …相互独立,且都服从以p为参数的(0-1)分布,因而 … ,由定理一得
…
即
这个定理表明事件发生的频率的稳定性
定理三(辛钦定理)
设随机变量 … …相互独立,服从同一分布,且具有数学期望 … ,则对于任意正数ε,有
显然,伯努利大数定理是辛钦定理的特殊情况
中心极限定理
定理四(独立同分布的中心极限定理)
定理五(李雅普诺夫定理)
设随机变量 … …相互独立,它们具有数学期望和方差:
…,
记 ,
若存在正数δ,使得当 时,
则随机变量之和 的标准化变量:
的分布函数 对于任意x,满足
对其的解释为:
随机变量 ,
当n很大时,近似服从正态分布N(0,1),因此,当n很大时, 近似服从正态分布
这就是说,无论各个随机变量 服从什么分布,只要满足定理的条件,那么它们的和 当n很大时,就近似服从正态分布
第五章
大数定律
定理一(契比雪夫定理的特殊情况)
设随机变量 … …相互独立(是指对于任意n>1, … …是相互独立),且具有相同的数学期望和方差: … 。作前n个随机变量的算术平均
则对于任意正数ε,有
证明:
由于
,
由契比雪夫不等式可 … …是一个随机变量序列,a是一个常数。若对于任意正数ε,有
定理六(棣莫弗-拉普拉斯定理)
设随机变量 服从参数为n,p(0<p<1)的二项分布,则对于任意x,有
证明:
将 分解成为n个相互独立、服从同一(0-1)分布的诸随机变量 … 之和,即有
= ,
其中 的分布律为
由于 由定理四得
这个定理表明,正态分布是二项分布的极限分布,当n充分大时,我们可以利用定理六中的式子来计算二项分布的概率
概率论与数理统计 第五章
贝努里定理. 它的叙述如下:设是n次重复独立 对于任意给定的ε>0,有
lim P{| nA p | } 1
n
n
lim P{| nA p | } 1
n
n
其中nA/n是频率,p是概率,即次数多
时事件发生的频率收敛于概率.表示频率的稳定性.
定理3
lim P{|
n
1 n
n i 1
Xi
| } 1
数理统计的方法属于归纳法,由大量的资料作依据,而不
是从根据某种事实进行假设,按一定的逻辑推理得到的.例
如统计学家通过大量观察资料得出吸烟和肺癌有关,吸烟
者得肺癌的人比不吸烟的多好几倍.因此得到这个结论.
数理统计的应用范围很广泛.在政府部门要求有关的资
料给政府制定政策提供参考.由局部推断整体,学生的假期
第五章 大 数 定 律 与 中 心 极 限 定 律
§ 5.1大 数 定 律
定理1(切比雪夫定理) 设X1,X2,...,Xn,...是相互独立的随机变
量序列若存在常数C,使得D(Xi)≤C. (i=1,2,...n),则对任意给
定的ε>0,有
lim P{|
n
1 n
n i 1
[Xi
E( X i )] |
7200 6800 2
200 1
D 2
1
2100 2002
0.95
可见虽有10000盏灯,只要电力供应7200盏灯即有相当大的保 证率切贝谢夫不等式对这类问题的计算有较大价值,但它的精度 不高.为此我们研究下面的内容.
2021/9/5
10
§ 5.2 中 心 极 限 定 理
在随机变量的一切可能性的分布律中,正态分布占有特殊的
概率论与数理统计 第五章 大数定律与中心极限定理 第一节 大数定律
即n 取18750时,可以使得在n次独立重复 试验中, 事件A出现的频率在0.74~0.76之间的 概率至少为0.90 .
二、大数定律
在大量的随机现象中,随机事件的频率具有稳定性
例 如 , 在 n 重 贝 努 力 试 验 中 , P ( A ) p, 若 n 次 试 验 事 件 A 共 发 生 μ n次 , 则 μn n 即 为 事 件 A发 生 的 频 率 。
1
n
n
xi
依概率收敛于 即n充分大时, x
1
i 1
n
n
xi
i 1
在切比雪夫不等式中取 0.01 n,则
P (0.74
1
X
0.76)
1
= P{ |X-E(X)| <0.01n}
0.1875n
2
n D( X )
(0.01n)
2
1
1875 n
0.0001n
一、切贝谢夫不等式
依题意,取 1 解得
n 1875 n 1875 1 0.9 18750 0.9
大数定律与中心极限定理
第一节 大数定律
一、切贝谢夫不等式
一、切贝谢夫不等式
一、切贝谢夫不等式
一、切贝谢夫不等式
一、切贝谢夫不等式
练习 在每次试验中,事件A发生的概率为 0.75, 利用切比雪夫不等式求:n需要多么大时,才能使得 在n次独立重复试验中, 事件A出现的频率在0.74~0.76 之间的概率至少为0.90? 解:设X为n 次试验中,事件A出现的次数, 则 X~B(n, 0.75) E(X)=0.75n, 所求为满足 的最小的n .
D(X)=0.75*0.25n=0.1875n
概率论与数理统计05(1)
第五章 大数定理和中心极限定理1. 据以往经验, 某种电器元件的寿命服从均值为100小时的指数分布, 现在随机地取16只, 设它们的寿命是相互独立的, 求这16只元件寿命总和大于1920小时的概率. 解: 设第i 只寿命为X i (1≤i ≤16), 则 E (X i )=100,D (X i )=1002(l =1, 2, ⋅⋅⋅ , 16).由独立同分布的中心极限定理知随机变量 1004160010016161001612161⨯-=⨯⨯-=∑∑==i ii iX X Z近似服从正态分布N (0, 1), 于是)10041600192010041600()1920(16161⨯->⨯-=>∑∑==i ii i X P X P)8.04001600(16>-=∑=i iX P2119.07881.01)8.0(1=-=Φ-≈.2. 一部件包括10部分, 每部分的长度是一个随机变量, 它们相互独立且服从同一分布, 其数学期望为2mm , 均方差为0.05mm , 规定总长度为20±0.1mm 时产品合格, 试求产品合格的概率.解: 设X i 表示该部件第i 部分的长度(i =1, 2, ⋅⋅⋅ , 100), 由题意知E (X i )=2, D (X i )=0.052, X 1, X 2, ⋅⋅⋅, X n 独立同分布, 由中心极限定理知,∑=101i iX 近似服从N (10⨯2, 10⨯0.052)分布, 要求概率)1.209.19(101<<∑=i i X P .)1.209.19(101<<∑=i i X P)05.0102101.2005.01021005.0102109.19(101⨯⨯-<⨯⨯-<⨯⨯-=∑=i iX P)6325.005.0102106325.0(101<⨯⨯-<-=∑=i iX P1)6325.0(2)6325.0()6325.0(-Φ=-Φ-Φ≈ 4714.017325.02=-⨯≈.3. 计算器在进行加法时, 对每个加数舍入最靠近它的整数. 设所有舍入误差是独立的且在(-0.5, 0.5)上服从均匀分布.(1)若将1500个数相加, 问误差总和的绝对值超过15的概率是多少?(2)最多可有几个数相加使得误差总和的绝对值小于10的概率不小于0.90?解: (1)设取整误差为X i (i =1, 2, ⋅⋅⋅ , 1500), 它们都在(-0.5, 0.5)上服从均匀分布. 于是025.05.0)(=+-==p X E i ,12112)]5.0(5.0[)(2=--=i X D , 0)(=i X nE ,18.111251211500)(==⨯=i X nD ,)15|(|1)15|(|1500115001≤-=>∑∑==i i i i X P X P)1515(115001≤≤--=∑=i i X P)18.111518.1118.1115(115001≤≤--=∑=i iXP )]34.1()34.1([1-Φ-Φ-=1802.0]9099.01[2)]34.1(1[2=-⨯=Φ-=.(2)求使得90.0)10|(|1≥<∑=ni i X P 成立的n , 而)1210||12()10|(|11nnX P X P ni i ni i ⨯<=<∑∑==90.01)1210(2≥-⨯Φ≈n,即 95.0)320(≥⨯Φn,64.1320>⨯n,故 44664.134002≈⨯≤n .4. 设各零件的重量都是随机变量, 它们相互独立, 且服从相同的分布, 其数学期望为0.5kg , 均方差为0.1kg , 问5000只零件的总重量超过2510kg 的概率是多少?解: 设X i (i =1, 2, ⋅⋅⋅ , 5000)表示第i 个零件的重量, 则X 1, X 2, ⋅⋅⋅, X 5000独立同分布, 且E (X i )=0.5, D (X i )=0.12, 由独立同分布的中心极限定理知5025001.050005.0500050001250001-=⨯⨯-∑∑==i ii iX X近似服从正态分布N (0, 1). 于是)5025002510502500()2510(5000150001-≥-=>∑∑==i ii i X P X P0973.09207.01)2(1)5010(1=-=Φ-=Φ-≈.5. 有一批建筑房屋用的木柱, 其中80%的长度不小于3m , 现从这批木柱中随机地取出100根, 问其中至少有30根短于3m 的 概率是多少? 解: 设⎩⎨⎧=3m 03m1根木柱长度不小于若所取的第根木柱长度小于若所取的第i i X (i =1, 2, ⋅⋅⋅ 100),则X i ~b (1, 0.2). 记X =X 1+X 2+ ⋅⋅⋅ +X 100, 则X ~b (100, 0.2). 由德莫佛-普拉斯中心极限定理知 P (X ≥30)=1-P (X <30))8.02.01002.0100308.02.01002.0100(1⨯⨯⨯-≤⨯⨯⨯--=X P)5.28.02.01002.0100(1≤⨯⨯⨯--=X P0062.09938.01)5.2(1=-=Φ-=.6. 一食品厂有三种蛋糕出售, 由于售出哪一种蛋糕是随机的, 因而售出的一只蛋糕的价格是一个随机变量, 它取1(元), 1.2(元), 1.5(元)各个值的概率分别为0.3, 0.2, 0.5. 某天售出300只蛋糕: (1)求这天收敛入至少400元的概率; (2)求这天售出价格为1.2(元)的蛋糕多于60只的概率.解: (1)设X 表示售出一只蛋糕的价格, 则X 的可能取值为1, 1.2, 1.5, 且P (X =1)=0.3, P (X =1.2)=0.2, P (X =1.5)=0.5. 于是 E (X )=1⨯0.3+1.2⨯0.2+1.5⨯0.5=1.29, D (X )=E (X 2)-[E (X )]2=12⨯0.3+1.22⨯0.2+1.52⨯0.5-1.292=0.0489.设X i (i =1, 2, ⋅⋅⋅ , 300)是售出的第i 只蛋糕的价格, 则X 1, X 2, ⋅⋅⋅, X 300与X 同分布, 由林德贝格-列维中心极限定理得 )0489.030029.130********.030029.1300()400(30013001⨯⨯-≥⨯⨯-=≥∑∑==i ii i X P X P)394.3(1)0489.030029.1300400(1Φ==⨯⨯-Φ-==1-0.9997≈0.0003.(2)设N 1, N 2, N 3分别表示售出的蛋糕中1(元), 1.2(元), 1.5(元)蛋糕的只数, 则N 1+N 2+N 3=300; N i ~b (300, p i )(i =1, 2, 3),由德莫佛-普拉斯中心极限定理知))1(30030060)1(300300()60(22222222p p p p p p N P N P -⨯->-⨯-=>)8.02.03002.0300608.02.0300300(22⨯⨯⨯->⨯⨯⨯-=p N P 5.05.01)0(1=-=Φ-≈,故这天售出价格为1.2(元)的蛋糕多于60只的概率近似为0.5.7. (1)一复杂的系统由100个互相独立起作用的部件所组成, 在整个运行期间每个部件损坏的概率为0.10, 为了整个系统起作用, 至少有85个部件正常工作. 求整个系统工作的概率. (2)一个复杂的系统由n 个互相独立起作用的部件所组成,每个部件的可靠性(即部件正常工作的概率)为0.90. 且必须至少有80%部件工作才能使整个系统工作, 问n 至少为多大才能使系统的可靠性不低于0.95. 解: (1)设⎩⎨⎧=个部件损坏不工作第个部件正常工作第i i X i 01(i =1,2, ⋅⋅⋅ , 100),则X 1, X 2, ⋅⋅⋅, X 100独立同服从b (1, 0.9). 设X =X 1+X 2+ ⋅⋅⋅ +X 100, 则 X 表示系统中正常工作的部件数, X ~b (100, 0.9), 由德莫佛-普拉斯中心极限定理知)85(1)85()85.0100(<-=≥=≥X P X P X P)9.01.01009.0100859.01.01009.0100(1⨯⨯⨯-<⨯⨯⨯--=X P)9.01.01009.010085(1⨯⨯⨯-Φ-=9525.0)35()35(1=-Φ=-Φ-=.(2)要求n , 使95.0)8.0(≥≥nX P , 由德莫佛-普拉斯中心极限定理知)8.0(1)8.0()8.0(n X P n X P nX P <-=≥=≥)9.01.09.08.09.01.09.0(1⨯⨯-<⨯⨯--=n n n n n X P95.0)3(1≥-Φ-=n ,所以 64.13≥n ,n ≥9⨯1. 642=24.21,故当n 至少为25时才能使系统可靠性不低于0.95.8. 随机地取两组学生, 每组80人, 分别在两个实验室里测量某种化合物的PH 值, 各人测量的结果是随机变量, 它们相互独立, 且服从同一分布, 其数学期望为5, 方差为0.3, 以Y X ,分别表示第一组和第二组所得结果的算术平均. (1)求)1.59.4(<<X P ; (2)求)1.01.0(<-<-Y X P .解: (1)∑==n i i X n X 11, n =80, X 1, X 2, ⋅⋅⋅, X n 独立且与X 同分布, E (X i )=5, D (X i )=0.3(i =1, 2, ⋅⋅⋅, n ). 由林德贝格-列维中心极限定理知)803.051.5803.05803.059.4()1.59.4(-<-<-=<<X P X P)63.1803.0563.1()1.59.4(<-<-=<<=X P X P1)63.1(2)63.1()63.1(-Φ=-Φ-Φ= =2⨯0.9484-1=0. 8968. (2))1.01.0(<-<-Y X P)803.03.01.0803.03.0803.03.01.0(+<+-<+-=Y X P 1)155.1(2)155.1()155.1(-Φ=-Φ-Φ= =2×0.8749-1=0.7498.9. 某种电子器件的寿命(小时)具有数学期望μ(未知), 方差σ 2=400为了估计μ, 随机地取n 只这种器件, 在时刻t =0投入测试(设测试是相互独立的)直到失败, 测得其寿命X 1, ⋅⋅⋅ , X n ,以∑==n i i X n X 11作为μ的估计, 为使,95.0|)(|≥-μX P 问n 至少为多少?解: 由中心极限定理知, 当n 很大时 )1 ,0(~221N n n X n n n X ni iσμσμ-=-∑=, )((1|(|222σσμσμn n n n X n n n P X P <-<-=<- )()(22σσn n n n -Φ-Φ≈=95.01)20(2≥-Φn ,所以975.0)20(≥Φn , 查标准正态分布表知96.120≥n ,n ≥1536.64, 即n 至少取1537.。
数理统计第五章1
一元线性回归模型Linear Regression Models of one Variable两边求数学期望(Mathematical Expectation) :待估计未知参数:2,,σb a 5.1 一元线性回归Linear Regression of One Variable........ηεεη ,++=bx a ~),0(2σN (5.1)随机变量常系数可控变量随机误差未知参数二. 未知参数的估计Estimation of Unknown parameters1. 正规方程组、回归参数的估计最小二乘估计:aˆb ˆ令偏导数为零求最小值:0)1)](([2=-+-=∂∂∑i i bx a y aQ随a , b 而变偏差总量[]2)(),(∑+-=i i bx a y b a Q ),(min )ˆ,ˆ(b a Q b aQ =使0))](([2=-+-=∂∂∑i i i x bx a y bQ●●●),(11y x ),(i i y x l 1l 2●●●●●●三、线性回归效果的显著性检验经验回归方程:x b a yˆˆˆ+=Linear model:εη++=bx a 1. F -Test平方和分解公∑∑∑-+-=-222)ˆ( )ˆ( )(y y yy y yi i iRe T S S S +=总偏差平方和残差平方和回归平方和(随机平方和)Total variation Error sum of Regression sumThe significance test of efficiency of linear regressionTest:)linearity) no ((0:0无线性关系=b H (0:1≠b H Exists linearity)。
概率论与数理统计-第五章
【数理统计简史】
1. 近代统计学时期
18 世纪末到 19 世纪,是近代统计学时期.这一 时期的重大成就是大数定律和概率论被引入统计 学.之后最小二乘法、误差理论和正态分布理论 等相继成为统计学的重要内容.这一时期有两大 学派:数理统计学派和社会统计学派.
【数理统计简史】 数理统计学派始于19世纪中叶,代表人物是比 利时的凯特莱( A.Quetelet , 1796-1874 ),著有 《概率论书简》《社会物理学》等,他主张用研 究自然科学的方法研究社会现象,正式把概率论 引入统计学,并最先用大数定律证明了社会生活 中随机现象的规律性,提出了误差理论.凯特莱 的贡献,使统计学的发展进入个了一个新的阶 段.
i =1 36
1 2 2 3 2 2 2 2 D( X ) = E ( X ) − E ( X ) = ( 0 + 1 + 2 + 3 ) − 4 2 5 = 4
2
二、样本与抽样 由于X1,X2,...,X36均与总体X同分布,且相互独 立,所以,Y的均值和方差分别为
E (Y ) = E ( ∑ X i ) = 36 E ( X ) = 54,
【数理统计简史】 18世纪到 19世纪初期,高斯从描述天文观测的 误差而引进正态分布,并使用最小二乘法作为估 计方法,是近代数理统计学发展初期的重大事件, 对社会发展有很大的影响.
【数理统计简史】 用正态分布描述观测数据的应用是如此普遍,以 至 在 19 世 纪 相 当 长 的 时 期 内 , 包 括 高 尔 顿 ( Galton )在内的一些学者,认为这个分布可用 于描述几乎是一切常见的数据.直到现在,有关 正态分布的统计方法,仍占据着常用统计方法中 很重要的一部分.最小二乘法方面的工作,在 20 世纪初以来,经过一些学者的发展,如今成了数 理统计学中的主要方法.
概率论与数理统计第五章
lim P n
i n i 1 x n
n
x
1 2
e
t
2 2
dt ( x )
等价的描述:
当n很大时有如下结论:
定理1:独立同分布的中心极限定理的常用形式
1 , 2 n 独立同分布,且
n
X
i
i 1
这便是在n较大情况下反映出的客观规律,故称为“大数” 定律。 比推论1条件更宽的一个大数定律是辛钦 DX (Khintchine)大数定律,它不需要推论1条件中“方差 i 存在”的限制,而在其它条件不变的情况下,仍有(5-4) 式的结论。
人们已经知道,在自然界和生产实践中遇到大量随机变量 都服从或近似服从正态分布,正因如此,正态分布占有特 别重要的地位。那么,如何判断一个随机变量服从正态分 布显得尤为重要。如经过长期的观测,人们已经知道,很 多工程测量中产生的误差X都是服从正态分布的随机变量。 分析起来,造成误差的原因有仪器偏差X1、大气折射偏差 X2,温度变化偏差X3、估读误差造成的偏差X4等等,这些偏 差Xi 对总误差 X X 的影响都很微小,没有一个起到特别 突出的影响,虽然每个Xi的分布并不知道,但 X X i 却服 从正态分布。类似的例子不胜枚举。
n
i 1, 2 , , n .
则
nA X1 X 2 X n
nA n 1
X i.
i 1
n
n
X i , E ( X i ) p.
i 1
定理2 (贝努利大数定律)
设 n A为n 次独立试验中事件A发生的次数,p是A在 一次试验中发生的概率,则对任意ε (>0),恒有
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、估计方程 (回归方程)
(estimated regression equation)
ˆ 代替回归方程中的未 ˆ 和 b 1、用子样统计量 知参数 和 b ,就得到了估计的回归方程
n Q 2 ( yi b xi ) i 1 n Q 2 ( yi b xi ) xi n b i 1
Q 0 0 b ˆ ˆ ,b
ˆ x y ˆ +b n i i
n
正规方程
n n ˆ x y ˆ n + b i i i 1 i 1 n n n ˆ x2 x y ˆ xi + b i i i i 1 i 1 i 1
e i = y iyi ^
x
(2)公式:根据最小二乘法的要求,可得
ˆ 的公式如下 求解 ˆ和 b
回归直线方程
ˆx ˆ +b ˆ y
推导过程:令
ˆ 是 ˆ, b α ,b 的最小二乘估计
的最小值点。由于二次函数的极值点满足
Q
ˆ ˆ ,b
的
而
i 1 i 1 ˆ ˆ , b 满足正规方程 n 即 n n ˆ x2 x y ˆ xi + b i i i i 1 i 1 i 1
( x x )( y y ) r (x x) ( y y) n xy x y 或化简为 r n x x n y 之间线性相关程度的度量称为 复相关系数 ② 相关系数的意义 r 的取值范围是 [-1,1] 10 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 20 r = 0,不存在线性相关关系相关 30 -1r<0,为负相关 40 0<r1,为正相关 50 |r|越趋于1表示关系越密切;|r|越趋于0表 示关系越不密切
第五章 回归分析
§5.1 一元线性回归 §5.2 多元线性回归
§5.1 一元线性回归分析
一、相关关系及分析方法 (一) 相关关系 1、函数关系:设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当 变量 x 取某个数值时, y 依确定的关系取相 应的值,则称 y 是 x 的函数,记为 y = f (x), 其中 x 称为自变量,y 称为因变量。 注意:函数关系是一种确定性的关系。
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
(2)相关系数(测度变量之间的线性关系)
①相关系数定义:根据母体计算而得的相关 系数记为;根据子样数据计算而得的相关系 数记为 r 10 对两个变量之间线性相关程度的度量称为 简单相关系数,其计算公式为
例:
某种商品的销售额 (y) 与销售量 (x)之 间的关系可表示为 y = px (p 为单价) 圆的面积 (S) 与半径之间的关系可表 示为S=R2 企业的原材料消耗额 ( y) 与产量 ( x1) 、单位产量消耗 ( x2) 、原材料价格 (x3)之间的关系可表示为y = x1 x2 x3
负线性相关
不相关
正线性相关
【例】一家大型商业银行在多个地区设有分行, 其业务主要是进行基础设施建设、国家重点项目 建设、固定资产投资等项目的贷款。近年来,该 银行的贷款额平稳增长,但不良贷款额也有较大 比例的提高,这给银行业务的发展带来较大压力 。为弄清楚不良贷款形成的原因,希望利用银行 业务的有关数据做些定量分析,以便找出控制不 良贷款的办法。下面是该银行所属的25家分行 2002年的有关业务数据
* 一元线性回归中估计的回归方程为
ˆx ˆ +b ˆ y
ˆ是直线 ˆ 是估计的回归直线在 y 轴上的截距,b 其中: ˆ 是 y 的估 的斜率,它表示对于一个给定的 x 的值, y 计值,也表示 x 每变动一个单位时, y 的平均变动值
2、 回归方程的目的:用回归方程代替 y 与 x 的真实关系。
3. 根据显著性水平=0.05,查t分布表得 t(n-2)=2.0687,由于t=7.5344>t(23)=2.068 样本落入拒绝域,拒绝H0,可以认为不良贷款 与贷款余额之间存在着显著的正线性相关关系
各相关系数检验的统计量
比较 t(n-2)=2.0687
结论:?
2、回归分析:回归分析的概念:研究一个 变量(因变量)对另外一些变量(自变量) 的依存关系。 适用于因果相关 例如: 研究儿子身高y如何依赖于父母亲的身高x1 , x2,; 研究支出y如何依赖于收入x; 研究粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系
(二)相关关系分析方法 1、相关分析:研究变量之间的密切程度 (适用于所有相关关系)
(1)散点图(scatter diagram)
非线性相关
完全正线性相关
完全负线性相关
相关系数(意义)
完全负相关 无线性相关 完全正相关
-1.0
-0.5
0
+0.5
正相关程度增加
+1.0
r
负相关程度增加
例:不良贷款,各项贷款余额,累计应收贷款, 贷款项目个数,固定资产投资额之间的相关系数
(三) 相关关系的显著性检验(t 检验) 1、目的:检验两个变量之间是否存在线性相 关关系 相关 2、R.A.Fisher提出的 t 检验步骤 (1) 提出假设:H0: ;H1: 0 (2) 检验的统计量:
(1)一元回归模型:自变量个数 p=1 (2)线性回归模型: f(x1 , x2, … xp ) 为线性 形式,即 y = b + b x + b x + … + b x + e
1 1 2
p p
(3)一元线性回归模型 y = α + b x + e * 线性部分反映了由于 x 的变化而引起的 y 的 变化;* 误差项 e 是随机变量:反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响, 是不能由 x 和 y 之间的线性关系所解释的变异性
解出
记
可表示为
2、 σ2 的估计 (1)残差及残差平方和
n 2 n
ˆx -残差 ˆ b ˆi yi ei yi y i
五、一元线性回归分析 (一)模型估计 内容: (1)估计参数 α
2 b 及 σ ,
(2) 建立回归方程(估计方程)
ˆx ˆ +b ˆ y
1、 α ,b 的估计(最小二乘估计) (1)最小二乘估计:使因变量的观察值与估计 ˆ 的方 ˆ和 b 值之间的离差平方和最小者来求得 n n 2 2 法。即 ˆ ˆ ( y bx ) min ( y bx )
1、原模型: y 与 x1 , x2, … xp 的真实关系
y =f(x1 , x2, … xp ) + e * f(x1 , x2, … xp )反映了由于 x 的变化而引起的 y 的变化;* 误差项 e 是随机变量,反映了除 x 和 y 之间的关系之外的随机因素对 y 的影响, 是不能由 x 和 y 之间的关系所解释的变异性
?
回归一词是 怎么来的?
二、回归分析的概念 1、回归分析的概念:研究一个变量(因变量) 对另外一些变量(自变量)的依存关系。 2、回归分析的特点 (1)从一组子样数据出发,确定变量之间的关 系式(2)对这些关系式的可信程度进行各种统 计检验,并从影响某一特定变量的诸多变量中 找出哪些变量的影响显著,哪些不显著(3)利 用所求的关系式,根据一个或几个变量的取值 来预测或控制另一个特定变量的取值,并给出 这种预测或控制的精确程度
3、回归分析与相关分析的区别 (1)相关分析中,变量 x 变量 y 处于平等的地 位;回归分析中,变量 y 称为因变量,处在被解 释的地位,x 称为自变量,用于预测因变量的变 化(2)相关分析中所涉及的变量 x 和 y 都是随 机变量;回归分析中,因变量 y 是随机变量,自 变量 x 可以是非随机变量(3)相关分析主要是 描述两个变量之间线性关系的密切程度;回归分 析不仅可以揭示变量 x 对变量 y 的影响大小,还 可以由回归方程进行预测和控制
b0 , b1 , … ,bp为模型的参数
ˆ + bx 代替 y = α + b x + e * 建模目的:用 y
描述因变量 y 如何依赖于自变量 (2) 用于预测和控制
(1)
2、子样模型
或直接用 数据
y1 + bx1 + e1 y + bx + e 2 2 2 y n + b xn + e n
i 1
i
i
,b
i 1
i
i
用最小二乘法拟合的直线来代表 x与y之间的 关系与实际数据的误差比其他任何直线都小
最小二乘估计(图示)
y
( xn , yn ) ( x2 , y2 ) ( x1 , y1 )
ˆx ˆ +b ˆ y
}
( x i , y i)
n2 t r ~ t (n 2) 2 1 r
(3) 确定显著性水平 ,拒绝域为
J
| t | t
2