概率论与数理统计6
概率论与数理统计(06)第6章 统计量及其抽样分布
σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z
概率论与数理统计-第6章-第6讲-两个正态总体参数的置信区间
[0.3545 , 2.5545]
本讲内容
01 两个正态总体的情形 02 两个正态总体参数的置信区间 03 *6.2.3 单侧置信区间
03 *6.2.3 单侧置信区间
P(ˆ1 ˆ2 ) 1
[θˆ1, θˆ2 ] θ 的置信区间 双侧置信区间
但在某些实际问题中,例如,对于机器设备零部件来说,平均 寿命越长越好,我们关心的是平均寿命的“下限” ;又如,在购 买家具用品时,其中甲醛含量越小越好,我们关心的是甲醛含量均 值的“上限”.这就引出了单侧置信区间的概念.
2 1
2 2
2,
求均值差
1 2 的置信度为0.95 的置信区间;
02 两个正态总体参数的置信区间
解
(1) F0.025 (16, 12) 3.16,
F0.975 (16 ,
12)
1 F0.025 (12 ,
16)
1 2.89
由公式得方差比
2 1
2 2
的置信区间为
S12 S22
F0.975 (n2
12
2 2
n1 n2
P u U u 1,
2
2
( X Y uα 2
σ12 n1
σ
2 2
n2
,X
Y
uα
2
σ12 σ22 ) n1 n2
5
02 两个正态总体参数的置信区间
(2)
2 1
2 2
2
未知,1 2 的置信区间
T
X
Y Sw
(1
1 n1
2)
1 n2
~
t (n1
n2
2)
Sw
估什么?
1 2
2 1
概率论与数理统计-6
一、统计量
定义1 设X1, X2, …, Xn是总体X的样本,样本函数g(X1, X2, …, Xn)是样 本的实体函数,且不含有任何未知参数,则称这类样本函数g(X1, X2, …, Xn)为统计量。
由于样本具有二重性,统计量作为样本的函数也具有二重性,即对 一次具体的观测或试验,它们都是具体的数值,但当脱离开具体的某 次观测或试验,样本是随机变量,因此统计量也是随机变量。
n i 1
( xi
x )2
1n (
n 1 i1
xi2
nx 2 )
。
(3)样本标准差
S
S2
1 n 1
n i 1
(Xi
X
)2
它的观测值记为 s
s2
1 n 1
n i 1
( xi
x )2
。
(6-5)
(4)样本k阶原点矩
Ak
1 n
n i 1
X
k i
(k
1,2 ,3,
)
它的观测值记为 ak
解 将样本的观察值由小到大排列为 1 2 3 3 4 4 4 5 6 8
所以样本的频率分布如表所示
X
1
2
3
4
5
6
8
fn
0.1
0.1
0.2
0.3
0.1
0.1
0.1
例1 设总体服从泊松分布,容量为10的样本观察值如下:
214 3 5 6 4 8 4 3 试构造样本的分布函数F10(x)。
例1 设随机变量 X ~ (0 ,1) 分布,求D(X)。
解 因为 X ~ (0 ,1)
所以 又
E(X ) p E( X 2 ) 0 (1 p) 12 p p
概率论与数理统计第6讲
d
d −c f ( x) d x = . b−a
2. 指数分布 定义: 定义:若随机变量 X 具有概率密度
λ e , x ≥ 0 , f ( x) = 0, x < 0.
− λx
(λ > 0)
的分布是参数为 的指数分布, 则称 X的分布是参数为λ的指数分布,记成 的分布是 X ~E(λ)。 。 指数分布常用于可靠性统计研究中, 指数分布常用于可靠性统计研究中,如 元件的寿命服从指数分布。 元件的寿命服从指数分布。
∫
于是
1= ∫
+∞
+∞
−∞
f ( x) d x = 1
2
故
−∞
f ( x) d x = c ∫
0
x x d x =c 3
2
3 2 0
8c = 3
3 c= . 8
(2) P ( −1 < X < 1) = ∫ f ( x) d x
−1
1
= ∫ 0 d x + ∫ cx 2 d x
−1dx= . 0 8 8
(2). 确定数据分组数 m (一般取为 ~15), 一般取为7~ ), 组距 d = (b − a) / m, , 子区间端点 ti = a + i d, i = 0, 1, · · · , m; ;
(3). 计算落入各子区间内观测值频数 ni =| { xj ∈ [ti−1, ti), j = 1, 2, · · · , n}|, , 频率 fi = ni / n, i = 1, 2, · · · , m; , ;
取值于(x 表示随机变量 X 取值于 , x +△ x]上的概率 上的概率 近似等于 f (x ) △x 。 f (x ) △x 在连续型随机变量中所起的作用与 pk=P{X=xk} 在离散型随机变量中所起的作用 类似。 类似。
概率论与数理统计(叶慈南 刘锡平 科学出版社)第6章 数理统计的基本概念教程
3.样本k阶(原点)矩 Ak = 样本k阶中心矩
Bk =
1 n k ∑ X i 反映总体k阶矩E(Xk)的信息 n i =1 P E ( X k ) = k , k = 1, 2, L →
反映总体k
9
1 n P → ∑ ( X i X )k E {[ X E ( X )]k } = mk n i =1 k=1,2,…
1o
X ~ N ( ,
σ2 ) n
即
X ~ N (0,1) σ/ n
2o 3o
(n 1) S 2 ~ χ 2 ( n 1) σ2 X 与 S 2 相互独立 4o X ~ t ( n 1) S/ n
23
24
4
1o
X ~ N ( , X=
σ2 ) n
即
X ~ N ( 0, 1) σ/ n
4o
正态总体的抽样分布定理
例 设 X1,…,X10 是取自N(0,0.32)的样本,求
P{∑ X i > 1.44}
2 i =1 10
定理一,二,三
2 2 设 X 1 ,..., X n 是来总体 N ( , σ ) 的样本, X , S 分别为样
本均值和样本方差,则
例 设 X 1 , X 2 , L , X 15 是来自总体 N (0,1)的一个简单随 2 2 X 12 + X 2 + L + X 10 机样本, Y= 则 服从 分布. 2 2 2 2( X 11 + X 12 + L + X 15 )
4
个体:组成总体的元素(如:某一个灯泡的寿命)
每个可能的观察值
有限总体 无限总体 如:考察某大学大一2000名男生的身高 如:考察某大学大一2000名男生的身高 如:测量一湖泊任一地点的深度
概率论与数理统计第6节 随机事件的独立性和伯努利概型
目录 上页 下页 返回 结束
练习答案
3.解 (2)设每人射击 n次,Ai表示“甲第 i次击中目标”, Bi表示“乙第 i次击中目标”, i 1,2,.n,
目录 上页 下页 返回 结束
客人们不知布丰先生要干什么,只好客随主意, 一个个加入了试验的行列。一把小针扔完了,把 它捡起来又扔。而布丰先生本人则不停地在一旁 数着、记着,如此这般地忙碌了将近一个钟头。 最后,布丰先生高声宣布:“先生们,我这里记 录了诸位刚才的投针结果,共投针2212次,其 中与平行线相交的有704次。总数2212与相交数 704的比值为3.142。”说到这里,布丰先生故 意停了停,并对大家报以神秘的一笑,接着有意 提高声调说:“先生们,这就是圆周率π的近似 值!”
目录 上页 下页 返回 结束
d
d/2
目录 上页 下页 返回 结束
一、两个事件的独立性
定义1 设A, B是两个事件,且 P(B) 0,若 P(A B) P(A),
则称事件A与B相互独立。
根据条件概率公式,有:P(A B)=
P( AB) P(B)
如果A与B相互独立,有 P(A B) P(A),
结论若A1, A2 ,, An相互独立,则将这 n个事件中若干个 Ai换作对立事件,则所得 的n个事件仍然是独立事件 。
目录 上页 下页 返回 结束
二、多个事件的独立性
例2 三人独立地破译一份密码,已知各人能 译出的概率分别为1 ,1 ,1 ,求这密码能被破译的概率。
534
解1 设Ai 第i个人译出密码 ,i 1,2,3, B 密码能被破译 ,显然B A1 A2 A3, 于是有
概率论与数理统计-第六章
这200人的年龄数据。
总体:北京市民的年龄 随机变量:年龄X
个体:张三28岁;李四5岁;
样本:{ 28;5;14;56;23;2;39;…;69} 样本容量:200
抽样:随机抽取200人进行调查的过程
6
例2:为了确定工厂生产的电池电量分布情况,在
产品中随机抽取500个,测量其电量。记录了
x
0
F n1 , n2
F分布的分位数
x
F分布的上α分位点
对于给定的 , 0 1, 称满足条件
F n1 , n2
f x; n1 , n2 dx 的点F n1 , n2
为F n1 , n2 分布的上 分位数。F n1 , n2 的值可查F 分布表
17
不易计算!
18
抽样分布 —— 任意统计量 Q = g (X1, X2, …, Xn ) 的分布函数 抽样分布的计算: 多维随机变量(独立、同分布)的函数的分布 函数的计算问题。
得到统计量 Q 的抽样分布,就可以用来解决
关于总体 X 的统计推断问题。
19
关于随机变量独立性的两个定理
解:(1)作变换 Yi
显然Y1 , Y2 ,
2 n i 1
Xi
, Yn相互独立,且Yi N 0,1 i 1, 2,
Xi
i 1, 2,
,n
,n
于是 (
) Yi 2 2 n
2 i 1
28
n
(2)
2 ( X X ) X1 X 2 ~ N (0, 2 2 ), 1 2 2 ~ 2 (1) 2
概率论与数理统计第6章参数估计
设 x1, x2,…, xn 是来自总体 X 的一个样本,
我们用一个统计量 ˆ ˆ(x1,的,取xn值) 作为 的 估计值, 称为ˆ的点估计(量),简称估计。 在这里如何构造统计量 并没有明ˆ确的规定,
只要它满足一定的合理性即可。这就涉及到 两个问题:
k阶原点矩 k的无偏估计。但对中心矩则不一样, 譬如,由于 E(s *2 ) ,n 样1本2 方差s*2不是总体方差 2
的无偏估计,对此,有n 如下两点说明:
(1) 当样本量趋于无穷时,有E(s*2) 2,
我们称 s*2 为 2的渐近无偏估计。
(2)
若对s*2作如下修正:
s2
个无偏估计为1
2X ,2
n 1 n
Xn
,判别1与2哪个有效 n
2时?
解:Var
1
Var
2X
4 n
2
12
2
3n
由
f
n
x
nxBiblioteka n1 n 00 x
其它
E
X
2
n
0
nxn1
n
dx
n
n
2
2
于是Var
第六章 参数估计
§6.1 点估计的概念与无偏性 §6.2 矩估计及相合性 §6.3 最大似然估计与EM算法 §6.4 最小方差无偏估计 §6.5 贝叶斯估计 §6.6 区间估计
一般常用 表示参数,参数 所有可能取值
组成的集合称为参数空间,常用表示。参 数估计问题就是根据样本对上述各种未知参 数作出估计。
概率论与数理统计答案第六章
第六章 样本及抽样分布1.[一] 在总体N (52,6.32)中随机抽一容量为36的样本,求样本均值X 落在50.8到53.8之间的概率。
解:8293.0)78()712(}63.68.163.65263.62.1{}8.538.50{),363.6,52(~2=-Φ-Φ=<-<-=<<X P X P N X2.[二] 在总体N (12,4)中随机抽一容量为5的样本X 1,X 2,X 3,X 4,X 5. (1)求样本均值与总体平均值之差的绝对值大于1的概率。
(2)求概率P {max (X 1,X 2,X 3,X 4,X 5)>15}. (3)求概率P {min (X 1,X 2,X 3,X 4,X 5)>10}.解:(1)⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧>-=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧>-=>-25541225415412}112{|X P X P X P=2628.0)]25(1[2=Φ- (2)P {max (X 1,X 2,X 3,X 4,X 5)>15}=1-P {max (X 1,X 2,X 3,X 4,X 5)≤15} =.2923.0)]21215([1}15{1551=-Φ-=≤-∏=i i X P (3)P {min (X 1,X 2,X 3,X 4,X 5)<10}=1- P {min (X 1,X 2,X 3,X 4,X 5)≥10} =.5785.0)]1([1)]21210(1[1}10{15551=Φ-=-Φ--=≥-∏=i iXP 4.[四] 设X 1,X 2…,X 10为N (0,0.32)的一个样本,求}.44.1{1012>∑=i iXP解:)5(1.0}163.0{}44.1{),10(~3.0101221012221012查表=>=>∑∑∑===i i i i i i X P X P χX7.设X 1,X 2,…,X n 是来自泊松分布π (λ )的一个样本,X ,S 2分别为样本均值和样本方差,求E (X ), D (X ), E (S 2 ).解:由X ~π (λ )知E (X )= λ ,λ=)(X D∴E (X )=E (X )= λ, D (X )=.)()(,)(2λX D S E nλn X D === [六] 设总体X~b (1,p),X 1,X 2,…,X n 是来自X 的样本。
概率论与数理统计答案 (6)
习题六1.设总体X ~N (60,152),从总体X 中抽取一个容量为100的样本,求样本均值与总体均值之差的绝对值大于3的概率. 【解】μ=60,σ2=152,n =100~(0,1)Z N =即 60~(0,1)15/10X Z N -=(|60|3)(||30/15)1(||2)P X P Z P Z ->=>=-<2[1(2)]2(10.9772)0.0456.=-Φ=-=2.从正态总体N (4.2,52)中抽取容量为n 的样本,若要求其样本均值位于区间(2.2,6.2)内的概率不小于0.95,则样本容量n 至少取多大? 【解】~(0,1)Z N =(2.2 6.2)P X P Z <<=<<210.95,=Φ-=则,故即n >24.01,所以n 至少应取253.设某厂生产的灯泡的使用寿命X ~N (1000,σ2)(单位:小时),随机抽取一容量为9的样本,并测得样本均值及样本方差.但是由于工作上的失误,事后失去了此试验的结果,只记得样本方差为S 2=1002,试求P (X >1062). 【解】μ=1000,n =9,S 2=10021000~(8)100/3X t t -==10621000(1062)()( 1.86)0.05100/3P X P t P t ->=>=>=4.从一正态总体中抽取容量为10的样本,假定有2%的样本均值与总体均值之差的绝对值在4以上,求总体的标准差. 【解】~(0,1)Z N =,由P (|X -μ|>4)=0.02得P |Z |>4(σ/n )=0.02,故210.02⎡⎤-Φ=⎢⎥⎢⎥⎝⎭⎣⎦,即0.99.Φ=⎝⎭ 查表得2.33,=所以5.43.σ== 5.设总体X ~N (μ,16),X 1,X 2,…,X 10是来自总体X 的一个容量为10的简单随机样本,S 2为其样本方差,且P (S 2>a )=0.1,求a 之值.【解】2222299~(9),()0.1.1616S a P S a P χχχ⎛⎫=>=>= ⎪⎝⎭查表得914.684,16a= 所以 14.6841626.105.9a ⨯== 6.设总体X 服从标准正态分布,X 1,X 2,…,X n 是来自总体X 的一个简单随机样本,试问统计量Y =∑∑==-ni ii i XX n 62512)15(,n >5服从何种分布? 【解】2522222211~(5),~(5)i nii i i XX X n χχχ====-∑∑且12χ与22χ相互独立. 所以2122/5~(5,5)/5X Y F n X n =--7.求总体X ~N (20,3)的容量分别为10,15的两个独立随机样本平均值差的绝对值大于0.3的概率. 【解】令X 的容量为10的样本均值,Y 为容量为15的样本均值,则X ~N (20,310), Y ~N (20,315),且X 与Y 相互独立. 则33~0,(0,0.5),1015X Y N N ⎛⎫-+= ⎪⎝⎭那么~(0,1),Z N = 所以(||0.3)||2[1(0.424)]P X Y P Z Φ⎛->=>=- ⎝2(10.6628)0.6744.=-=8.设总体X ~N (0,σ2),X 1,…,X 10,…,X 15为总体的一个样本.则Y =()15121121022212X X X X X X ++++++ 服从 分布,参数为 . 【解】~(0,1),iX N σi =1,2, (15)那么122210152222111~(10),~(5)i i i i X X χχχχσσ==⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭∑∑且12χ与22χ相互独立,所以222110122211152/10~(10,5)2()/5X X X Y F X X X ++==++ 所以Y ~F 分布,参数为(10,5).9.设总体X ~N (μ1,σ2),总体Y ~N (μ2,σ2),X 1,X 2,…,1n X 和Y 1,Y 2,…,2n X 分别来自总体X 和Y 的简单随机样本,则⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡-+-+-∑∑==2)()(21121221n n Y Y X X E n j j n i i = . 【解】令 1222212111211(),(),11n n i i i j S X X S Y Y n n ===-=---∑∑ 则122222112211()(1),()(1),n n ij i j XX n S y y n S ==-=--=-∑∑又2222221122112222(1)(1)~(1),~(1),n S n S n n χχχχσσ--=-=-那么1222112222121212()()1()22n n i j i j X X Y Y E E n n n n σχσχ==⎡⎤-+-⎢⎥⎢⎥=+⎢⎥+-+-⎢⎥⎣⎦∑∑2221212221212[()()]2[(1)(1)]2E E n n n n n n σχχσσ=++-=-+-=+-10.设总体X ~N (μ,σ2),X 1,X 2,…,X 2n (n ≥2)是总体X 的一个样本,∑==ni i X n X 2121,令Y =∑=+-+ni i n iX X X12)2(,求EY .【解】令Z i =X i +X n +i , i =1,2,…,n .则Z i ~N (2μ,2σ2)(1≤i ≤n ),且Z 1,Z 2,…,Z n 相互独立.令 2211, ()/1,nni i i i Z Z S Z Z n n ====--∑∑则 21111,222nn i ii i X X Z Z nn =====∑∑ 故 2Z X = 那么22211(2)()(1),n ni n i i i i Y X X X Z Z n S +===+-=-=-∑∑所以22()(1)2(1).E Y n ES n σ=-=-11. 设总体X 的概率密度为f (x )=x-e 21 (-∞<x <+∞),X 1,X 2,…,X n 为总体X 的简单随机样本,其样本方差为S 2,求E (S 2).解: 由题意,得1e , 0,2()1e ,0,2xx x f x x -⎧<⎪⎪=⎨⎪≥⎪⎩于是 22222220()()()()1()()d e d 021()()d e d e d 2,2xxx E S D X E X E X E X xf x x x x E X x f x x x x x x +∞+∞--∞-∞+∞+∞+∞---∞-∞==-=======⎰⎰⎰⎰⎰所以2()2E S =.。
概率论与数理统计第6章
以分组区间为底,以
Yj
Wj X j1 X j
Wj 5
为高
作频率直方图
23
从频率直方图可看到:靠近两个极端的数据出现比 较少,而中间附近的数据比较多,即中间大两头小的分 布趋势,——随机变量分布状况的最粗略的信息。
在频率直方图中, 每个矩形面积恰好等于样本值 落在该矩形对应的分组区间内的频率,即
S j
Wj X j1
Xj
X j1 X j
Wj
频率直方图中的小矩形的面积近似地反映了样本数
据落在某个区间内的可能性大小,故它可近似描述X的
分布状况。
24
12
第二.计算样本特征数
1.反映集中趋势的特征数:样本均值、中位数、众数等 样本均值MEAN 中位数MEDIAN 众数
X 90.3
91
91, 94
代表性——即子样( X1, X2 ,
,
X
)的每个分量
n
X
与
i
总体 X 具有相同的概率分布。
独立性——即 X1, X2, , Xn 是相互独立的随机变量。
满足上述两点要求的子样称为简单随机子样.获得简 单随机子样的抽样方法叫简单随机抽样.
从简单随机子样的含义可知,样本 X1, X2 , , Xn 是来自总体 X、与总体 X具有相同分布的随机变量.
2分布 t 分布 数理统计的三大分布(都是连续型). F分布 它们都与正态分布有密切的联系.
在本章中特别要求掌握对正态分布、 2分布、 t分布、F分布的一些结论的熟练运用. 它们
是后面各章的基础.
31
一、 2分布
定义 设总体 X ~ N 0,1 , X1, X2,..., Xn 是 X
概率论与数理统计第6章
不含未知参数的样本的函数称为统计量 不含未知参数的样本的函数称为统计量. 统计量 2. 几个常见统计量
1 n 样本均值 X = ∑Xi n i=1
反映总体 均值的信息 反映总 体方差 的信息
1 n 2 2 样本方差 S = ∑( Xi − X) n −1 i=1
样本2阶中心矩 样本 阶中心矩
反映总体2 反映总体 阶 中心矩的信息
(
)
−
n1 +n2 2
x≥0
例1 设X、Y相互独立均服从正态分布 、 相互独立均服从正态分布 N(0,3), X1,X2,…,X9和Y1,Y2,…,Y9分别为来 的样本。 自X、Y的样本。求 、 的样本
U=
X1 + X 2 + L + X 9 Y +Y +L+Y
2 1 2 2
的分布。 的分布。
2 9
小样本问题中使用) 精确抽样分布(小样本问题中使用) 抽样分布 大样本问题中使用) 渐近分布 (大样本问题中使用
{
三. 统计三大分布
1 . χ 分布
2
定义: 相互独立, 定义 设 X1 , X2 ,L, Xn相互独立 都服从正态 分布N(0,1), 则称随机变量: 则称随机变量: 分布 2 2 2 2 χ = X 1 + X 2 + …+X n 所服从的分布为自由度为 n 的 χ 分布. 分布
3. F分布 分布 与 X ~ χ (n1),Y ~ χ (n2 ), X与Y X / n1 相互独立, 相互独立,则称统计量 F = Y / n2 定义: 定义 设
2 2
服从自由度为n 分布, 服从自由度为 1及 n2 的F分布,n1称为第 分布 一自由度, 称为第二自由度, 一自由度,n2称为第二自由度,记作 F~F(n1,n2) .
吴赣昌编-概率论与数理统计-第6章(new)
ˆ , ˆ ,, ˆ 从中解出 1 2 m
在例6.4中,
n xi n xi n i 1 i 1 xi ln n xi ln(1 ) ln L( ) ln (1 ) i 1 i 1
1 n 解得矩法估计量为 ˆ Xi X n i 1
注:1
n n n 1 1 1 2 2 1 2 2 2 X 2 X X X i i (Xi X ) (Xi 2Xi X X ) n n n i 1 i 1 i 1 n i 1 n i 1 n n
i 1 n
xi !
e
e
n
x!
i 1 i
n
x
i
n
x
i 1
1
n
i 1
i
0
n 1 ˆ xi n i 1
d2 1 n n (ln L ( )) x 0 2 2 i d i 1 x ˆx
ˆx 所以
ˆ X L
二、极大似然估计法(R.A.Fisher费歇)
先看一个简单例子: 某位同学与一位猎人一起 外出打猎 . 一只野兔从前方窜过 . 只听一声枪响,野兔应声倒下 . 如果要你推测, 是谁打中的呢? 你会如何想呢?
1、极大似然估计法的基本思想
由样本的具体取值,选择参数θ的估计量 ˆ 使得取该样本值发生的可能性最大。 一般说,事件A发生的概率与参数有关,取
n 2 i 2 i 1
n n n 1 ln L( , 2 ) ln 2 ln 2 ( xi 2 2 2 2 i 1 ln L( , 2 ) 1 n 2 ( xi ) 0 i 1 解得 2 n ln L ( , ) n 1 2 2 ( xi ) 0 2 4 2 2 i 1
概率论与数理统计第六章
Ch 6 数理统计的基本概念§6.1 基本概念 一、总体与样本1、总体——研究对象的全体,记为X 。
2、个体——构成总体的每一个对象,记为i X 。
3、总体容量——总体中包含的个体的个数。
有限总体——容量有限;无限总体——容量无限。
为推断总体X 的分布,从总体中抽取n 个个体,则对应n 个r.v.n X X X .....2,1——来自于总体X 的一个样本。
n X X X ......,21的取值((n x x x ,.....,21)--观测结果)称为样本的观测值,简称为样本值,整个抽取过程称之为抽样。
抽取的目的是根据样本的取值情况推断总体情况,因此应尽可能的使抽取的样本能反映总体的状况,故要求抽取的样本具有以下性质:文档收集自网络,仅用于个人学习⑴ 代表性:样本中每个r.v.i X 与总体X 具有相同的分布。
文档收集自网络,仅用于个人学习⑵ 独立性:n X X X ......,21相互独立。
——简单的随机抽样所得的样本称为简单的随机样本;若总体X 的分布函数为F (x ),则样本n X X X .....2,1的联合分布函数)().....,(121*i ni n x F x x x F =∏=。
文档收集自网络,仅用于个人学习若X 为连续型,且d.f 为f(x),且联合p.d.f 为:)()....,(121*i ni n x f x x x f =∏= 若X 为离散型,且分布律为:....2,1,)(===k p x X P k k 则联合分布律:in i i in n i i p p p x X x X x X P ....).....,(212211⋅⋅====。
...2,1.....3,2,1=in i i i 二、统计量Def:不含有任何未知数的关于样本空本空间的函数称为统计量。
e.g.1 设总体X~),(2σμN ,其中2,σμ未知,(n X X X .....2,1)为取自总体X 的一个样本,则:∑∑==--==n i i n i i X X n S X n X 1221)(11,1均为统计量。
概率论与数理统计 第6章
6.1 基本概念 6.2 抽样分布 习题 6
数理统计是具有广泛应用的一个数学分支,它以概率论 为基础,根据试验或观察得到的数据来研究随机现象,对研 究对象的客观规律性作出种种合理的估计和判断。数理统计 的内容包括:如何收集、整理数据资料;如何对所得的数据
资料进行分析、研究,从而对所研究的对象的性质、特点作
设总体 X 的分布律为 P ( X = x ) = p ( x ), X 1 , X
2
,…, X n为来自总体 X 的一个样本,则 X 1 , X 2 ,…, , X 2 ,…, X n)的联合分布律为
X n的分布律都是 P ( X i = x ) = p ( x ),从而 n 维随机变量(X
1
设总体 X 的概率密度为 f ( x ), X 1 , X 2 ,…, X n为 来自总体 X 的一个样本,则 X 1 , X 2 ,…, X n的概率密度 都是 f ( x ),从而 n 维随机变量(X 1 , X 2 ,…, X n)的联合 概率密度为
( n ) ,则称函数
为总体 X 的经验分布函数。
需要指出的是,若在 F n (x )的定义中将样本值换成对 应的样本,则当 n 固定时,它是一个随机变量,此时仍称之 为总体 X 的经验分布函数。所以用样本值定义的 F n (x )其 实是经验分布函数的观察值,在不致混淆的情况下统称为总 体 X 的经验分布函数。
出推断。数理统计的重要分支有统计推断、试验设计、多元 分析等,其具体方法甚多,应用相当广泛,已成为各学科从
事科学研究及生产、经济等部门进行有效工作的必不可少的
数学工具。
本章从数理统计的基本概念开始,讨论抽样分布及其重 要定理,这些抽样分布及其重要定理在概率论中尚未提到,
《概率论与数理统计》六
E( X ) xk pk . k 1
例1 设甲、乙两射手在同样条件下进行射击,其命中环数是一
随机变量,分别记为X、Y,并具有如下分布律
X 10 9 8 7
Y 10 9 8 7
Pk 0.6 0.1 0.2 0.1
Pk 0.4 0.3 0.1 0.2
试问甲、乙两射手的射击水平哪个较高?
解 100.6 90.180.2 70.1 100.4 90.3 80.1 70.2
i1 j1
2
E(Y )
yf ( x, y)dxdy dx
ydy
0
0
3
1
2(1 x )
1
E(XY )
xyf ( x, y)dxdy dx
xydy
0
0
6
三、数学期望的性质
假设以下随机变量的数学期望均存在. 1. E(C)=C, (C是常数) 2. E(CX)=CE(X), (C是常数) 3. E(X+Y)=E(X)+E(Y), 4. 设X与Y相互独立, 则 E(XY)=E(X)E(Y)
1
e
x
,
0,
x0 x0
( 0)
求将这5个元件串联组成的系统的平均寿命.
解
Xk的分布函数为
F
(
x)
1
e
x
,
0,
x0 x0
串联时系统寿命 N min( X1 , X2 , , X5 ) ,
其分布函数为 Fmin ( x) 1
[1
F(
x)]5
1
e
5x
,
0,
x 0, x 0.
fmin
2 X 3, 一台付款 2500 元; X 3, 一台付款3000元.
概率论与数理统计6.第六章:样本及抽样分布
),
,
,
,
是来
Z=
(
-
证明统计量 Z 服从自由度为 2 的 t 分布。
14
),
,
,
,
是来 , .ຫໍສະໝຸດ 自 总 体 X 的 样 本 , E( ) 则 ,D( )=
是来自总体 X ,D(X)= . ,
,D( )=
11
3. 设 , 本 ,E(X)=
, , 为来自总体 X 的样 ,D(X)=9, 为样本均值 , 试用 < ≥ ,
切比雪夫不等式估计 P{ P{ 4.设 , 则当 K= > ≤ , , . 是总体 X
lim f (t ) (t )
n
1 e 2
t2 2
, x
3.分位点 设 T~t(n), 若对 :0<<1,存在 t(n)>0,
4
满足 P{Tt(n)}=, 则称 t(n)为 t(n)的上侧分位点 注: t1 (n) t (n) 三、F—分布 1.构造 若 1 ~2(n1), 2~2(n2),1, 2 独立,则
y0
2. F—分布的分位点 对于 :0<<1,若存在 F(n1, n2)>0, 满足 P{FF(n1, n2)}=, 则称 F(n1, n2)
5
为 F(n1, n2)的上侧 分位点; 注: F1 (n1 , n2 )
1 F (n2 , n1 )
§ 6.3 正态总体的抽样分布定理
X Y /n ~ t ( n)
t(n)称为自由度为 n 的 t—分布。 t(n) 的概率密度为
n 1 ) 1 t 2 n2 2 f (t ) (1 ) , t n n n ( ) 2 (
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11
§5.1 聚类分析的方法
聚类分析的方法可分为以下几种: (1) 系统聚类法:开始每个对象自成一类,然 后每次将最相似的两类合并,合并后重新计算 新类与其他类的距离或相近性测度.这一过程 一直继续直到所有对象归为一类为止. 并类的 过程可用一张谱系聚类图描述. (2) 调优法(动态聚类法) ; (3) 最优分割法(有序样品聚类法) ; (4) 模糊聚类法 ; (5) 图论聚类法 ; (6) 聚类预报法 . 12
15
§5.2 距离与相似系数
定量变量和定性(属性ห้องสมุดไป่ตู้变量
根据变量取值的不同,变量可分为两大类: 定量变量和定性(属性)变量. 定量变量就是我们通常所说的连续变 量,例如长度、重量、产量、人口、温度 等,它们是由测量或计数、统计所得到的 量, 这类变量具有数值特征,称为定量变量.
16
定量变量和定性(属性)变量 定性(属性)变量只有性质上的差异,例如天气(阴、 晴),性别(男、女),产品质量分为 上 中 下三个等级. 这 些变量都是 属性(定性)变量. 属性变量又分为名义变量和有序变量二种: (1)有序变量:其值有明确的逻辑次序,但各个值之 间的距离并不清楚. (2) 名义变量:其值之间无逻辑次序,可按任何次序排 序编码.例如性别,职业,地区,…都是名义变量.
10
§5.1 聚类分析的方法
什么是聚类分析
聚类分析是实用多元统计分析的一个 新的分支,正处于发展阶段,理论上虽不很 完善,但由于它能够解决许多实际问题,因 此这个方法很受人们的重视,特别是和其 他方法联合起来使用往往效果更好. 例如对一批观测对象先用聚类分析进行 分类,然后用判别分析的方法建立判别准 则,用以对新的观测对象判别归类.
9
§5.1 聚类分析的方法
什么是聚类分析
分类的问题可以分成两种:
一种是对当前所研究的问题已知它的类别数目,且知 道各类的特征(如分布规律,或知道来自各类的训练样本 ),我们的目的是要将另一些未知类别的个体正确归属于 其中某一类,这是第五章判别分析所要解决的问题. 另一种是事先不知道研究的问题应分为几类,更不知 道观测到的个体的具体分类情况,我们的目的正是需要 通过对观测数据所进行的分析处理,选定一种度量个体 接近程度的量,确定分类数目,建立一种分类方法,并按 亲近程度对观测对象给出合理的分类.这种问题在实际 中大量存在,它正是聚类分析所要解决的问题.
应用多元统计分析
第五章 聚类分析
1
第五章
§5.1 §5.2 §5.3 §5.4
聚类分析
聚类分析的方法 距离与相似系数 系统聚类法 系统聚类法的性质及类的确定
§5.5 动态聚类法
补充:CLUSTER过程简介
2
§1 什么是聚类分析
例 对10位应聘者做智能检验。3项指标X,Y
和Z分别表示数学推理能力,空间想象能力和语
言理解能力。其得分如下,选择合适的统计方 法对应聘者进行分类。
应聘者 X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24
思考:样本点之间按什么刻画相似程度 思考:样本点和小类之间按什么刻画相似程度 思考:小类与小类之间按什么来刻画相似程度
8
§5.1 聚类分析的方法
什么是聚类分析
聚类分析又称群分析,它是研究对样品或 指标进行分类的一种多元统计方法. 所谓的“类”,通俗地说就是相似元素的 集合.聚类分析是按照观测样品(或变量)取值 的相似程度,对观测样品(或变量)进行分类, 使在同一类内的观测样品(或变量)是相似的, 不同类间的观测(或变量)是不相似的. 什么是分类?它只不过是将一个观测对象 指定到某一类(组).
本章重点介绍应用最广泛的系统聚类法;且主要 讨论Q型聚类分析问题.
14
§5.2 距离与相似系数
为了对观测样品(或变量)进行分类, 就必须研究它们之间的关系.描述样 品之间亲疏相似程度的统计量很多, 目前用得最多的是距离和相似系数, 这两个统计量的定义与变量的类型密 切相关,我们首先介绍变量的类型.
§5.1 聚类分析的方法
聚类分析的类型及目的
聚类分析根据分类对象的不同分为R型和Q型 两大类,R型是对变量(指标)进行分类处理,Q型是 对样品进行分类处理. R型聚类分析的目的有以下方面: ① 了解变量间及变量组合间的亲疏关系; ② 对变量进行分类; ③ 根据分类结果及它们之间的关系,在每一类 中选择有代表性的变量作为典型变量,利用少数 几个典型变量进一步作分析计算,如进行回归分 析或Q型聚类分析等. 13
§5.1 聚类分析的方法
Q型聚类分析的目的
Q型聚类分析的目的主要是对样品进行分类. 分类的结果是直观的,且比传统分类方法更细 致、全面、合理.当然使用不同的分类方法通 常会得到不同的分类结果.对任何观测数据都 没有唯一“正确的”的分类方法. 实际应用中,常采用不同的分类方法,对数据 进行分析计算,以便对分类提供意见,并由实际 工作者决定所需要的分类数及分类情况.
3
4
5
我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由 此可见一般,分类可能是合理的,欧氏距离很 大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相 似的测度指标,如何将有相似性的类连接起来?
6
聚类分析根据一批样品的许多观测指标, 按照一定的数学公式具体地计算一些样品或 一些参数(指标)的相似程度,把相似的样品 或指标归为一类,把不相似的归为一类。 例如对上市公司的经营业绩进行分类; 据经济信息和市场行情,客观地对不同商品、 不同用户及时地进行分类。又例如当我们对 企业的经济效益进行评价时,建立了一个由 多个指标组成的指标体系,由于信息的重叠, 一些指标之间存在很强的相关性,所以需要 将相似的指标聚为一类,从而达到简化指标 7 体系的目的。