第五章 数理统计的基本概念

合集下载

数理统计的概念

数理统计的概念

1900年重新提出。理论推导可得概率密度函数为
f
(x; n)
1
2n
2
(n
2)
n 1 x
x2 e 2
x0
0
x0
其中(x) ett x1dt ,x 0称为伽玛函数。
0
2. 2分布的性质
(1)设X1
~
2 (n1),X 2
~
2
(n2
)且X
1与X
相互独立,
2
则有X1+X 2 ~ 2 (n1 n2 ).
(2)设X =X1+X 2且已知X1与X 2相互独立,X ~ 2 (n) X1 ~ 2 (n1),则X 2 ~ 2(n n1).
(3)若X ~ 2(n),则X的数学期望
E( X ) n D( X ) 2n
(4)若X
~
2(n),则
X
n
n
~
N (0,1).
2n
(用中心极限定理证明)
其概率密度函数的图像如图所示
f (x1, x2,
, xn)
n
fXi
(xi )
n i1
e- xi
i1
0
min
1in
x1, x2,
其他
, xn 0
n
xi
en
i1
0
min
1in
x1, x2,
其他
, xn 0
二、统计量
➢ 样本(Statistic)
Def 设X1, X 2 , , X n是来自总体X的一个样本,
, 2 , p统称为总体特征数。显然,它们是由总体唯一
决定的常数。实践中,由于它们的值未知又称为参数。
样本与统计量

数理统计的基本概念

数理统计的基本概念

样本k阶原点矩 样本 阶原点矩 样本k阶中心矩 样本 阶中心矩
河南理工大学精品课程
1 Ak = n 1 Bk = n
∑ ∑
n
n
i =1
X ik ( k = 1, 2 , L )
i =1
( X i − X ) k ( k = 1, 2 , L )
概率论与数理统计
说明 (修正 样本方差还可表示为 修正)样本方差还可表示为 修正
n 1 S2 = [ ∑ X i2 − n X 2 ] n − 1 i =1
1 n 推导】 【推导】 S 2 = ( X i − X )2 ∑ n − 1 i =1 = = = =
河南理工大学精品课程
1 n ( X i2 − 2 X i X + X 2 ) ∑ n − 1 i =1 n n n 1 [ ∑ X i2 − 2 X ∑ X i + ∑ X 2 ] n − 1 i =1 i =1 i =1 n 1 [ ∑ X i2 − 2 n X 2 + n X 2 ] n − 1 i =1 n 1 [ ∑ X i2 −n X 2 ] n − 1 i =1
河南理工大学精品课程 概率论与数理统计
做法
从总体中随机地抽取若干个体(灯泡、 从总体中随机地抽取若干个体(灯泡、工大男
生),测试其所需数据(寿命、身高),最后对所得数据通过 ),测试其所需数据 寿命、身高), 测试其所需数据( ),最后对所得数据通过 整理加工和分析来推断总体(这批灯泡寿命、 整理加工和分析来推断总体(这批灯泡寿命、工大男生身 高)的分布情况,从而了解整体情况. 的分布情况,从而了解整体情况. 一般,我们所研究的总体的某项数量指标X 一般,我们所研究的总体的某项数量指标X是一个随 机变量,其取值在客观上有一定的分布.因此, 机变量,其取值在客观上有一定的分布.因此,对总体的研 究,就是对相应的随机变量X的研究。 就是对相应的随机变量X的研究。 今后,我们称X 今后,我们称X的分布函数和数字特征分别为总体的 分布函数和数字特征, 分布函数和数字特征,并不再区分总体与相应的随机变量 X.对总体的称呼 总体,总体X 总体F X.对总体的称呼:总体,总体X与总体F. 对总体的称呼:

概率论与数理统计(理工类_第四版)吴赣昌主编课后习题答案第五章

概率论与数理统计(理工类_第四版)吴赣昌主编课后习题答案第五章

第五章数理统计的基础知识5.1 数理统计的基本概念习题1已知总体X服从[0,λ]上的均匀分布(λ未知),X1,X2,⋯,Xn为X的样本,则().(A)1n∑i=1nXi-λ2是一个统计量;(B)1n∑i=1nXi-E(X)是一个统计量;(C)X1+X2是一个统计量;(D)1n∑i=1nXi2-D(X)是一个统计量.解答:应选(C).由统计量的定义:样本的任一不含总体分布未知参数的函数称为该样本的统计量.(A)(B)(D)中均含未知参数.习题2观察一个连续型随机变量,抽到100株“豫农一号”玉米的穗位(单位:cm),得到如下表中所列的数据. 按区间[70,80),[80,90),⋯,[150,160),将100个数据分成9个组,列出分组数据计表(包括频率和累积频率),并画出频率累积的直方图.解答:分组数据统计表解答:由X∼B(10,3100),得E(X)=10×3100=310,D(X)=10×3100×97100=2911000,所以E(X¯)=E(X)=310,E(S2)=n-1nD(X)=291(n-1)1000n.习题6设某商店100天销售电视机的情况有如下统计资料f(2)(x)=2F(x)f(x)={2λe-λx(1-e-λx),x>00,其它,又X(1)的概率密度为f(1)(x)=2[1-F(x)]f(x)={2λe-2λx,x>00,其它.习题9设电子元件的寿命时间X(单位:h)服从参数λ=0.0015的指数分布,今独立测试n=6元件,记录它们的失效时间,求:(1)没有元件在800h之前失效的概率;(2)没有元件最后超过3000h的概率.解答:(1)总体X的概率密度f(x)={(0.0015)e-0.0015x,x>00,其它,分布函数F(x)={1-e-0.0015x,x>00,其它,{没有元件在800h前失效}={最小顺序统计量X(1)>800},有P{X(1)>800}=[P{X>800}]6=[1-F(800)]6=exp(-0.0015×800×6)=exp(-7.2)≈0.000747.(2){没有元件最后超过3000h}={最大顺序统计量X(6)<3000}P{X(6)<3000}=[P{X<3000}]6=[F(3000)]6=[1-exp{-0.0015×3000}]6=[1-exp{-4.5}]6≈0.93517.习题10设总体X任意,期望为μ,方差为σ2,若至少要以95%的概率保证∣X¯-μ∣<0.1σ,问样本容量n应取多大?解答:因当n很大时,X¯-N(μ,σ2n),于是P{∣X¯-μ∣<0.1σ}=P{μ-0.1σ<X¯<μ+0.1σ}≈Φ(0.1σσ/n)-Φ(-0.1σσ/n)=2Φ(0.1n)-1≥0.95,则Φ(0.1n)≥0.975,查表得Φ(1.96)=0.975,因Φ(x)非减,故0.1n≥1.96,n≥384.16,故样本容量至少取385才能满足要求.5.2 常用统计分布习题1对于给定的正数a(0<a<1),设za,χa2(n),ta(n),Fa(n1,n2)分别是标准正态分布,χ2(n),t(n),F(n1,n2)分布的上a分位点,则下面的结论中不正确的是().(A)z1-a(n)=-za(n);(B)χ1-a2(n)=-χa2(n);(C)t1-a(n)=-ta(n);(D)F1-a(n1,n2)=1Fa(n2,n1).解答:应选(B).因为标准正态分布和t分布的密度函数图形都有是关于y轴对称的,而χ2分布的密度大于等于零,所以(A)和(C)是对的.(B)是错的. 对于F分布,若F∼F(n1,n2),则1-a=P{F>F1-a(n1,n2)}=P{1F<1F1-a(n1,n2)=1-P{1F>1F1-a(n1,n2)由于1F∼F(n2,n1),所以P{1F>1F1-a(n1,n2)=P{1F>Fa(n2,n1)=a,即F1-a(n1,n2)=1Fa(n2,n1). 故(D)也是对的.习题2(1)2.设总体X∼N(0,1),X1,X2,⋯,Xn为简单随机样本,问下列各统计量服从什么分布? (1)X1-X2X32+X42;解答:因为Xi∼N(0,1),i=1,2,⋯,n,所以:X1-X2∼N(0,2),X1-X22∼N(0,1),X32+X42∼χ2(2),故X1-X2X32+X42=(X1-X2)/2X32+X422∼t(2).习题2(2)2.设总体X∼N(0,1),X1,X2,⋯,Xn为简单随机样本,问下列各统计量服从什么分布? (2)n-1X1X22+X32+⋯+Xn2;解答:因为Xi∼N(0,1),∑i=2nXi2∼χ2(n-1),所以n-1X1X22+X32+⋯+Xn2=X1∑i=2nXi2/(n-1)∼t(n-1).习题2(3)2.设总体X∼N(0,1),X1,X2,⋯,Xn为简单随机样本,问下列各统计量服从什么分布?(3)(n3-1)∑i=13Xi2/∑i=4nXi2.解答:因为∑i=13Xi2∼χ2(3),∑i=4nXi2∼χ2(n-3),所以:(n3-1)∑i=13Xi2/∑i=4nXi2=∑i=13Xi2/3∑i=4nXi2/(n-3)∼F(3,n-3).习题3设X1,X2,X3,X4是取自正态总体X∼N(0,22)的简单随机样本,且Y=a(X1-2X2)2+b(3X3-4X4)2,则a=?,b=?时,统计量Y服从χ2分布,其自由度是多少?解答:解法一Y=[a(X1-2X2)]2+[b(3X3-4X4)]2,令Y1=a(X1-2X2),Y2=b(3X3-4X4),则Y=Y12+Y22,为使Y∼χ2(2),必有Y1∼N(0,1),Y2∼N(0,1),因而E(Y1)=0,D(Y1)=1,E(Y2)=0,D(Y2)=1,注意到D(X1)=D(X2)=D(X3)=D(X4)=4,由D(Y1)=D[a(X1-2X2)]=aD(X1-X2)=a(D(X1)+22D(X2))=a(4+4×4)=20a=1,D(Y2)=D[b(3X3-4X4)]=bD(3X3-4X4)=b(9D(X3)+16D(X4))=b(4×9+16×4)=100b=1,分别得a=120,b=1100.这时Y∼χ2(2),自由度为n=2.解法二因Xi∼N(0,22)且相互独立,知X1-2X2=X1+(-2)X2∼N(0,20),3X3-4X4=3X3+(-4)X4∼N(0,100),故X1-2X220∼N(0,1),3X3-4X4100∼N(0,1),为使Y=(X1-2X21/a)2+(3X3-4X41/b)2∼χ2(2),必有X1-2X21/a∼N(0,1),3X3-4X41/b∼N(0,1),与上面两个服从标准正态分布的随机变量比较即是1a=20,1b=100,即a=120,b=1100.习题4设随机变量X和Y相互独立且都服从正态分布N(0,32).X1,X2,⋯,X9和Y1,Y2,⋯,Y9是分别取自总体X和Y的简单随机样本,试证统计量T=X1+X2+⋯+X9Y12+Y22+⋯+Y92服从自由度为9的t分布.解答:首先将Xi,Yi分别除以3,使之化为标准正态.令X′i=Xi3,Y′i=Yi3,i=1,2,⋯,9,则X′i∼N(0,1),Y′i∼N(0,1);再令X′=X′1+X′2+⋯+X′9,则X′∼N(0,9),X′3∼N(0,1),Y′2=Y′12+Y′22+⋯+Y′92,Y′2∼χ2(9).因此T=X1+X2+⋯+X9Y12+Y22+⋯+Y92=X1′+X2′+⋯+X9′Y′12+Y′22+⋯+Y′92=X′Y′2=X′/3Y′2/9∼t(9),注意到X′,Y′2相互独立.习题5设总体X∼N(0,4),而X1,X2,⋯,X15为取自该总体的样本,问随机变量Y=X12+X22+⋯+X1022(X112+X122+⋯+X152)服从什么分布?参数为多少?解答:因为Xi2∼N(0,1),故Xi24∼χ2(1),i=1,2,⋯,15,而X1,X2,⋯,X15独立,故X12+X22+⋯+X1024∼χ2(10),X112+X122+⋯+X1524∼χ2(5),所以X12+X22+⋯+X1024/10X112+X122+⋯+X1524/5=X12+X22+⋯+X1022(X112+X122+⋯+X152)=Y习题6证明:若随机变量X服从F(n1,n2)的分布,则(1)Y=1X服从F(n2,n1)分布;(2)并由此证明F1-α(n1,n2)=1Fα(n2,n1).解答:(1)因随机变量X服从F(n1,n2),故可设X=U/n1V/n2,其中U服从χ2(n1),V服从χ2(n2),且U与V相互独立,设1X=V/n2U/n1,由F分布之定义知Y=1x=V/n2U/n1,服从F(n2,n1).(2)由上侧α分位数和定义知P{X≥F1-α(n1,n2)}=1-α,P{1X≤1F1-α(n1,n2)=1-α,即P{Y≤1F1-α(n1,n2)=1-α,1-P{Y>1F1-α(n1,n2)=1-α,故P{Y>1F1-α(n1,n2)=α,而P{Y≥Fα(n2,n1)}=α.又Y为连续型随机变量,故P{Y≥1F1-α(n1,n2)=α,从而Fα(n2,n1)=1F1-α(n1,n2),即F1-α(n1,n2)=1Fα(n2,n1).习题7查表求标准正态分布的上侧分位数:u0.4,u0.2,u0.1与u0.05.解答:u0.4=0.253,u0.2=0.8416,u0.1=1.28,u0.05=1.65.习题8查表求χ2分布的上侧分位数:χ0.952(5),χ0.052(5),χ0.992(10)与χ0.012(10).解答:1.145,11.071,2.558,23.209.习题9查表求F分布的上侧分位数:F0.95(4,6),F0.975(3,7)与F0.99(5,5).解答:0.1623,0.0684,0.0912.习题10查表求t分布的下侧分位数:t0.05(3),t0.01(5),t0.10(7)与t0.005(10).解答:2.353,3.365,1.415,3.169.(2)P{X¯>4.5}=P{Z>4.5-42/9=1-P{Z≤2.25}≈1-Φ(2.25)=1-0.9878=0.0122.习题2设总体X服从正态分布N(10,32),X1,X2,⋯,X6是它的一组样本,设X¯=16∑i=16Xi.(1)写出X¯所服从的分布;(2)求X¯>11的概率.解答:(1)X¯∼N(10,326),即X¯∼N(10,32).(2)P{X¯>11}=1-P{X¯≤11}=1-Φ(11-1032)≈1-Φ(0,8165)≈1-Φ(0.82)=0.2061.习题3设X1,X2,⋯,Xn是总体X的样本,X¯=1n∑i=1nXi,分别按总体服从下列指定分布求E(X¯),D(X¯).(1)X服从0-1分布b(1,p);(2)*X服从二项分布b(m,p);(3)X服从泊松分布P(λ);(4)X服从均匀分布U[a,b];(5)X服从指数分布e(λ).解答:(1)由题意,X的分布律为:P{X=k}=Pk(1-P)1-k(k=0,1).E(X)=p,D(X)=p(1-p).所以E(X¯)=E(1n∑i=1nXi)=1n∑i=1nE(Xi)=1n⋅np=p,D(X¯)=D(1n∑i=1nXi)=1n2∑i=1nD(X1)=1n2⋅np(1-p)=1np(1-p). (2)由题意,X的分布律为:P{X=k}=CmkPk(1-p)m-k(k=0,1,2,⋯,m).同(1)可得E(X¯)=mp,D(X¯)=1nmp(1-p).(3)由题意,X的分布律为:P{X=k}=λkk!e-λ(λ>0,k=0,1,2,⋯).E(X)=λ,D(X)=λ.同(1)可得E(X¯)=λ,D(X¯)=1nλ.(4)由E(X)=a+b2,D(X)=(b-a)212,同(1)可得E(X¯)=a+b2,D(X¯)=(b-a)212n.(5)由E(X)=1λ,D(X)=1λ2,同(1)可得D(X¯)=1λ,D(X¯)=1nλ2.习题4某厂生产的搅拌机平均寿命为5年,标准差为1年,假设这些搅拌机的寿命近似服从正态分布,求:(1)容量为9的随机样本平均寿命落在4.4年和5.2年之间的概率;(2)容量为9的随机样本平均寿命小于6年的概率。

数理统计的基本概念课件

数理统计的基本概念课件

离散程度
通过方差、标准差等指标 来描述数据的离散程度, 反映数据的变化程度。
数据的中位数、均值和众数
中位数
将数据按照大小顺序排列,处于 中间位置的数值即为中位数。中 位数可以反映数据的集中趋势和
离散程度。
均值
将所有数据相加后除以数据个数 ,得到的数值即为均值。均值可 以反映数据的集中趋势和离散程
度。
拟合优度
决定于所选择的非线性函数形式,常 用的有R²和SSPE(残差平方和)。
显著性检验
一般采用基于参数的假设检验和似然 比检验。
THANKS FOR WATCHING
感谢您的观看
05
假设检验
假设检验的基本思想
统计假设
假设检验的核心是对提出的问题(即假设)进行统计推断,先假设所要考察的 总体参数按某种规律或分布(即统计模型)分布,然后根据样本信息对原假设 进行检验。
假设检验的基本步骤
首先提出假设,然后收集样本数据,接着根据样本数据对原假设进行检验,最 后根据检验结果做出结论。
多元线性回归分析
• β0: 截距 • β1, β2, ...: 斜率
• ε: 误差项
多元线性回归分析
拟合优度
R²,表示模型解释因变量的方差的比例 。
VS
显著性检验
整体显著性检验(F检验)和单个变量的 显著性检验(t检验)。
非线性回归分析
定义
非线性回归分析是研究非线性关系的 统计方法。
模型
Y = f(X) (其中 f 是非线性函数)
• β0: 截距
一元线性回归分析
01
• β1: 斜率
02
• ε: 误差项
03
04
拟合优度:R²,表示模型解 释因变量的方差的比例。

数理统计基本概念

数理统计基本概念
2 ( n1 1) S12 ( n2 1) S2 n1 n2 2
1 1 n1 n2
~ t ( n1 n2 2)
定理 5 (两总体样本方差比的分布)
且X与Y独立, 设X ~ N ( 1, ), Y ~ N ( 2 , ), X1, X2,…, X n1是取自X的样本, Y1,Y2,…, Yn2 是
样本是联系二者的桥梁 总体分布决定了样本取值的概率规律, 也就是样本取到样本值的规律,因而可以由 样本值去推断总体.
二、统计量和抽样分布 1. 统计量 由样本值去推断总体情况,需要对样本 值进行“加工”,这就要构造一些样本的 函数,它把样本中所含的(某一方面)的 信息集中起来.
这种不含任何未知参数的样本的函数 称为统计量. 它是完全由样本决定的量.
2. 独立性: X1,X2,…,Xn是相互独立的随机 变量.
由简单随机抽样得到的样本称为简单 随机样本,它可以用与总体独立同分布的 n个相互独立的随机变量X1,X2,…,Xn表示.
若总体的分布函数为F(x),则其简单随机 样本的联合分布函数为 F(x1) F(x2) … F(xn) 简单随机样本是应用中最常见的情 形,今后,当说到“X1,X2,…,Xn是取自某 总体的样本”时,若不特别说明,就指简 单随机样本.
数理统计的基本概 念
一、总体和样本
1.总体
一个统计问题总有它明确的研究对象.
研究对象的全体称为总体(母体), 总体中每个成员称为个体.
总体

研究某批灯泡的质量
然而在统计研究中,人们关心总体仅仅 是关心其每个个体的一项(或几项)数量指标 和该数量指标在总体中的分布情况. 这时, 每个个体具有的数量指标的全体就是总体.
统计中,总体这个概念 的要旨是:总体就是一个 概率分布.

数理统计的基本概念

数理统计的基本概念

证明:设F~F(n1,n2),则
P{F F1 (n1 , n2 )} 1
1 1 P{ } 1 F F1 (n1 , n2 ) 1 1 P{ } F F1 (n1 , n2 )
得证!
1 P{ F (n2 , n1 )} F
5.1.4 统计量及抽样分布
2. F分布的分位点 对于:0<<1,
若存在F(n1, n2)>0,
满足
P{FF(n1, n2)}=, 则
称F(n1, n2)为 F(n1, n2)的 上侧分位点;
F (n1 , n2 )
注:
1 F1 (n1 , n2 ) F (n2 , n1 )
1 ~ F ( n2 , n1 ) F
列出其频数频率分布表。
组序 分组区间 组中值 1 (147,157] 152 2 (157,167] 162 3 (167,177] 172 4 (177,187] 182 5 (187,197] 192 合计
频数 4 8 5 2 1 20
频率 累计频率(%) 0.20 20 0.40 60 0.25 85 0.10 95 0.05 100 1
1、设X 1 , X 2 ,
, X n (n 2)为来自总体N (0,1)的简单随机样本, (n 1) X 12
2 X i i 2 n
X 为样本均值,S 2为样本方差,则统计量

从 __________ 分布。 (05—06二)
2、设 X 1 , X 2 , X 3是来自正态分布 N (0, 2 )总 体的简单随机样本,则 统计量 2 服从 ________ 分布。(05—06三) X1 X X
3.总体、样本、样本观察值的关系 总体

《概率论与数理统计》教案

《概率论与数理统计》教案

《概率论与数理统计》教案第一章:概率论的基本概念1.1 随机现象与样本空间1.2 事件及其运算1.3 概率的定义与性质1.4 条件概率与独立性第二章:随机变量及其分布2.1 随机变量的概念2.2 离散型随机变量的概率分布2.3 连续型随机变量的概率密度2.4 随机变量函数的分布第三章:多维随机变量及其分布3.1 二维随机变量的联合分布3.2 边缘分布与条件分布3.3 随机变量的独立性3.4 多维随机变量函数的分布第四章:大数定律与中心极限定理4.1 大数定律4.2 中心极限定理4.3 样本均值的分布4.4 样本方差的估计第五章:数理统计的基本概念5.1 统计量与抽样分布5.2 参数估计与点估计5.3 置信区间与置信水平5.4 假设检验与p值第六章:参数估计6.1 总体参数与样本参数6.2 估计量的性质6.3 最大似然估计6.4 点估计与区间估计第七章:假设检验7.1 假设检验的基本概念7.2 检验的错误与功效7.3 常用检验方法7.4 似然比检验与正态分布检验第八章:回归分析8.1 线性回归模型8.2 回归参数的估计8.3 回归模型的检验与诊断8.4 多元线性回归分析第九章:方差分析9.1 方差分析的基本概念9.2 单因素方差分析9.3 多因素方差分析9.4 协方差分析与重复测量方差分析第十章:时间序列分析10.1 时间序列的基本概念10.2 平稳性检验与时间序列模型10.3 自回归模型与移动平均模型10.4 指数平滑模型与状态空间模型第十一章:非参数统计11.1 非参数统计的基本概念11.2 非参数检验方法11.3 非参数回归分析11.4 非参数时间序列分析第十二章:生存分析12.1 生存分析的基本概念12.2 生存函数与生存曲线12.3 生存分析的统计方法12.4 生存分析的应用实例第十三章:贝叶斯统计13.1 贝叶斯统计的基本原理13.2 贝叶斯参数估计13.3 贝叶斯假设检验13.4 贝叶斯回归分析第十四章:多变量分析14.1 多变量数据分析的基本概念14.2 多元散点图与主成分分析14.3 因子分析与聚类分析14.4 判别分析与典型相关分析第十五章:统计软件与应用15.1 统计软件的基本使用方法15.2 R语言与Python在统计分析中的应用15.3 统计软件的实际操作案例15.4 统计分析在实际领域的应用重点和难点解析本《概率论与数理统计》教案涵盖了概率论的基本概念、随机变量及其分布、多维随机变量、大数定律与中心极限定理、数理统计的基本概念、参数估计、假设检验、回归分析、方差分析、时间序列分析、非参数统计、生存分析、贝叶斯统计、多变量分析以及统计软件与应用等多个方面。

第五章数理统计的基础知识

第五章数理统计的基础知识

第五章数理统计的基础知识在前四章的概率论部分中,我们讨论了概率论的基本概念、思想和方法。

知道随机变量的统计规律性是通过随机变量的概率分布来全面描述的。

在概率论的许多问题中,概率分布通常是已知的或假设为已知的,在这一前提下我们去研究它的性质、特点和规律性,即讨论我们关心的某些概率、数字特征的计算以及对某些问题的判断、推理等。

但在许多实际问题中,所涉及到的某个随机变量服从什么分布我们可能完全不知道,或有时我们能够根据某些事实推断出分布的类型,但却不知道其分布函数中的某些参数。

例如:1、某种电子元件的寿命服从什么分布是完全不知道的。

2、检测一批灯泡是否合格,则每个灯泡可能合格,也可能不合格,则服从(0—1)分布,但其中的参数p 未知。

对这类问题要深入研究,就必须知道与之相应的分布或分布中的参数.数理统计要解决的首要问题就是:确定一个随机变量的分布或分布中的参数.数理统计学是研究随机现象规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,并对所考察的问题作出推理和预测,直至为采取某种决策提供依据和建议。

数理统计研究的内容非常广泛,可分为两大类:一是:怎样有效地收集、整理有限的数据资料.二是:怎样对所得的数据资料进行分析和研究,从而对所考察对象的某些性质作出尽可能精确可靠的判断—本书中参数估计和假设检验。

第一节数理统计的基本概念一、总体与总体的分布在数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。

总体中所包含的个体的个数称为总体的容量. 容量为有限的总体称为有限总体;容量为无限的总体称为无限总体. 总体和个体之间的关系就是集合与元素之间的关系。

在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为X .例如:研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体.但在实际问题中,我们仅仅关心灯泡的使用寿命(记X 表示该批灯泡的寿命)。

《概率论与数理统计》第5章 统计量及其分布

《概率论与数理统计》第5章 统计量及其分布
对有限总体,只要总体所含个体数很大,特别 是与样本量相比很大,则独立性也可基本得到 满足。
23 April 2012
第五章 统计量及其分布
第13页
例5.1.4 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则
23 April 2012
第五章 统计量及其分布
第9页
表5.1.2 100只元件的寿命数据
寿命范围 ( 0 24] (24 48] (48 72] (72 96] (96 120] (120 144] (144 168] (168 192]
元件数 4 8 6 5 3 4 5 4
寿命范围 (192 216] (216 240] (240 264] (264 288] (288 312] (312 336] (336 360] (360 184]
简单起见,无论是样本还是其观测值,样本一般 均用 x1, x2,… xn 表示,应能从上下文中加以区别。
23 April 2012
第五章 统计量及其分布
第7页
例5.1.2 啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果:
其算术平方根也称为样本标准差。
23 April 2012
第五章 统计量及其分布
第26页
在这个定义中, ( xi x )2 称为偏差平方和, n1称为偏差平方和的自由度。其含义是:
在 x 确定后, n 个偏差 x1x, x2x, …, xnx 中
只有n1个数据可以自由变动,而第n个则不 能自由取值,因为 (xi x ) = 0 .

概率论数理统计基础知识第五章

概率论数理统计基础知识第五章

C
]
(A)Y ~ 2 (n). (B)Y ~ 2 (n 1). (C)Y ~ F (n,1). (D)Y ~ F (1, n).
【例】设 随机变量X和Y都服从标准正态分布,则[ C ]
(A)X+Y服从正态分布.
2 2 2
(B)X2 +Y2服从 2分布. Y
2
2 X (C)X 和Y 都服从 分布. (D)
(X ) ~ t ( n 1) S n
客、考点 10,正态总体的抽样分布
33/33
34/33
35/33
【例】设总体 X ~ N (0,1),X 1 , X 2 , X1 X 2
2 2 X3 X4
, X n 是简单随机
2 X i. i 4 n
样本 , 试问下列统计量服从什么分布? (1 ) ; (2 ) n 1X1
记:F分布是两个卡方分布的商
2. F 分布的上侧分位数
设 F ~ F (k1 , k2 ) ,对于给定的 a (0,1) ,称满足条件
P{F Fa (k1 , k2 )}

Fa ( k1 ,k2 )
f F ( x)dx a
的数 Fa (k1 , k2 ) 为F 分布的上侧a 分位数。
服从F分布.
§5.5 正态总体统计量的分布
一、单个正态总体情形 总体
X ~ N ( , 2 ) ,样本 X1 , X 2 , , Xn ,
1 n 样本均值 X X i n i 1
n 1 2 样本方差 S 2 ( X X ) i n 1 i 1
1. 定理1 若设总体X~N(μ,σ2), 则统计量
有一约束条件
(X
i 1

《概率论与数理统计》习题第五章数理统计的基本概念

《概率论与数理统计》习题第五章数理统计的基本概念

第五章 数理统计的基本概念一. 填空题1. 设X 1, X 2, …, X n 为来自总体N(0, 2), 且随机变量)1(~)(221χ∑==ni iX C Y , 则常数C=___.解.∑=ni iX1~ N(0, n 2),)1,0(~1N n Xni iσ∑=所以21,1σσn c n c ==.2. 设X 1, X 2, X 3, X 4来自正态总体N(0, 22)的样本, 且243221)43()2(X X b X X a Y -+-=,则a = ______, b = ______时, Y 服从2分布, 自由度为______. 解. X 1-2X 2~N(0, 20), 3X 3-4X 4~N(0, 100))1,0(~20221N X X -, )1,0(~1004343N X X -201,201==a a ; 1001,1001==b b . Y 为自由度2的2分布.3. 设X 1, X 2, …, X n 来自总体2(n)的分布,则._____)(______,)(==X D X E解. 因为X 1, X 2, …, X n 来自总体2(n), 所以E(X i ) = n, D(X i ) = 2n (i = 1, 2, …, n),)(n X E = 22)()(221=⋅==∑=nnn nX D X D ni i二. 单项选择题1. 设X 1, X 2, …, X n 为来自总体N(0, 2)的样本, 则样本二阶原点矩∑==n i i X n A 1221的方差为 (A)2 (B) n 2σ (C) n 42σ (D) n4σ 解. X 1, X 2, …, X n 来自总体N(0, 2), 所以,1)(),1(~)(222=σχσiiX E X 2)(2=σiX Dnn nnX D nX D A D ni ini i4242214212222))(()()(σσσσ=⋅===∑∑==. (C)是答案.2. 设X 1, X 2为来自正态总体N(,2)的样本, 则X 1 + X 2与X 1-X 2必 (A) 线性相关 (B) 不相关 (C) 相关但非线性相关 (D) 不独立 解. 假设 Y 1 = X 1 + X 2, Y 2 = X 1-X 2 所以 E(Y 2) = E(X 1)-E(X 2) = 0.cov(Y 1, Y 2) = E(Y 1Y 2)-E(Y 1)E(Y 2) = E(0)()()22212221=-=-X E X E X X . (B)是答案.3. 设X 服从正态分布N(0, 22), 而X 1, X 2, …, X 15为来自总体X 的简单随机样本, 则随机变量)(221521121021X X X X Y ++=所服从的分布为 (A) 2(15) (B) t(14) (C) F(10, 5) (D) F(1, 1)解.)10(~4221021χX X +, )5(~42215211χX X + 所以 )5,10(~204021521121021F X X X X ++++ , 即 )5,10(~)(221521121021F X X X X Y ++= (C)是答案.三. 计算题1. 设X 1, X 2, …, X 102)的一个样本, 求∑=>1012)44.1(i iXP .解. 因为X 1, X 2, …, X 102)的一个样本, 所以)10(~3.0101222∑=i i X χ ()44.1(1012P X P i i=>∑=1.0)16)10(()09.044.13.0101222=>=>∑=i i P X χ 2. 从一正态总体中抽取容量为10的一个样本, 若有2的样本均值与总体均值之差的绝对值在4以上, 试求总体的标准差. 解. 因为总体X 服从N(,2),所以)1,0(~10/N X σμ-. 由02.0)4|(|=>-μX P 知 02.0)104|10/(|=>-σσμX P即 99.0)104(,01.0)104(=Φ=-Φσσ查表得.43.533.2104,33.2104===σσ3. 设总体X ~N(72, 100), 为使样本均值大于70的概率不小于0.95 , 问样本容量至少应取多大?解. 假设样本容量为n, 则)1,0(~1072),100,72(~N nX nN X -由 95.0)70(≥>X P 得P(n X 1072->95.0)107270≥-n 所以 0625.68,65.15,95.0)5(≥≥≤Φn nn.4. 设总体X 服从N(, 4), 样本(X 1, X 2, …, X n )来自X, X 为样本均值. 问样本容量至少应取多大才能使i. 1.0)|(|2≤-μX E ii. 95.0)1.0|(|2≥≤-μX P解. i. 1.04)(1)()|(|2≤===-nX D n X D X E μ 所以 n ≥ 40. ii. )1,0(~2),4,(~N nX nN X μμ-. 所以 P X P =≤-)1.0|(|μ(95.0)21.0|2|≥≤-nnX μ975.0)201(≥Φn , 查表得 ,96.1201≥n n ≥ 1537 5. 设∑==ni i X n X 11, 证明:i.∑=-ni iX12)(μ=∑=---ni i X n X X 122)()(μ;ii.∑∑==-=-ni ni i iX n X X X12122)()(.解. i.=-∑=ni iX12)(μ∑=-+-ni iX X X12)(μ=2)(12+-∑=ni iX X∑=+--ni i X X X 1))((μ∑=-ni X 12)(μ=2)(12+-∑=ni iX X∑=+--ni i X n X X 1))((μ2)(μ-X n=∑=---ni iX n X X122)()(μii.=-∑=ni i X X 12)(21121222)2(X n X X X X X X X ni i ni ini i i+-=+-∑∑∑====22122X n X n Xni i+-∑==212)(X n X ni i ∑=-上海第二工业大学《概率论与数理统计》复习题一、填空题1. 已知()()P A B P A =,则A B 与的关系是 独立 。

课程释疑5 第五章 数理统计基本概念

课程释疑5  第五章 数理统计基本概念
ቤተ መጻሕፍቲ ባይዱ
三大分布的作用是什么? 问6.3 三大分布的作用是什么? 分布, 分布, 分布都是从正态总体中衍生出 答:χ 2分布,t分布,F分布都是从正态总体中衍生出 来的, 来的 , 几种常用的统计量的分布都与这三大分布有关 , 所以这三大分布在正态总体的统计推断中起着重要 的作用。 的作用。
a) 问题中涉及的研究对象为数很大,只能抽取部分 ) 问题中涉及的研究对象为数很大, 样品加以研究, 如测定10000支灯管的寿命 , 只能抽取 支灯管的寿命, 样品加以研究 , 如测定 支灯管的寿命 其中100支进行测试( 测试结束 ,这100支灯管就失去了 支进行测试(测试结束, 其中 支进行测试 支灯管就失去了 使用价值) 而这100支灯管的抽取是带随机性的。 支灯管的抽取是带随机性的。 使用价值),而这 支灯管的抽取是带随机性的 b) 数据的随机性来源于测量误差或者试验的随机误 ) 如考察产品的质量,温度和压力是重要因素。 差,如考察产品的质量,温度和压力是重要因素。但当 温度和压力取为定值时, 温度和压力取为定值时,质量仍因大量其他因素的影响 如原材料的差异, ,如原材料的差异,使用的设备和操作人员的经验差异 等而有一定的波动,试验结果仍包含有随机误差。 等而有一定的波动,试验结果仍包含有随机误差。
3) “ 有效地使用随机数据 ” 的含义即将抽得的随机数 ) 有效地使用随机数据” 据用有效的方式去集中,提取与研究问题有关的信息, 据用有效的方式去集中,提取与研究问题有关的信息,
并利用它对提出问题作出一定的结论,这种结论称为“ 并利用它对提出问题作出一定的结论 这种结论称为“ 这种结论称为 统计推断” 但统计推断并不是绝对精确和可靠的, 统计推断 ” 。 但统计推断并不是绝对精确和可靠的 , 这正是数据随机化带来的影响,然而推断应尽可能的 这正是数据随机化带来的影响, 可靠” 本教材中讨论的“点估计, “ 可靠 ” 。 本教材中讨论的 “ 点估计 , 区间估计和假 设检验”正是统计推断中的重要内容。显著性水平, 设检验 ” 正是统计推断中的重要内容 。 显著性水平 , 置信水平等相应的概率大小正反映这些统计推断方法 可靠性”的大小。 统计推断” 的 “ 可靠性 ” 的大小 。 “ 统计推断 ” 中有许多统计方 法来源于实践中产生的“统计思想”, 如 “ 极大似然 法来源于实践中产生的“ 统计思想” 矩法” 它有一定的合理性,但又不是“ 法 ” , “ 矩法 ” 等 , 它有一定的合理性 , 但又不是 “ 绝对精确” 绝对精确”。

数理统计的基本概念

数理统计的基本概念

数理统计的基本概念
1. 总体和样本:总体是研究对象的全体,样本是从总体中选取的一部分。

2. 参数和统计量:参数是总体的性质,统计量是样本的函数,用来估计总体的参数。

3. 随机变量和概率分布:随机变量是取值不确定的变量,概率分布是描述随机变量取值可能性的函数。

4. 分布特征:包括均值、方差、标准差、偏度和峰度等。

5. 假设检验:用样本的统计量推断总体参数的方法。

6. 置信区间:用来估计总体参数的区间,表示参数真值有一定概率落在该区间之内。

7. 方差分析:用来比较多组数据的差异来源和大小的方法。

8. 回归分析:用来研究自变量和因变量之间关系的方法。

数理统计基本概

数理统计基本概

第五章 样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示★ 引言 ★ 总体与总体分布 ★ 样本与样本分布 ★ 例1★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ 分组数据统计表和频率直方图 ★ 例5 ★ 经验分布函数 ★ 例6★ 统计量 ★ 样本的数字特征★ 例7 ★ 例8 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题5-1 ★ 返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x Λ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X Λ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x Λ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21Λ与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21Λ是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21Λ表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X Λ的联合分布函数为∏==ni i n x F x x x F 121)(),,,(Λ并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(Λ分别称)(x f 与),,,(21n x x x f Λ为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p ΛΛ分别称)(i x p 与),,,(21n x x x p Λ为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21Λ对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21Λ是样本的n 个观察值.(i) 求出n x x x ,,,21Λ中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm 在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[Λ, 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i Λ=∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。

概率论与数理统计-第五章

概率论与数理统计-第五章

【数理统计简史】
1. 近代统计学时期
18 世纪末到 19 世纪,是近代统计学时期.这一 时期的重大成就是大数定律和概率论被引入统计 学.之后最小二乘法、误差理论和正态分布理论 等相继成为统计学的重要内容.这一时期有两大 学派:数理统计学派和社会统计学派.
【数理统计简史】 数理统计学派始于19世纪中叶,代表人物是比 利时的凯特莱( A.Quetelet , 1796-1874 ),著有 《概率论书简》《社会物理学》等,他主张用研 究自然科学的方法研究社会现象,正式把概率论 引入统计学,并最先用大数定律证明了社会生活 中随机现象的规律性,提出了误差理论.凯特莱 的贡献,使统计学的发展进入个了一个新的阶 段.
i =1 36
1 2 2 3 2 2 2 2 D( X ) = E ( X ) − E ( X ) = ( 0 + 1 + 2 + 3 ) − 4 2 5 = 4
2
二、样本与抽样 由于X1,X2,...,X36均与总体X同分布,且相互独 立,所以,Y的均值和方差分别为
E (Y ) = E ( ∑ X i ) = 36 E ( X ) = 54,
【数理统计简史】 18世纪到 19世纪初期,高斯从描述天文观测的 误差而引进正态分布,并使用最小二乘法作为估 计方法,是近代数理统计学发展初期的重大事件, 对社会发展有很大的影响.
【数理统计简史】 用正态分布描述观测数据的应用是如此普遍,以 至 在 19 世 纪 相 当 长 的 时 期 内 , 包 括 高 尔 顿 ( Galton )在内的一些学者,认为这个分布可用 于描述几乎是一切常见的数据.直到现在,有关 正态分布的统计方法,仍占据着常用统计方法中 很重要的一部分.最小二乘法方面的工作,在 20 世纪初以来,经过一些学者的发展,如今成了数 理统计学中的主要方法.

《数理统计基本概念》课件

《数理统计基本概念》课件

不可能事件
概率等于0的事件,表示一定 不会发生。
独立事件
两个事件的发生相互独立,一 个事件的发生不影响另一个事 件的发生。
随机变量及其分布
01
02
03
04
离散型随机变量
随机变量可以取到有限个或可 数无穷个值。
连续型随机变量
随机变量可以取到任何实数值 。
概率分布函数
描述随机变量取值概率的函数 。
概率密度函数
确定因子、提出假设、构造统计量、 进行统计分析、做出推断结论。
方差分析的应用场景
比较不同组数据的均值差异、分析多 因素对结果的影响等。
方差分析的注意事项
满足正态性和方差齐性的假设、注意 组间和组内的比较等。
04
回归分析
一元线性回归
总结词
一元线性回归是数理统计中常用的回归分析方法,用于研究一个因变量与一个自变量之间 的线性关系。
假设检验的类型
单侧检验、双侧检验、独立样本检验、配对 样本检验等。
假设检验的基本步骤
提出假设、构造检验统计量、确定临界值、 做出推断结论。
假设检验的注意事项
避免两类错误、注意样本量和分布情况等。
方差分析
方差分析的概念
方差分析是用来比较不同组数据的变 异程度和分析变异来源的一种统计方 法。
方差分析的基本步骤
详细描述
一元线性回归分析通过最小二乘法拟合一条直线,使得因变量的观测值与自变量的预测值 之间的残差平方和最小。它可以帮助我们了解自变量和因变量之间的相关性和预测因变量 的未来值。
公式
(y = ax + b) 其中,(a) 是斜率,(b) 是截距。
多元线性回归
01
总结词
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)E
最小方差线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)对 的一切线性无偏估计量 0,D D 0
定理 (R-C不等式)
设总体X具有分布密度f ( x; )。抽取样本( x1 ,..., xn ), 设g ( )为 的一个可估函数,T T ( x1 ,..., xn )为g ( ) 的一个无偏估计量,且 满足正则条件
• 若12, 22已知
(X Y) ( 1 2 ) U ~ N (0,1)
2 1
n

2 2
m
• 若12, 22未知,但是12= 22
T (X Y) ( 1 2 ) ~ t (m n 2)
12
m

2 2
n

mS12
12

2 nS2 2 2
T
(X Y) (1 2 ) 1 1 2 mS12 nS2 /(m n 2) m n
~ t (m n 2)
推论:设( X 1 ,..., X n )和(Y1 ,..., Ym )分别为来自
2 2 正态总体N ( 1 , 1 )和N ( 2 , 2 )的两个相互
独立的样本,则随机变量
F
2 若 1 2 2
2 2 Sm / 1 2 Sn 2 / 2
~ F (m 1, n 1)
F
2 Sm 2 Sn
~ F (m 1, n 1)
第六章 参数估计
第一节 点估计
• 定义:设为总体分布中的未知参数,从X 中抽取样本 (x1,…,xn) ,构造适当的统计量 (x1,…,xn), 估计 (以的值作为的近似), 这种方法称为参数的点估计。 • 统计量称为的点估计量; • 对于一组样本观测值 (x1,…,xn) ,该统计量 相应的值(x1,…,xn)称为的点估计值 • 的点估计量和点估计值简称为的点估计。
抽样分布定理
• 引理:设X1,…,Xn为n个相互独立的标准 正态变量,常数矩阵为正交矩阵,且
Y1 X1 Y CX C Y X n n
• 则随机变量Y1,…,Yn相互独立且都服从标 准正态分布。
• 定 理 : 设 (X1,…,Xn) 为 来 自 总 体 的 样 本 , X~N(,2),则
1 X n
nS 2
X
i 1
n
i
~ N ( ,
2
n
1
)
n
U
X
/ n
~ N (0,1)
2

2 (n 1)S n
2

2

i 1
(Xi X ) 2 ~ 2 (n 1)
T
X S / n 1

X Sn / n
~ t (n 1)
推论:设( X 1 ,..., X n )和(Y1 ,..., Yn )分别为来自
分位数
• 定 义 :设随机变量 X 的分布函数为 F(x) , xR , 对 给 定 的 ( 0< <1 ) , 称 F(x)=P{x)= 的解为分布函数 F(x) 的或者 相应分布的下侧分位数,简称分位数。
第三节 抽样分布
抽样分布:确定统计量的分布。
• 定理:设随机变量X1,…,Xn相互独立,且 Xi ~N(0,1),则随机变量
使
2
( 2 x1 ,..., x n )
P 1

1
2
1
2 分别称为
2
称随机区间( 1,
1 2 )为参数的置信度为
的置信区间或者区间估计。
1 称为置信区间的置信度, 1, 置信下限和置信上限。
单个正态总体参数的区间估计
• 总体期望的区间估计 总体方差已知
• 注:当n趋于无穷大时,t(n)分布收敛于 标准正态分布。
F—分布 • 定理:若随机变量X~ 2(m),Y~2(n) , 且X与Y相互独立,则随机变量
X /m F ~ F(m, n) Y /n
• 定理:若随机变量X~F(m,n),则随机变 量 1 ~ F(n, m) X
1 F ( m, n) F1 ( n, m)
2 2 正态总体N ( 1 , 1 )和N ( 2 , 2 )的两个相互
独立的样本,则随机变量
T (X Y) ( 1 2 )
12
m

2 2
n

mS12
12

2 nS2 2 2
~ t (m n 2)
/(m n 2)
2 2 若 1 2
为 的效率;称
e ( ) lim eff ( ) lim
n
1 nI ( ) D ( )
n
为 的渐进效率。
如果e ( ) 1 ,则称 为 的渐进有效估计量。
一致性
定义:设 (x1 ,..., xn )为总体分布的未知参数 的点估计量。如果 0,当n 时

i 1
n
X i2 ~ 2 (n)
• 独立2变量的可加性:设随机变量 X~2(n1),Y~ 2(n2),则随机变量
X Y ~ (n1 n2 )
2
t-分布
• 定理:若随机变量X~N(0,1),Y~2(n) , 且X与Y相互独立,则随机变量
T X Y n ~ t ( n)
• Note: we use statistic to estimate a population characteristic or parameter.
样本的数字特征
• 样本均值:
1 X n
1 2 S n
X
i 1
n
n
i
• 样本方差:

i 1
(X i X )2
n
• 样本修正方差:
k
)
似然方程和最大似然估计
L( 1 ,..., k ) max L( 1 ,..., k )
L( 1 ,..., k ) 0 1 L( 1 ,..., k ) 0 k
ln L(1 ,..., k ) 0 1 ln L(1 ,..., k ) 0 k
1 D ( ) nI ( )
则称是 的有效估计量。
注:有效估计量一定是最小方差无偏估计量,但最 小方差无偏估计量未必是有效估计量,其方差未必 达到了R C不等式的下界。
效率与渐进效率
定义:若 是 的一个无偏估计量,而 * 是 的有效估计 量,称
eff ( ) D ( *) D ( ) 1 nI ( ) D ( )
数理统计
第五章 数理统计的基本概念
第一节 总体与样本
• • • • 总体:研究对象的全体 样本:组成总体的每一个基本单位 指标:感兴趣的某个或者几个特性 抽样方法:数理统计中常用的是简单随机抽样 或者独立同分布样本(iid)。
第二节 统计量与样本矩
• 定义:设(X1,…,Xn)为来自总体的样本, 若样本的n元函数φ (X1,…,Xn)为一个连 续函数且不含总体的未知参数,则称其 为统计量。
/(m n 2)
T
(X Y) (1 2 ) 1 1 2 mS12 nS2 /(m n 2) m n
~ t (m n 2)
两正态总体方差比12/ 22的区间估计
• 两总体均值未知
2 Sm 2 Sn 2 /1 2 / 2
F
~ F (m 1, n 1)
1 n i 1 i 1
n
ln f ( x; ) (3) I ( ) E 0
D
2
g ' ( )2 (T )
nI ( )
若g ( )
1 D (T ) nI ( )
有效估计量
定义:若 的一个无偏估计量 ,使R C不等式中的 等式成立,即有
区间估计的可靠性和精确度
• 可靠性:区间估计的置信度 1-又称置信概率,它 的值描述了区间估计的可靠程度。 1- 越大,可靠 性越高,反之, 1- 越小,可靠性越低。 • 精确度: 又称风险概率,置信区间的长度记为 2Δ ,它描述了区间估计的精确程度。Δ 又称为允 许误差。 • 在样本容量固定时,提高精确度就会降低可靠性, 反之,提高可靠性就会降低精确度。 • 增加样本容量时,可以在不改变可靠性的情况下提 高精确度,而在不改变精确度的情况下提高可靠性, 或者可以同时提高可靠性和精确度。
矩估计
最大似然估计法(MLE)
• 似然函数:设总体X的分布密度函数为
f ( x; 1 ,..., k )
x R
其中1,…,k为k个未知参数。从X中抽取样 本(x1,…,xn),则似然函数为:
L( 1 ,..., k )
f ( x ; ,...,
i 1 i 1
n
• 总体方差已知
X
近似
/ n
• 总体方差未知
~ N (0,1)
X S/ n
近似
~ N (0,1)
总体方差的区间估计
• 总体均值已知
1
n

2

i 1
( X i 0 ) 2 ~ 2 ( n)
• 总体均值未知
nS 2
2 0
~ (n 1)
2
两个正态总体的均值差的区间估计
U
X
/ n
~ N (0,1)
总体方差未知
T X S / n 1 X Sn / n ~ t (n 1)
相关文档
最新文档