数理统计统计量及其分布
数理统计基础公式详解样本统计量与抽样分布
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
概率论与数理统计(06)第6章 统计量及其抽样分布
σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z
概率论与数理统计第六章统计量,样本及抽样分布
(2) X 1
~
2 (n1 ),
X2
~
2 (n2 ),
X1,
X
独
2
立
,
则
X 1 X 2 ~ 2 (n1 n2 ).
(3) X ~ 2 (n), E( X ) n, D( X ) 2n,
.
2021/3/11
20
(4). 2分布的分位点
对于给定的正数,0 1,
称满足条件
P
2 2 (n)
k 1
,
X
k 2
,,
X
k n
独立且与X
k同分布,
E
(
X
k i
)
k
k 1,2,,n 再由辛钦大数定律可得上述结论.
再由依概率收敛性质知,可将上述性质推广为
g( A1, A2 ,, Ak ) p g(1,2 ,,k ) 其中g为连续函数.
这就是矩估计法的理论根据.
2021/3/11
18
皮肌炎图片——皮肌炎的症状表现 数理统计
10
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确 定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数,它们是样本取到的值而不是样本. 我 们只能观察到随机变量取的值而见不到随机变量.
2021/3/11
11
总体(理论分布) ?
样本
样本值
统计是从手中已有的资料--样本值,去推断总 体的情况---总体分布F(x)的性质.
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
再由函数的性质有
lim h(t)
n
1 et2 2. 2
《概率论与数理统计》统计量及其分布
但数理统计以概率论为基础,更着重于根据试验得
到的数据来对研究对象的客观规律作出种种合理的估
计和判断.
4
第5章
统计量及其分布
数
描述统计学
理
对随机现象进行观测、试验, 以取得有代表
统
性的观测值.
计
的
推断统计学
分
对已取得的观测值进行整理、分析, 作出推
类
断、决策,从而找出所研究的对象的规律性.
O
5
n 10
10
15
20
x
32
01
抽样分布
2. t 分布
2
X
~
N
(0,1)
,
Y
~
x
(n),且X与Y 独立,则
设随机变量
X
T
Y /n
服从自由度为n的t分布,记为t(n).
性质 密度f(t)是偶函数,且t分布的极限分布是标准正
态分布.
33
01
抽样分布
t分布的密度函数
n 1
n 1
那么如何来利用样本呢?
列表?
画图?
统计量!
样本来自于总体,含有总体性质的信息,但较为分
散. 为了进行统计推断,需要把分散的信息进行整理,
针对不同的研究目的,构造不同的样本函数,这种函
数在统计学中称为统计量.
18
本讲内容
01
总体与个体
02
样本
03
统计量
03
统计量
3.统计量
统计量——不含有未知参数的样本函数
f ( x)
n1
n2
x
数理统计学:统计量与抽样分布
1.1 总体和样本 1.2 统计量与估计量 1.3 抽样分布 1.4 次序统计量 1.5 充分统计量 1.6 常用的概率分布族
数理统计学 是探讨随机现象统计规律性的一门学科, 它以概率论为理论基础,研究如何以有效的方式收集、 整理和分析受到随机因素影响的数据,从而对所研究对 象的某些特征做出判断。
1.1.2 样本
(2) 抽样, 即从总体抽取若干个个体进行检查或观察,用所 获得的数据对总体进行统计推断。 由于抽样费用低,时间 短,实际使用频繁。本书将在简单随机抽样的基础上研究各 种合理的统计推断方法,这是统计学的基本内容。应该说, 没有抽样就没有统计学
1.1.2 样本
• 从总体中抽出的部分(多数场合是小部分)个体组成的集合 称为样本。
(2)
(n 1)s2
2
~χ2(n-1);
(3) x与s2相互独立。
1.3.2 样本方差的抽样分布
例1.3.3
分别从正态总体N(μ1,σ2)和N(μ2,σ2)中抽取容
量为n1和n2的两个独立样本,其样本方差分别
为
s2 1
和
s2 2
。
(1)证明:对α∈(0,1),
s s s 2 2 (1) 2
Fn(x)依概率收敛于F(x)
1.2.3 样本的经验分布函数及样本矩
定理1.2.1(格里汶科定理)
对任给的自然数n,设x1,x2,…,xn是取自总体分布函数F(x) 的一组样本观察值,Fn(x)为其经验分布函数,记
则有
Dn sup Fn x F x
x
P
lim
n
Dn
0
1
1.2.3 样本的经验分布函数及样本矩
0
Fn x k / n
数理统计知识小结
数理统计知识小结------缪晓丹 20114041056第五章 统计量及其分布§5.1总体与样本一、 总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。
对于实际问题,总体中的个体是一些实在的人或物。
这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量。
例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p 表示不合格品率,则各总体可用一个二点分布表示:不同的p 反映了总体间的差异。
在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。
这种总体称为多维总体。
若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。
实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。
二、样本与简单随机样本 1、样本为了了解总体的分布,从总体中随机地抽取n 个个体,记其指标值为 n x x x ,,,21 , 则n x x x ,,,21 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为样品。
当30 n 时,称n x x x ,,,21 为大样本,否则为小样本。
首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 n X X X ,,,21 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母n x x x ,,,21 表示。
简单起见,无论是样本还是其观测值,本书中均用n x x x ,,,21 表示,从上下文我们能加以区别。
每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。
期末数理统计
θ
ˆ Var(θ ) =
n 2 n n θ − θ = θ 2 → 0, 2 n+2 n + 1 (n + 1) (n + 2)
2
故X(n)是θ 的相合估计。
15 May 2012
习题课
第30页 30页
例9 对均匀总体U(0, θ ),由θ 的极大似然估计得到的
无偏估计是 θˆ = (n + 1) x( n ),它的均方误差 /n
λ
k
e−λ , k = 0,1 2,L ,
λ
xi
xi !
e
−λ
=e
−nλ
15 May 2012
∏x !
i =1 i
n
λ
xi
习题课
第22页 22页
泊松分布( 泊松分布(续)
ln L = −nλ + ∑ xi ln λ − ∑ln( xi !) i =1 i=1 n d ln L 1 令 = −n + ∑xi = 0 dλ λ i=1
M SE (θˆ ) = Var(θˆ ) =
θ2
n ( n + 2)
现我们考虑θ的形如 θˆα = α ⋅ x( n ) 的估计,其均方差为
n n ⋅α MSE (θˆα ) = α 2 θ2 + − 1 θ 2 ( n + 1) 2 ( n + 2) n +1
2
用求导的方法不难求出当α 0 = (n + 2) /(n + 1)时上述均方 误差达到最小,且其均方误差
15 May 2012
习题课
第13页 13页
练习: 设x1, x2, …,xn 是来自泊松分布 P(λ)的一
自考04183概率论与数理统计(经管类)总结2-数理统计部分
高等教育自学考试辅导《概率论与数理统计(经管类)》第二部分数理统计部分专题一统计量及抽样的分布I.考点分析近几年试题的考点分布和分数分布II.内容总结一、总体与样本1.总体:所考察对象的全体称为总体;组成总体的每个基本元素称为个体。
2.样本:从总体中随机抽取n个个体x1,x2…,x n称为总体的一个样本,个数n称为样本容量。
3.简单随机样本如果总体X的样本x1,x2…,x n满足:(1)x1与X有相同分布,i=1,2,…,n;(2)x1,x2…,x n相互独立,则称该样本为简单随机样本,简称样本。
得到简单随机样本的方法称为简单随机抽样方法。
4.样本的分布(1)联合分布函数:设总体X的分布函数为F(x),x1,x2…,x n为该总体的一个样本,则联合分布函数为二、统计量及其分布1.统计量、抽样分布:设x1,x2…,x n为取自某总体的样本,若样本函数T=T(x1,x2…,x n)不含任何未知参数,则称T为统计量;统计量的分布称为抽样分布。
2.样本的数字特征及其抽样分布:设x1,x2…,x n为取自某总体X的样本,(2)样本均值的性质:①若称样本的数据与样本均值的差为偏差,则样本偏差之和为零,即②偏差平方和最小,即对任意常数C,函数时取得最小值. (5)样本矩(7)正态分布的抽样分布A.应用于小样本的三种统计量的分布的为自由度为n的X2分布的α分位点.求法:反查X 2分布表.III.典型例题[答疑编号918020101]答案:D[答疑编号918020102]答案:[答疑编号918020103]答案:B[答疑编号918020104]答案:1[答疑编号918020105]答案:B[答疑编号918020106]故填20.[答疑编号918020107]解析:[答疑编号918020108]答案:解析:本题考核正态分布的叠加原理和x2-分布的概念。
根据课本P82,例题3-28的结果,若X~N(0,1),Y~N(0,1),且X与Y相互独立,则X+Y~N(0+0,1+1)=N(0,2)。
(概率论与数理统计 茆诗松) 第5章 统计量及其分布(5.4)
当随机变量 2 2(n) 时,对给定 (01), 称满足 P(2 12(n)) 的 12(n) 是自由度为 n1的卡方分布的 1 分位数. 分位数 12(n) 可以从附表3 中查到。
P{ X
2 1
(n)} ,
该密度函 数的图像 是一只取 非负值的 偏态分布
特别,若12 =22 ,则
F=sx2/sy2 F(m1,n1)
推论5.4.2 设 x1, x2,…, xn 是来自N(, 2) 的 样本,则有
n(x ) t ~ t (n 1) s
习题5.4:Q5
推论5.4.3
在推论5.4.1的记号下,设 12 =22 = 2 ,
前缀“p”
正态分布:pnorm(x,mean,sd)
t 分布: pt(x,df) 卡方分布:pchisq(x,df) F分布: pf(x,df1,df2)
Q13
Q5
R软件: 转换概率为分位数, 即:找到x值,使得P(X≤x)=p 前缀“q” 正态分布:qnorm(p,mean,sd)
5.4.4 一些重要结论
正态总体的抽样分布定理 设 x1, x2,…, xn 是来自N(, 2) 的样本
定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为 x = xi/n 和 s2= (xix)2/(n1) 则有 (1) x 与 s2 相互独立; (2) x N(, 2/n) ;
(3) (n1) s2/2 2(n1)。
习题5.4:Q1~Q3
推论5.4.1 设 x1, x2,…, xn 是来自N(1, 12) 的 样本,y1, y2,…, yn 是来自N(2, 22) 的样本, 且此两样本相互独立,则有
(概率论与数理统计茆诗松)第5章统计量及其分布
统计量用于评估和 预测经济趋势例如 GDP、CPI等。
统计量用于研究经济 现象之间的相关性例 如通过回归分析探究 收入与消费的关系。
统计量用于风险评估 和决策制定例如在投 资组合优化中应用统 计量来降低风险。
统计量用于市场调研和 消费者行为分析例如通 过调查数据了解消费者 的购买意愿和偏好。
统计量用于描述大量粒子系统的宏观性质如温度、压强等。 在高能物理实验中统计量用于分析粒子碰撞数据以发现新粒子或研究基本粒子的相互作用。 在天体物理中统计量用于研究星系分布、宇宙射线等以揭示宇宙的演化历史和结构。 在凝聚态物理中统计量用于描述量子多体系统的性质如超导、量子相变等。
单击此处添加标题
性质:二项分布具有可加性即如果有两个独立的二项分布的随机变量X和Y那么 X+Y仍然服从二项分布。
单击此处添加标题
应用:二项分布在统计学、生物学、医学等领域有广泛的应用例如在遗传学中 研究基因的遗传规律在可靠性工程中研究设备的寿命等。
定义:泊松分布是一种离散概率分布描述了在单位时间内(或单位面积内)随机事件发生的次数。
适用范围:非参数检验适用于总体分布未知或已知分布不满足参数检验条件的情况能够更加灵活地处理 各种数据类型和分布。
添加标题
常见方法:常见的非参数检验方法包括符号检验、秩次检验、中位数检验等这些方法都是基于样本数据 本身的特性进行统计推断不需要对总体参数进行假设检验。
添加标题
优点与局限性:非参数检验具有适用范围广、灵活性高等优点但也存在一定的局限性如对于小样本数据 可能不太稳定等。因此在选择统计检验方法时需要根据具体情况进行综合考虑。
性
构造方法:利 用样本数据和 适当的数学方 法来构造有效
估计
应用:在统计 学、经济学、 社会学等领域
数理统计-第一章 统计量及其分布
太原理工大学 景英川
第一章 统计量及其分布
太原理工大学 景英川
第一章 统计量及其分布
但在实际中,在样本量特别大时 (如 n≥100 ),又常用分组样本来代替完 全样本,这时需要对样本进行分组整理, 它能简明扼要地表示样本,使人们能更 好地认识总体,这是分组样本的优点。
太原理工大学 景英川
第一章 统计量及其分布
则 Fn (x)是一非减右连续函数,且满足 Fn (-∞) =0, Fn (+ ∞)=1 由此可见, Fn (x)是一个分布函数,称 Fn (x)为经验分 布函数。 太原理工大学 景英川
第一章 统计量及其分布
1.6 某食品厂生产听装饮料,现从生产线上随机 抽取 5 听饮料,称得其净重为(单 位:克) 351 347 355 344 351 这是一个容量为 5 的样本,经排序可得有序样本:
而若第一次抽到的是合格品,则第二次抽到不合格品 的概率为
太原理工大学 景英川
第一章 统计量及其分布
显然,如此得到的样本不是简单随 机样本。但是,当 N 很大时,我们可 以看到上述二种情 形的概率都近似等 于 p。所以当 N 很大,而 n不大(一个 经验法则是 )时可以把 该样本近似地 看成简单随机样本。
从总体中抽取样本可以有不同的抽法,为了能 由样本对总体作出较可靠的推断,就希望 样本能很 好的代表总体。这就需要对抽样方法提出一些要 求,最常用的"简单随机抽样”有 如下二个要求: (1)样本具有随机性,即要求总体中每一个个体 都有同等机会被选入样本,这便意味着每一样品xi 与总体X有相同的分布。 (2)样本要有独立性,即要求样本中每一样品的 取值不影响其它样品的取值,这意 味着x1, x2, …,xn 相互独立。
第一章 统计量及其分布
数理统计之统计量及其分布(习题)
计算题、证明题1. 设(x 1,2x ,…,n x )及(1u ,2u ,…,n u )为两组子样观测值,它们有如下关系i u =ba x i -(a b,0≠都为常数)求子样平均值u 与x ,子样方差2u s 与2xs 之间的关系. 解: b ax a x n b b a x n u i nn u i i i-=⎪⎭⎫ ⎝⎛-=-===∑1121121 ().11122222x i i us bb a x b a x n u u n S =⎪⎭⎫ ⎝⎛---∑=-∑= 2. 若子样观测值1x ,2x ,…,m x 的频数分别为1n ,2n ,…,m n ,试写出计算子样平均值x 和子样方差2n s 的公式 (这里n =1n +2n +…+m n ).解: ∑∑∑======m j m j jj j jm j j j x f x n n x n n x 1111()()()221221x x f x x n n x x n n S j j j j m j j j n-=-=-=∑∑∑= 其中nn f j j =,m j ,,2,1Λ=是j x 出现的频率。
3.利用契贝晓夫不等式求钱币需抛多少次才能使子样均值ξ落在0.4到0.6之间的概率至少为0.9 ? 如何才能更精确的计算使概率接近0.9所需抛的次数 ? 是多少? 解: 设需抛钱币n 次,第i 次抛钱币结果为n i i i i ,,2,101Λ=⎩⎨⎧=次抛出反面第次抛出正面第ξ, 则iξ独立同分布.且有分布()1,0,21===x x Piξ 从而41,21==i i D E ξξ。
设∑=i nξξ1是子样均值.则nD E 41,21==ξξ. 由契贝晓夫不等式()()()().9.0410011.011.01.05.01.06.04.02=-=-≥<-=<-<-=<<nD E P P P ξξξξξ2504.0100==∴n , 即需抛250次钱币可保证()9.06.04.0≥<<εP 为更精确计算n 值,可利用中心极限定理()()..9.012.02415.06.0415.0415.04.06.04.0≥-Φ=⎪⎪⎪⎪⎭⎫ ⎝⎛-<-<-=<<n n n n P P ξξ645.12.0≥∴n 68≥∴n . 其中()x Φ是()1,0N 的分布函数.4. 若一母体ξ的方差2σ= 4, 而ξ是容量为100的子样的均值. 分别利用契夫晓夫不等式和极限定理求出一个界限, 使得ξ-μ (μ为母体ξ的数学期望E ξ) 夹在这界线之间的概率为0.9.解:设此界限为.ε由()9.012=-≥<-εξεμξDP由此.6325.04.0.10041.022≈=∴===εσξεnD 由中心极限定理,().9.012=-⎪⎪⎭⎫⎝⎛Φ=⎪⎪⎭⎫ ⎝⎛<-=<-ξεξεξμξεμξD D D P P.645.1.95.0=∴=⎪⎪⎭⎫⎝⎛ΦξεξεD D .329.01004645.1=⨯=ε 5.假定1ξ和2ξ分别是取自正态母体N (μ,2σ)的容量为n 的两个子样(n 11211,,,ξξξΛ),和(n 22221,,,ξξξΛ)的均值,确定n 使得两个子样均值之差超过σ的概率大约为0.01.解: ⎪⎪⎭⎫ ⎝⎛n N i 2,~σμξ .2,1=i 且相互独立.,所以⎪⎪⎭⎫⎝⎛-n N 2212,0~σξξ于是()01.021222222121=⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛Φ-=⎪⎪⎪⎪⎪⎭⎫⎝⎛>-=>-n n n P P σσσξξσξξ .005.02=⎪⎪⎭⎫⎝⎛-Φ∴n .258.2⨯=n .14=n 6.设母体ξ~N(μ,4 ),(n ξξξ,,,21Λ)是取自此母体的一个子样, ξ为子样均值,试问:子样容量n应取多大,才能使 (1) E (μξ-2)1.0≤;(2) E (μξ-)1.0≤; (3) P (μξ-1.0≤)95.0≥.解: (1)().401.04.1.042=≥∴≤==-n n D Eξμξ(2)()dx e x nE nx 422221μμπμξ--∞+∞--=-⎰=.1.0242262≤=-∞∞-⎰ndu e nπμπμ .255≥∴n(3)().95.021.021.0≥⎪⎪⎭⎫⎝⎛≤-=≤-n n P P μεμε.96.121.0≥n 1537≥n .7. 设母体()p b ,1~ξ(两点分布), (n ξξξ,,,21Λ)是取自此母体的一个子样, ξ为子样均值,若P =0.2,子样容量n 应取多大,才能使(1)P()1.0≤-p ξ;75.0≥ (2)E (丨p -ξ丨2).01.0≤若P ()1.0∈为未知数,则对每个p ,子样容量n 应取多大才能使E (丨p -ξ丨2).01.0≤解: (1) 要()().75.03.01.01.02.0≥≤≤=≤-ξξP P当n10=时,∑=ni i 1ξ服从二项项分布().2.0,10,k b 查二项分布表知().75.07717.01074.08791.0313.01.0101>=-=⎪⎭⎫⎝⎛≤≤=≤≤∑=i i P P ξξ所以n 应取10.(2)()np p D P E -==1.ξξ当2.0=p 时 ().16.01.016.02≥∴≤==-n n D p E ξξ(3) 当P 未知时,()()01.012≤-==-np p D p E ξξ由此知, ()p p n -≥1100, 要对一切()1,0∈p 此时均成立.只要求p 值使()p p -1最大, 显然当21=p , ()411=-p p 最大,.所以当2541100=⨯≥n 时,对一切p 的不等式均能成立.8 设母体ξ的k 阶原点矩和中心矩分别为k v =E ξk,k μ=E()k E ξξ-,k =1,2,3,4,k1ξ和k m 分别为容量n 的子样k 阶原点矩和中心矩, 求证:(1) E()31νξ-=23nμ; (2) E()41νξ-=223nμ+32243n μμ-.解:()()()()()1213113311313[11νξνξνξνξνξ--+-=⎥⎦⎤⎢⎣⎡-=-∑∑∑≠==j i j i n i i n i E n n E E ++()()()]111γξγξγξ---∑k j iE注意到n ξξξ,,,21Λ独立, 且()0111=-=-νννξi E .,,2,1n i Λ=所以().13231μνξn E=- ()()()()()()+--+--+-=-∑∑∑≠≠=2121131414144134[1νξνξνξνξνξνξj i ji j i j i i i E E n E()()()()()()()]111111216νξνξνξνξνξνξνξ----+---∑∑≠≠≠≠≠l k j ilk j i k j i kj i E E=().3313132242222443nn n n n n μμμμμ-+=-+ 9. 设母体ξ~N ()2,σμ,子样方差2nS =n1()21∑=-ni iξξ, 求E 2n S ,D 2n S 并证明当n 增大时,它们分别为2σ+⎪⎭⎫ ⎝⎛n 1ο和n 42σ+⎪⎭⎫⎝⎛n 1ο.解: 由于().1~222-n nS nχσ所以()()()121.1122-=--=-n n DX n n E χ⎪⎭⎫ ⎝⎛+=-=⎪⎪⎭⎫ ⎝⎛=∴2222222101n n n nS E n ES n nσσσσ().10212244222242⎪⎭⎫⎝⎛+=-=⎪⎪⎭⎫ ⎝⎛=n n n n nS D n DS n nσσσσ .10. 设()21,ξξ为取自正态母体ξ~N ()2,σμ的一个子样, 试证: ξ1+ξ2, ξ1-ξ2是相互独立的. 证:()()()()()()()().,cov 21212221212121212121ξξξξξξξξξξξξξξξξξξ-+--=-+--+=-+E E E E E E E由于ξ1, ξ2~N()2,σμ, 所以. E 212221,ξξξξE E E ==即()0,cov2121=-+ξξξξ 又()2212,2~σμξξN +Θ,().2.0~221σξξN -所以由两个变量不相关就推出它们独立.11.设母体ξ的分布函数为F()x ,()n ξξξ,,,21Λ是取自此母体的一个子样,若F ()x 的二阶矩存在,ξ为子样均值,试证ξ1--ξ与ξj --ξ的相关系数ρ=11--n ,j i ≠,.,,2,1,n j i Λ= 证 由于ξ的二阶矩存在,不妨设.μξ=E 2σξ=D()()()()()j i D E D ij i ij i ≠---=---=,,cov ξξξξξξξξξξξξρ()()().11111122222221σσξξξξξξn n n n n D n D n n n D D j ij in i i i i -=-+-=+-=⎪⎭⎫ ⎝⎛-=-∑∑≠=()()n E n E E E E E n j j i j i j i j i 221222σμξξμξξξξξξξξξξξ++⎪⎪⎭⎫ ⎝⎛-=+--=--∑=()[]n n n n E E E n n j i i j i 22222222212222σμσμσμξξξσμ-=-++-+=⎪⎪⎭⎫ ⎝⎛+-+=∑≠.11122--=--=∴n nn n σσρ12. 设ξ和2n S 分别是子样()n ξξξ,,,21Λ的子样均值和子样方差,现又获得第n +1个观测值,试证: (1)ξn+1=ξn +11+n (ξn+1-ξn );(2)12+n S =()⎥⎦⎤⎢⎣⎡-++++212111n n n n S n n ξξ. 证 (1)()()n n n n n n i i n n n n n ξξξξξξξ-++=++=+=+++=+∑11111111111()()()()2111211121112111111111)2(⎥⎦⎤⎢⎣⎡-+--+=-+-+=-+=++-++-++-+∑∑∑n n n i n i n n n i n i n i n i n n n n n S ξξξξξξξξξξ()()()()()()()21211121211112{11nn n n n n n i n i n n n i ni n n n n ξξξξξξξξξξξξ-+++-⨯⎥⎦⎤⎢⎣⎡-+-+--+-+=+++-+-∑∑=()().112122n n n n n S n n ξξ-++++ 13. 从装有一个白球、两个黑球的罐子里有放回地取球, 令ξ=0表示取到白球, ξ=1表示取到黑球.求容量为5的子样()51,,ξξΛ的和的分布,并求子样均值ξ和子样方差2n S 的期望值.解:i ξ相互独立都服从二点分布,32;1⎪⎭⎫⎝⎛b E i ξ=.32 D .92=i ξ 5,2,1Λ=i所以,32=ξE .4589212=⨯-=n n ES n 521ξξξη+++=Λ服从二项分布.32;5⎪⎭⎫⎝⎛b 其分布列().313255kk k k p -⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛==η.5,2,1,0Λ=k14. 设母体ξ服从参数为λ的普哇松分布, ()n ξξξ,,,21Λ 是取自此母体的一个子样,求: (1)子样的联合概率分布列:(2)子样均值ξ的分布列、E ξ、D ξ、和E 2n S 。
概率论与数理统计教案统计量和抽样分布
一、统计量和抽样分布的概念介绍1.1 统计量的定义讲解统计量的概念,即根据样本数据所定义的量,用来描述样本的某些特征。
例如,样本均值、样本方差等。
1.2 抽样分布的定义解释抽样分布是指在一定的抽样方法下,统计量的概率分布。
例如,正态分布、t分布等。
二、统计量的估计方法2.1 点估计介绍点估计的概念,即用一个具体的数值来估计总体参数。
例如,用样本均值来估计总体均值。
2.2 区间估计讲解区间估计的方法,即根据样本数据,给出总体参数估计的一个区间,该区间以一定的概率包含总体参数。
例如,置信区间。
三、抽样分布的性质及应用3.1 抽样分布的性质讲解抽样分布的一些基本性质,如独立性、对称性、无偏性等。
3.2 抽样分布的应用介绍抽样分布在实际问题中的应用,如利用抽样分布来判断总体均值的假设检验问题。
四、假设检验的基本概念和方法4.1 假设检验的定义解释假设检验是一种统计推断方法,通过观察样本数据,对总体参数的某个假设进行判断。
4.2 假设检验的方法讲解常见的假设检验方法,如单样本t检验、双样本t检验、卡方检验等。
4.3 假设检验的判断准则介绍假设检验的判断准则,如P值、显著性水平等,并解释其含义和作用。
六、正态分布及其应用6.1 正态分布的定义与性质详细介绍正态分布的概念、概率密度函数、累积分布函数以及其性质,如对称性、钟形曲线等。
6.2 标准正态分布解释标准正态分布的概念,即均值为0,标准差为1的正态分布。
讲解标准正态分布表的使用方法。
6.3 正态分布的应用介绍正态分布在实际问题中的应用,如利用正态分布来分析和估计总体均值、方差等参数。
七、t 分布及其应用7.1 t 分布的定义与性质讲解t 分布的概念、概率密度函数、累积分布函数以及其性质。
解释t 分布与正态分布的关系。
7.2 t 分布的自由度介绍t 分布的自由度概念,即样本量。
讲解自由度对t 分布形状的影响。
7.3 t 分布的应用介绍t 分布在实际问题中的应用,如利用t 分布进行小样本推断、假设检验等。
课件-数理统计与多元统计 第一章 数理统计的基本概念 1.4统计量的分布
1 1
一、样本均值的分布
1、单个正态总体下的样本均值的分布
定理1.4.1 设总体X 服从正态总体N (, 2 ), X1, X2 ,
L
, Xn ,为来自X的一个样本,则样本均值X
1 n
n i 1
t0.99 (48),
t0.05 (15),
2
t0.05 (15) 1.753, t0.95 (15) t0.05 (15) 1.753,
t0.01(48) 2.33, t0.99 (48) t0.01(48) 2.33,
t 0.05 (15) 2.131
2
27
四、F-分布
1、F分布的定义 定义1.4.5 若随机变量X的密度函数为
F
X Y
n1 n2
~
F (n1 , n2 )
即F服从自由度为n1, n2的F分布F (n1, n2 )。
31
4、 F分布的上分位点 定义1.4.6 对于给定的正数,0 1, 称满足条件
P{F (n1, n2 ) F (n1, n2 )}
的F (n1, n2 )为F分布的上 分位点。
注:由F分布性质可知
表以供查阅。
例如
2 0.05
(26)
38.885
2 0.95
(26)
15.379
19
注2: 2分 布 表 一 般 只 列 到n 45, 对 于n 45时 , 由 中 心 极 限 定 理 , 可 得 2分 布 的 上分 位 点2 (n)
的近似值为
2 (n) 12(z 2n 1)2
其中z为N (0,1)的上分位点。
概率论与数理统计--第五章 统计量及其分布
5.2.2 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。
例5.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
(1) 对样本进行分组:作为一般性的原则,组数通 常在5~20个,对容量较小的样本;
这是一个容量为10的样本的观测值,(体会抽样作用) 对应的总体为该厂生产的瓶装啤酒的净含量。
这样的样本称为完全样本。
例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:
表5.1.2 100只元件的寿命数据
表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。
设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样本联合分布函数为
用简单随机抽样方法得到的样本称为 简单随机样本,也简称样本。
于是,样本 x1, x2, …, xn 可以看成是 独立同分布( iid ) 的随机变量, 其共同分布即为总体分布。
5.2.1 经验分布函数
(2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数;
(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd, 形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3) 指数分布Exp(1)的均值和方差都为1, 所以样本均值的渐进分布为
x ~N (1, 1 ) N (1,0.182) 30
5.3.3 样本方差和 样本标准差
定义5.3.3 设x1,x2,…,xn是来自某个总体的样本,则它
关于样本均值 x 的平均偏差平方和:
Var
n i 1
xi
n 2
n2
2
n
E xi x 2 E xi2 nx 2 E(xi2 ) nE(x 2 )
[E(xi )2 Var(xi )] n[E(x)2 Var(x)]
n 2 n 2 n 2 n 2
n
(n 1) 2
E s2
n
1 1
E
xi
x 2
个数据可以自由变动,而第 n 个则不能自由取值,因为 n xi x 0 i 1
样本偏差平方和的三种不同表达式:
2
n xi x2
i 1
xi2
xi
n
xi2 nx 2
分组样本场合,样本方差的近似计算
公式为
s2 1
K
n 1 I 1
fi (xi
x)2
1 k n 1 i1
5.3.1 统计量及其分布
定义5.3.1 统计量:设x1,x2,…,xn为取自某总体的样本,若
样本函数T=T(x1,x2,…,xn)中不含有任何未知 参数,则称T为统计量. 抽样分布: 统计量的分布成为抽样分布.
例:X ~ N (, 2 ) , , 2是未知参数
X
1 n
n i 1
Xi ,
S 2 1 n n 1 i1
定义5.3.6 设x1,x2,…,xn是样本,则统计量
Xi X
2
1
U 2
n i 1
Xi 2
F x1
G x(1)
n
H xi2 i 1
注:统计量不依赖于未知参数,但是它的分布 一般是依赖与未知参数的.
5.3.2 样本均值及其抽样分布
定义5.3.2 设x1,x2,…,xn为取自某总体的样本,其算术平均
值称为样本均值,一般用 x表示,即
fi
xi 2
nx
2
练习:例5.3.4
定理5.3.4 设总体X具有二阶矩,即
E(x) ,Var(x) 2 ,
x1,x2,…,xn为从总体得到的样本, 则:
证明:
E(x) ,Var(x) 2 , E(s2 ) 2
n
E ( x )
1 n
E
n i 1
xi
n
n
Var(x)
1 n2
n
(xi x) 0
i 1
定理5.3.2 数据观察值与均值的偏差平方和最小,即在形如
xi c2的函数中, xi x 2最小,其中 c 为任意
给定常数.
定理5.3.2 数据观察值与均值的偏差平方和 最小,
即在形如 xi c2
的函数中, xi x2
最小,其中c为任意给定常数.
证明: 为任意给定常数c
1 (n n 1
1)
2
2
5.3.4 样本矩及其函数
定义5.3.4 设x1,x2,…,xn是样本,则统计量
ak
1 n
n i 1
xi k
称为样本 k 阶原点矩
bk
1 n
n
( xi
i 1
x)k
称为样本k 阶中心矩
请回答:x , s*2 , s2 是样本矩吗?
定义5.3.5 设x1,x2,…,xn是样本,则统计量
1
b3
/
b 3/2 2
称为样本偏度.
说明: 1 b3 / b23/2 称为样本偏度.
1、 1 反映了总体分布密度曲线的对称性信息.
2、 1 是个相对数,刻画了数据分布的偏斜方向和程度.
1 0, 说明数据是对称的.
1 0,
说明数据中有几个较大的数,反映总体分布是正偏的或右偏的.
1 0, 说明数据中有几个较小的数,反映总体分布是负偏的或左偏的.
p(x) (x 3)/4 3 x 5 0, others
3)总体分布为指数分布Exp(1);
解: 1) 均匀分布U(1,5)的均值和方差分别为3和4/3,所以样 本均值的渐进分布为
x ~N (3, 4 / 3) N (3,0.212 ) 30
2) 容易算出该分布均值和方差分别为3和2,所以样本 均值的渐进分布为
n
证明: 1) 证明见p210,习题13.(提示:用特征函
数的性质证) 2)由中心极限定理,
n (x ) / L N (0,1)
x ~ N(,n2)
例5.3.3 求样本容量为30,总体分布如下的样 本均值的渐进分布:
1)总体分布为均匀分布U(1,5); 2)总体分(布3密x)/度4 ,函1数x 为3 (倒三角分布)
s*2 1 n n i1
xi x 2
称为样本方差.
s* s *2
称为样本标准差.
在 n 不大时常用
s2 1 n
n 1 i1
xi x 2
也称为样本方差(也称无偏方差)
s s2
.
也称为样本标准差.
说明:
n
n1 称为偏差平方和 xi x 2 的自由度
i 1
自由度的含义是:
n个偏差 x1 x, x2 x, , xn x 中只有n1
2
2
xi c xi x x c
2
2
xi x n xi c 2 xi x xi c
2
2
2
xi
x
n
xi
c
xi
x
定理5.3.3 设x1,x2,…,xn是来自某个总体的样x 本,为样本均值
1) 若总体分布为N(, 2) ,x则~ N(,n2)
2) 若总体E分(x)布 未,V知ar或(x)者不2是正态分布,但 则n较大时x ~N(, 2 )
x
x1 ... xn n
1 n
n i 1
xi
在分组样本场合,样本均值的 fn n
n k fi
i1
其中k为组数,xi为第i组的组中值, fi为第组的频数.
例5.3.1 某单位收集到20名青年人的某月的 娱乐支出费用数据:
79 84 84 88 92 93 94 97 98 99 100 101 101 102
1则0x该21月1100这87129100名841青13年11的2158平 1均9295娱.4 乐支出为
将这20个数据分组可以得到如下频数频率 分布:
组序分组区间组中值频数频率
x 1 82 3 92 5 122 2 100
20
定理5.3.1 若把样本中的数据与样本均值之差称为偏差,则 样本所有偏差之和为0,即