样本及其分布
概率论与数理统计 第六章 样本及抽样分布
x0 o.w.
n 1
n5
n 15
15
(2)t-分布(学生分布)
设 X ~ N ( 0 ,1), Y ~ 2 ( n ) 且X、Y为独立随 机变量,则称随机变量
t
X Y /n
X
1 n 2 ( X 12 ...... X n )
为自由度为n的t-分布。记为: t ~ t ( n ) 。
3
§1 随机样本
总体: 研究对象在某项数量指标的全体. 记为X。通常称总体X。 个体: 总体X中的每一个元素(实数)xi。 根据总体所含的个体数分为: 有限总体和无限总体。
4
总体与取样
X1
X
X2 X3 Xn
取样模型
X
X2 X1
X3
X4
X5
河流污染取样
5
总体、样本、统计量
总体 样本 统计量
X1 X2
2 ( n ) 分布:
具有可加性
2 X X 12 ...... X n , X i ~ N (0,1)
3. 4.
t ( n ) 分布:
X ~ N (0,1), Y ~ 2 ( n )
t(n) X Y /n
F ( n1 , n 2 ) 分布: U ~ 2 ( n1 ), V ~ 2 ( n 2 )
F (n1 , n2 )
19
分位点及性质:
定义: Pr[ X z ]
z
(1)标准正态分布分位点
(x)
( x)dx 1 ( x)dx
z
z1
( x)
Pr[ X z ]
样本及其分布
S
2S 2 2 2
S12与 S22 的加权平均, 即
Sw2
n1
n1 1 n2
2
S12
n2 1 n1 n2
2
S22 ,
双正态总体的抽样分布
Sw2
n1
n1 1 n2
2
S12
n2 1 n1 n2
2
S22 ,
则 (1) (2)
U ( X Y ) (1 2 ) ~ N (0,1);
2 1
n1
2 2
t1 (n) t (n),
F1
(n1
,
n2
)
F
1 (n2
,
n1
)
.
9用总体的样本构
造出合适的统计量, 并使其服从或渐近地服从已知
总体分布. 统计量是进行统计推断的工具,
样本均值
X
1 n
n i 1
Xi
与样本方差
S 2
1 n1
n i 1
(Xi
X
)2
是两个最重要的统计量, 统计量的分布称为抽样分布.
~
.
2X
4
X
2
~
N (0,1).
4
例2 设总体 X ~ N (0, 2 ), X1, X2 ,, Xn 是取
自 X 的一个样本,
n
则有
X
2 i
i2
(n
1)
X
2 1
~
.
U
1
2
n i2
X
2 i
~
2 (n
1).
V
1
2
X
2 1
~
2 (1).
n
第六章样本及样本函数的分布
∼ t(n −1). .
Sn
177
概率论与数理统计全程学习指导
∑ = ∑ 【评注】 10
1 统计量 σ 2
n
(X i
−
μ)2
和
i =1
(n −1)S2 σ2
1 σ2
n
(X i
−
X )2
的分布在自由度上是
i =1
∑ ∑ 1
有差别的,这是因为在 σ2
n
(X i
−
X )2
中有一个约束条件
X
i =1
=1 n
x(1) ≤ x(2) ≤
≤x (k)
,并假设
x( i )
出现的频数为
ni
,那么
x( i )
出现的频率为
i = 1, 2, , k, k ≤ n . 函数
fi
=
ni n
,
⎧ 0,
⎪
∑ Fn (x)
=
⎪ ⎨
i
fj,
⎪ j=1
⎪⎩ 1,
x < x(1),
x(i) ≤ x < x(i+1), i = 1, 2, , k −1, x ≥ x(k).
③ χ2 分布的性质
10 若 χ2 ∼ χ2 (n) ,则 E(χ2 ) = n , D(χ2 ) = 2n ;
20
(可加性)若
χ
2
1
∼
χ2 (n1) ,
χ
2
2
∼
χ2 (n2 )
,且
χ
2
1
和
χ
2
2
相互独立,则
χ
2
1
+
χ
2
概率论 第六章 样本及抽样分布
一般,设 x1,x2, …,xn 是总体F的一个容 量为n的样本值,先将x1,x2, …,xn 按自小到 大的次序排列,并重新编号,设为
x(1) ≤x(2) ≤…≤x(n) 则经验分布函数Fn(x)的观察值为
0,
若x x(1) ,
性质:
(1) limf (t)
1
e ; t2 2
n
2
(2)当n 45时 取t (n) Z .
(三)设X~2(n1), Y~ 2(n2), 且X 与Y相互独立,则随机变量
F X/ n1 Y / n2
则称F服从第一自由度为n1,第二自由 度为n2的F分布,记作
F~F(n1 ,n2)
F分布的分布密度为
2 2
E( X 2 ) D( X ) (E( X ))2
2 2
n
E(S 2 )
E[ 1 n 1
n i 1
(Xi
X
)2 ]
E[
1
n
(
n 1 i1
X
2 i
2
n X )]
1
n
E(
n 1 i1
X
2 i
nX
2
)
1 [E( n 1
n i 1
X
2 i
)
E(n X
2
)]
1[ n 1
n i 1
考察某厂生产的电容器
的使用寿命。在这个试验 中什么是总体,什么是个 体。
解 个体是每一个电容器 的使用寿命;总体X是各个 电容器的使用寿命的集合。
2. 样本
为推断总体分布及各种特征,按一定规 则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样 本中所包含的个体数称为样本容量.
第三节抽样分布定理
0 2 2Байду номын сангаас
5 3 7
5. 求向量组:1 (1, 2,0,3),2 (2, 5, 3,6),3 (0,1,3,0),
3 (2, 1,4, 7),5 (5, 8,1,2)的秩与一个最大无关组(8分)
6.
求齐次方程组的一个基础
解系:32xx1153xx2242xx332xx44
0 0(10分)
(3) Z X 2 Y 2的概率分布.
1. 设随机变量X和Y的数学期望都是 2, 方差分别为 1和4而相关 系数为0.5, 则根据契比雪夫不等式求P{ X Y 6}
2. 设X服从参数为的指数分布,求(1)P( X EX ),
(2)P( X DX ). 3. 设随机变量X与Y的联合分布是以点(0,1),(1,0)(1,1)为顶点的 三角形区域上服从均匀分布,试求随机变量U X Y的方差.
9. 设随机变量X在区间[0,4]上服从均匀分布,求方程 t 2 2Xt 1 0
有实根的概率(8分)
10. 有一盒彩票20张,其中有2张中奖,现从中抽 3张,每抽一张
不放回,求第三次才中奖的概率( 8分)
11.已知随机变量X的概率密度为 f ( x)
kx 1,1 x 0, 其它
2,
8 x1 7 x2 6 x3 3 x4 0
7. 设向量组a1,a2,a3线性无关,证明向量组 b1 a1 2a2 3a3, b2 2a1 3a2 4a3,b3 4a3也线性无关(6分) 8. 一宿舍随机住有4位同学,求此 4位同学中至少有2位同学的生
日在星期几是相同的概率(8分)
服从均匀分布,记
U
10,,若若XX
Y, Y.
V
10,,若若XX
样本及其抽样分布基本概念
第六章
样本及抽样分布
第1,2节 基本概念
一、总体、个体 二、随机样本、直方图 三、样本函数与统计量 四、小结
一、总体与个体
一个统计问题总有它明确的研究对象.
研究对象的全体称为总体(母体), 总体中每个成员称为个体.
总体
总体 …
研究某批灯泡的心每个 个体的一项(或几项)数量指标和该数量指标 在总体中的分布情况. 这时,每个个体具有 的数量指标的全体就是总体.
直方图
5
8
4.5
7
4 6
3.5 5
3
2.5
4
2
3
1.5 2
1
1 0.5
0
0
140
150
160
170
180
190
200
147
157
167
177
187
197
三、统计量
由样本推断总体特征,需要对样本进行 “加工”,“提炼”.这就需要构造一些样本的 函数,它把样本中所含的信息集中起来.
1. 代表性: X1,X2,…, Xn中每一个与所考察的 总体X有相同的分布. 2. 独立性: X1,X2,…, Xn是相互独立的随机变量.
满足上述两条性质的样本称为简单随机样本. 获得简单随机样本的抽样方法称为简单随机抽样.
为了使大家对总体和样本有一个明确的 概念,我们给出如下定义:
定义 一个随机变量X或其相应的分布 函数F(x)称为一个总体.
4. 直方图 4.1 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最 常用方法之一是给出其频数分布表或频率分布表。
例3 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
样本及抽样分布
样本及抽样分布§6.1 基本概念一、总体:在统计学中, 我们把所研究的全部元素组成的集合称作母体或总体, 总体中的每一个元素称为个体。
我们只研究感兴趣的某个或者几个指标(记为X),因此把这些指标的分布称为总体的分布,记为X~F(x)。
二、样本:设总体X具有分布函数F(x),若X1, X2,…,Xn是具有分布函数F(x)的相互独立的随机向量,则称其为总体F(或总体X )的简单随机样本, 简称样本,它们的观察值x1,x2, …, xn称为样本观察值, 又称为X 的n 个独立的观察值。
三、统计量:设X 1, X 2, …, X n 是来自总体X 的一个样本, g (X 1, X 2, …, X n )是一个与总体分布中未知参数无关的样本的连续函数,则称g (X 1,X 2,…,X n )为统计量。
统计量是样本的函数,它是一个随机变量,如果x 1, x 2, …, x n 是样本观察值, 则g (x 1, x 2, …, x n )是统计量g (X 1, X 2, …, X n )的一个观察值.四、 常用的统计量:, ,)(x 11s ,,x 1x 1. n12i2n1i 称为样本方差均值仍称为样本它们的观察值为∑∑==--==i i x n n .B ,,1,2,X A ,1k 2.22221S S nn B k ≈-====当样本容量很大时时当时当3.kkkk若总体X 的k 阶矩E(X )存在,则当n时, A .P注:ni i 111. X X ;n ==∑样本均值2n 2i i 112. S (X );n-1X ==-∑样本方差n kk i 113. k A X , k 1, 2,;n i ===∑样本阶原点矩nk i i 114. k B (X ) , k 2, 3,.n k X ==-=∑样本阶中心矩4.样本的联合分布:2) 若总体X 是离散型随机变量,其分布律为 p x =P (X=x ) , x=x 1,x 2,… 则样本X 1, X 2, …, X n 的联合分布:11112(,,)(),,;(1,2,,)nn n i i i i P X y X y P X y y x x i n =======∏其中12n *12i 13)(), ,X , (, ,)()n n i X f x X X f x x x f x ==∏若具有概率密度则的联合概率密度为12121211)(),,,,, ,,,:()()n n n*n i i X ~F x X X X F X X X F x , x ,x F x ==∏若为的一个样本则的联合分布函数为例1:X~U (0,θ),X 1, X 2, …, X n 是来自X 的样本,求(X 1, X 2, …, X n )的联合密度函数。
随机样本及其累积分布函数
随机样本及其累积分布函数
随机样本是统计学中常用的概念,用于描述从一个总体中抽取的一组观测值。
随机样本的累积分布函数是对随机样本的概率分布进行描述的重要工具。
随机样本的定义
随机样本是指从一个总体中以随机方式选取的一组观测值。
在统计学中,为了对总体进行推断和研究,我们通常无法直接获得总体的全部观测值,而只能通过抽取一部分样本来进行研究。
随机样本是通过随机抽样方法获得的,具有代表性并且能够反映总体的特征。
累积分布函数的定义
累积分布函数是对随机样本的概率分布进行描述的一种函数形式。
在数学上,累积分布函数是一个实值函数,其定义域为实数集合,值域为[0,1]。
对于一个给定的随机变量x,其累积分布函数
F(x)定义为:F(x) = P(X ≤ x),其中X表示随机变量。
累积分布函数可以用来描述随机变量小于或等于某个特定值的
概率。
在统计学中,我们经常使用累积分布函数来计算样本的概率,并进行概率统计推断。
总结
随机样本和累积分布函数是统计学中常用的概念和工具。
随机
样本用于描述从一个总体中抽取的一组观测值,而累积分布函数则
是对随机样本的概率分布进行描述的函数形式。
了解和应用随机样
本和累积分布函数对于进行有效的统计分析和推断非常重要。
以上是关于随机样本及其累积分布函数的简要介绍。
(Word count: 187)。
概率论第六章样本及抽样分布
本相互独立,记
1 n1 X Xi n1 i 1 1 n2 Y Yi n2 i 1
则有 ⑴
2 1 2 2 2 1 2 2
1 n1 S12 ( X k X )2 n1 1 k 1 1 n2 2 S2 (Yk Y ) 2 n2 1 k 1
S / ~ F (n1 1, n2 1) S /
⑵ 当 时
2 1 2 2 2
X Y ( 1 2 ) ~ N (0,1) 1 1 n1 n2
(n1 1) S12
2 1
2 (n2 1) S2
2 2
~ 2 (n1 n2 2)
X Y ( 1 2 ) ~ t (n1 n2 2) 1 1 S n1 n2
2
又因为
(n 1)S 2
2
~ (n 1)
2
X n1 X n
故 Y
(n 1) S 2
n n 1 ~ t (n 1) /(n 1)
2
X n1 X n Y S
n ~ t (n 1) n 1
例4
设总体X , Y 相互独立 X ~ N (0,32 ) , Y ~ N (0,32 ) ,
2
X n1 X n n X 1 , X 2 ,, X n , X n1 , 求 Y 的分布 . S n 1 1 n 1 n 2 2 其中 X n X i , S ( Xi X n ) n i 1 n 1 i 1
1 2 解 由已知得 X n1 ~ N ( , ) , X n ~ N ( , ) , n n 1 2 所以 X n1 X n ~ N (0, ) n n 标准化得 X n1 X n ~ N (0,1) n 1
统计学中的样本分布和总体分布
统计学中的样本分布和总体分布在统计学中,样本分布和总体分布是两个重要概念,用于描述数据的分布情况。
本文将介绍样本分布和总体分布的概念、特点以及它们在统计分析中的应用。
一、样本分布1. 概念样本分布是指从总体中选取的一组数据所形成的频数分布或概率分布。
它描述了样本中不同观测值的出现频率或概率。
2. 特点样本分布是基于在总体中抽取样本所得到的数据,因此它仅反映了样本的特征,并不能完全代表总体的分布情况。
样本分布的特点包括:均值、方差、偏度、峰度等。
3. 应用样本分布在统计分析中常用于推断总体参数、假设检验以及构建预测模型等。
通过对样本的统计量进行估计和推断,可以对总体的特征进行分析和预测。
二、总体分布1. 概念总体分布是指研究对象中所有个体所形成的频数分布或概率分布。
它描述了总体中不同观测值的出现频率或概率。
2. 特点总体分布是基于研究对象的整体数据,它反映了研究对象的全部特征。
总体分布的特点包括:均值、方差、偏度、峰度等。
3. 应用总体分布在统计分析中常用于描述研究对象的分布情况,比如人口年龄结构的分布、产品质量的分布等。
通过对总体的分布进行分析,可以了解总体的特征及规律,从而指导决策和预测。
三、样本分布与总体分布的关系1. 抽样误差样本分布与总体分布之间存在抽样误差。
由于样本是通过抽样来获得的,所以样本分布与总体分布可能存在差异。
抽样误差的大小与样本容量有关,样本容量越大,抽样误差越小。
2. 中心极限定理中心极限定理是统计学中的基本原理之一,它指出,样本容量足够大时,样本均值的分布近似服从正态分布。
这意味着,当样本容量足够大时,样本分布的特征可以反映总体分布的特征。
3. 参数估计通过样本分布的统计量,可以对总体的参数进行估计。
常用的参数估计方法有点估计和区间估计。
点估计是通过样本分布的统计量来估计总体参数的某个具体值,而区间估计则是通过样本分布的统计量来估计总体参数的范围。
综上所述,样本分布和总体分布是统计学中的重要概念,它们描述了数据的分布情况,并在统计分析中发挥了重要作用。
(完整版)样本及抽样分布
第六章样本及抽样分布【基本要求】1、理解总体、个体和样本的概念;2、理解样本均值、样本方差和样本矩的概念并会计算;3、理解统计量的概念,掌握几种常用统计量的分布及其结论;4、理解分位数的概念,会计算几种重要分布的分位数。
【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布,F分布;分位数的理解和计算。
【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。
【学时分配】4学时【授课内容】§6.0 前言前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。
它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。
所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。
其研究方法是归纳法(部分到整体)。
对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。
数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。
§6.1 随机样本一、总体与样本1.总体、个体在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。
例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。
但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。
在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。
在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。
6样本及抽样分布
1 n 2 样本方差 S 2 (Xi X ) n 1 i 1 n 2 1 2 X i nX n 1 i 1
1 样本标准差 S S n 1 i 1
2
它反映了总体方差 n ( X 的信息2 X)
i
西华大学数学与计算机学院
西华大学数学与计算机学院
14
它们的观察值分别为:
1 n x xi n i 1
样本均值
概 率 论 与 数 理 统 计 课 件
样本方差
n 1 n 1 2 2 2 s ( xi x ) [ x i nx 2 ] n 1 i 1 n 1 i 1
s
1 n ( xi x )2 n 1 i 1
注:统计量是随机变量。
x1,x2,„, xn是相应于样本X1,X2,„, Xn的样本值, 则称g(x1,x2,„, xn)是g(X1,X2,„, Xn)的观察值。
西华大学数学与计算机学院
11
思考?Biblioteka 概 率 论 与 数 理 统 计 课 件
设 X 1 , X n 为来自总体 X ~ N ( , 2 ) 的一个样本, 其中未知 , 2已知, 问下列随机变量中那些是统计量
数理统计不同于一般的资料统计,它更侧重 于应用随机现象本身的规律性进行资料的收集、 整理和分析. 由于大量随机现象必然呈现出它的规律性,
因而从理论上讲,只要对随机现象进行足够多
次观察,被研究的随机现象的规律性一定能清
楚地呈现出来.
西华大学数学与计算机学院
5
现实世界中存在着形形色色的数据, 分析这些 数据需要多种多样的方法.
P
依概率收敛的序列性质知道 g为连续函数
第六章 样本及抽样分布
∑
n
i =1
X i , k = 1,2 , L
k
( 5 ) 样本 k 阶(中心)矩 中心)
∑
n
i =1
( X i − X ) k , k = 1,2 , L
常用统计量的性质
以下约定: 表示总体的均值, 表示总体的方差, 以下约定: µ 表示总体的均值, σ 2 表示总体的方差, α k 表示 总体的 k阶原点矩, µ k 表示总体的 k阶中心矩,即记 阶原点矩, 阶中心矩, EX = µ , D ( X ) = E ( X − µ ) 2 = σ 2 EX k = α k , E ( X − µ ) k = µ k 并且约定, 并且约定,在我们用到 α(或 µ k)时,假定它是存在的 。 k 定理 1 设总体 X 服从分布 F ( x ), X = ( X 1 , X 2 , L , X n )是从该总体
第六章 样本及抽样分布
数理统计的基本概念 抽样分布
退出 返回
Байду номын сангаас
数理统计的基本概念
总体和样本 统计量 顺序统计量和经验分布函数
继续
返回
总体、 总体、个体
总体:在统计学中, 总体:在统计学中,把所研究的全部元素组成 的集合称为母体, 总体。 的集合称为母体,或总体。 个体:而把组成母体的每个元素称为个体, 个体:而把组成母体的每个元素称为个体, 个体 例如:灯泡的平均寿命, 例如:灯泡的平均寿命,该批灯泡的全体就组 成了母体,而其中每个灯泡就是个体。 成了母体,而其中每个灯泡就是个体。但是在统 计里, 计里,由于我们关心的不是每个个体的种种具体 特性,而仅仅是它的某一项或某几项数量指标X 特性,而仅仅是它的某一项或某几项数量指标 和该数量指标X在总体中的分布情况 和该数量指标 在总体中的分布情况
第六章样本及抽样分布
P
2 2 (n)
2 (n)
f
(
y)dy
的点2 (n)为2(n)分布的上分位点,
如图所示.
2
(n)可通过查表求,例
02.1(25) 34.382.
2
(
n)
2、t 分布
定义: 设X~N(0,1) , Y~ 2(n) , 且X与Y相互
独立,则称变量
t X Yn
所服从的分布为自由度为 n的 t 分布.
即学生年龄的取值有一定的分布.
总体分布为
年龄 15 16 17 18 19 20 比率 9 21 132 1207 588 43
2000 2000 2000 2000 2000 2000
由于每个个体的出现是随机的,所以相应的数量指 标的出现也带有随机性 . 从而可以把这种数量指标看 作一个随机变量X ,因此随机变量X的分布就是该数 量指标在总体中的分布.
Xi
它反映了 总体均值 的信息
S 2
1 n1
n i 1
(Xi
X )2
n
1
1
n
X
2 i
i 1
nX
2
样本标准差
S
n
1
n
1
(
i 1
X
i
X
)2
样本k阶原点矩
Ak
1 n
n i 1
X
k i
k=1,2,…
样本k阶中心矩
Bk
1 n
n i 1
(Xi
X )k
它反映了总体k 阶矩的信息
它反映了总体k 阶 中心矩的信息
1. 代表性: X1,X2,…,Xn中每一个与所考察的总体有 相同的分布.
概率论与数理统计6.第六章:样本及抽样分布
),
,
,
,
是来
Z=
(
-
证明统计量 Z 服从自由度为 2 的 t 分布。
14
),
,
,
,
是来 , .ຫໍສະໝຸດ 自 总 体 X 的 样 本 , E( ) 则 ,D( )=
是来自总体 X ,D(X)= . ,
,D( )=
11
3. 设 , 本 ,E(X)=
, , 为来自总体 X 的样 ,D(X)=9, 为样本均值 , 试用 < ≥ ,
切比雪夫不等式估计 P{ P{ 4.设 , 则当 K= > ≤ , , . 是总体 X
lim f (t ) (t )
n
1 e 2
t2 2
, x
3.分位点 设 T~t(n), 若对 :0<<1,存在 t(n)>0,
4
满足 P{Tt(n)}=, 则称 t(n)为 t(n)的上侧分位点 注: t1 (n) t (n) 三、F—分布 1.构造 若 1 ~2(n1), 2~2(n2),1, 2 独立,则
y0
2. F—分布的分位点 对于 :0<<1,若存在 F(n1, n2)>0, 满足 P{FF(n1, n2)}=, 则称 F(n1, n2)
5
为 F(n1, n2)的上侧 分位点; 注: F1 (n1 , n2 )
1 F (n2 , n1 )
§ 6.3 正态总体的抽样分布定理
X Y /n ~ t ( n)
t(n)称为自由度为 n 的 t—分布。 t(n) 的概率密度为
n 1 ) 1 t 2 n2 2 f (t ) (1 ) , t n n n ( ) 2 (
第一节 样本及其分布
第一节 样本及其分布4.1.1 总体和样本[识记]实际中很多不确定现象都可以用随机变量描述,而应用中的一个十分重要的问题是找到随机变量的分布或其数字特征。
例如:某进出口贸易公司进口了10万台微型计算器,按产品技术规定,使用寿命小于4000小时即为次品,且次品率大于1% 就不接受这批产品。
如何得知这批产品的次品率呢?是否要测量每一台计算器呢?显然,这是不现实的,解决这个问题的好办法就是随机抽样,然后根据抽样检验得到的次品率来估计整批产品的次品率。
也就是从10万台产品中按随机原则,抽取一部分(假如100件)产品组成一个样本,由样本(100件产品)次品率推断整批产品的次品率。
这里,我们把被观察对象的全体(本例中的10万台计算器)称作总体,把从总体中随机抽取的(被抽中的100台计算器)小群体称作样本,而样本中所包含的个体单位数目称为样本容量(100个)。
对于这批计算器,我们关心的是它的使用寿命(低于4000小时的比例有多少)的分布,设X 表示“任一台计算器的使用寿命”,它是一个随机变量,我们把随机抽中的100件产品看作是100个随机变量X 1,X 2……,X 100,每一个计算器的使用寿命都是一个随机变量,一旦测试完毕,测试的结果就是100个观测值x 1,x 2,……x 100,统计抽样的任务就是根据测试结果x 1,x 2,……x 100来估计总体X 的分布情况。
我们作如下概括:设X 是一个随机变量,X 1,X 2……,X n 是一组相互独立与X 具有相同分布的随机变量,称X 为总体,X 1,X 2……,X n 为来自总体的简单随机样本,简称样本,n 为样本容量,称样本观察值为样本值,由于按随机原则取样,在试验之前,人们无法知道试验的结果,所以X 1,X 2……X n ,是一组随机变量,而在试验之后,得到一组X 1,X 2……,X n 的观察值x 1,x 2,……x n ,,它们则是一组确定的数值。
4.1.2 样本统计量与抽样分布[识记]总体实际上就是一个随机变量X,有一定的概率分布和分布的数字特征。
样本数量及分布
样本数量及分布本次关于地方政府公共服务满意度的调查,共经过38个城市调查,获取了25115份有效问卷,平均每个城市660份左右,具体问卷数量如表1所示。
表1 各城市有效问卷数量1.性别分布在参与调查的人群中,填写了性别的共有24792人,具体分布见表2。
从性别比上来看,与我国第六次人口普查的性别比例(105.2∶100)略有差距,但差距较小。
可以说在男女样本配比方面是比较合理的。
表2 性别分布2.户籍分布在2011~2012年的调查中,我们新增了关于样本户籍的甄别。
这是考虑到由于国家的户籍政策,很多城市的本地人口与外地人口所享受到的基本公共服务有所不同。
为了更全面地反映当地情况,我们在调查中要兼顾本地与外地户籍人口。
具体的样本分布情况见表3。
可以看出本地人口占到近六成,外地人口占到四成多,这样的分布比例能够比较全面地调查出当地的公共服务情况。
表3 户籍分布3.学历分布在本地调查的实地访问结果中,受过高等教育的样本群体占65.51%,具体分布情况见表4。
其中占主流的是受过大学教育(大专和本科)的人,占58.83%。
这不仅比所调查城市的平均水平要高(参考第六次人口普查数据),而且与2010~2011年的调查相比,受过高等教育的人口比例略有提高。
受过高等教育的群体对地方政府的基本公共服务感知力更强,更有诉求的意识,而且也更能接受和理解问卷调查的方式和内容,能够准确表达自己观点。
表4 学历分布调查显示,不同学历的关注度略有不同。
对于不同学历而言(见表5),所有学历层次都把社保就业作为第一关注;把医疗卫生作为第二关注;第三关注略有变化,初中及以下、高中(中专技校)和大专把住房作为第三关注,而本科则把社保就业作为第三关注,不过与低于本科学历的群体所关注的第三关注相差不大;研究生则把医疗卫生作为第三关注。
从总体上看,社保就业、医疗卫生与住房是最为关注的三个基本问题。
表5 不同学历对基本公共服务项目的关注度续表4.工作单位性质分布在工作单位的分布方面,22.78%的受访者为国家行政机关或事业单位工作人员,66.31%的受访者为企业工作人员,自由职业者和其他形式就业或未就业的人员占10.91%(见表6)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并称他们相应的观统测称值为x
样n1
本n xi
i 1
,矩
s2n11in1(xi x)2,
s n11 in1(xi x)2,
a
k
1 n
n i 1
xik
,
bk n1in1(xi x)k, k=1,2,…
仍分别为: 样本均值、样本方差、样本标准差、样本 k 阶原点矩、 样本 k 阶中心矩.
统ex计3.量的重要性质 设 X1, X2, …, Xn 是来自总体 X 的容量为 n 的样本,
1、估计这批合金材料的强度均值是多少? (参数的点估计问题) 2、强度均值在什么范围内? (参数的区间估计问题) 3、若规定强度均值不小于某个定值为合格,那么这 批材料是否合格? (参数的假设检验问题) 4、这批合金的强度是否服从正态分布? (分布检验问题) 5、若这批材料是由两种不同工艺生产的,那么不同 的工艺对合金强度有否影响?若有影响,那一种工艺 生产的强度较好? (方差分析问题)
当个体个数很大时通常把有限总体看作无限总体。
从另一方面看: 统计的任务,是根据从总体中抽取的样本, 去推断总体的性质. 由于我们关心的是总体中的个体的某项指标(如人的身高、体重, 灯泡的寿命,汽车的耗油量…), 所谓总体的性质,无非就是这 些指标值集体的性质. 概率分布是刻划这种集体性质最适当的工具. 因此在理论上可 以把总体与概率分布等同起来. 如研究某批灯泡的寿命时, 关心的数量指标就是寿命, 那么, 此 总体就可用描述其寿命的随机变量 X 或用其分布函数 F(x)表示.
6、若这批合金 由几种原料用不同的比例合成,那么 如何表达这批合金的强度与原料比例之间的关系?
(回归分析问题) 我们依次讨论参数的点估计、区间估计、假设检验等 内容。 首先我们讨论数理统计中的一些基本概念。
第5章 样本及其分布
在数理统计中,我们所研究的随机变量 的分布往往是未知的,通过对随机变量进行 多次独立重复的试验和观测,获取数据,利 用实际观测数据研究随机变量的分布,对其 分布函数、数字特征等进行估计和推断.
数理统计
Tel: Email:
数理统计的基本概念
在概率论中,我们所研究的随机变量,它的分布 都是假设已知的,在这一前提下去研究它的性质、 特点和规律性,例如求出它的数字特征,讨论随机 变量函数的分布等。但是对一个实际问题,随机变 量的概率分布往往是不知道的,如何确定随机变量 的概率分布或数字特征就是数理统计要解决的问题。
简单随机样本是应用中最常见的情形, 今后, 说到 “X1, …, Xn 是取自某总体的样本”时, 若不特别说明, 就指简单随机样本.
若总体 X的分布函数为F(x), 则其简单随机样本的联合分布函数为 n F(x1, x2, …, xn )= F(x1)F(x2)…F(xn) F ( xi ).
若总体 X 的概率密度为 f (x), 则其简单随机样本的i1联合概率密度为 n f(x1,,xn)f(xi). i1
在数理统计中总体X的分布永远是未知的,即使 有足够的理由可以认为总体X服从某种类型的分布, 但这个分布的参数还是未知的。
例如本市家庭的月收入X是个随机变量,X服从什么
分布事先是不清楚的,根据资料可确信 X~N ,2.
但 , 2 究竟取什么值还是未知的,
由于总体X的分布是未知的,因此X的数字特征如 均值、方差等往往也是一个未知的值。对于这些未知
× 3
i1
(
X
i
)2
我们主要研究两种基本的统计量: 样本矩 和 顺序统计量
10 样本矩 ——
样本均值
X
1 n
n
i 1
反映了总体均值的信息
几个常见的统计量
它反映了总体标准差的信息
Xi
样本标准差 S n11 in1(Xi
X)2
它样它反本反样映映了本k了阶总方总体原体差k点方阶S差矩矩2的的A信n信k1息息1n1 in1in(1XXiikX)2n 样反1 映1 本(了 iSn kn总1阶X 体i2n1中 iknn 212(阶心nXX X Xi中2 矩 i 2n ) X心1)X 2矩nBSiXk的 n22n 信)X n1n1息2in)in11((XXiki=1X,X2)k,)…2
总体(理论分布)?
样本值
样本
统计是从手中已有的资料 — 样本值, 去推断总体的情况 —总体
分布F(x)的性质. ? ?样?本是联系二者的桥梁
总体分布决定了样本取值的概率规律,也就是样本取到样本值
的规律, 因而可以由样本值去推断总体.
分散、复杂
是总体的代表, 含有总体的信息
§2 统计量
1. 统计量
由样本值去推断总体情况, 需要对样本值进行“加工一个有效
若 X 有期望 EX= 和方差 DX = 2, 则
(1)
EX
1
n
n i1
EXi
=DX,
1 n2
n
DXi
i1
= 2/n ;
(2) E(S2) =? 2 ,
E(Sn2)
?n
n
1
2
;
n
11n1
n
E[(Xi X)2] i1
n
E(Xi2)nE(X2) i1
in 1(DXiE2Xi)n(DXE2X)n(22)n(n22)
再如, 若研究某地区中学生的营养状况时, 关心的数量指标是身 高和体重, 我们用X和Y分别表示身高和体重,那么此总体就可用二 维随机变量(X,Y)或其联合分布函数 F(x, y)来表示.
总体概念的要旨: 总体就是一个概率分布
当X为离散型时,称X的概率函数(分布列)为 总体概率函数。 当X为连续型时,称X的概率密度为总体密度函数。 当总体分布为指数分布时, 称为指数分布总体; 当总体分布为正态分布时,称为正态分布总体或 简称正态总体等等.
计 推断统— 计学—
的
对已取得的观测值进行整理、
分
分析,作出推断、决策,从而
类
找出所研究的对象的规律性
推断 统计学
参数估计 (第6章) 假设检验 (第7章) 方差分析 (第8章) 回归分析 (第8章)
例如 某厂生产一型号的合金材料,用随机的方法选取 100个样品进行强度测试,于是面临下列几个问题:
的方”法, 就是构造一些样本的函数, 通过样本函数把样本中所含的
(某一方面)的信息集中起来.
样本的函数
这种不含任何未知参数、完全由样本决定的量称为统计量
定义 设X1, X2, …, Xn 是来自总体 X 的容量为 n 的样本, 若样本函数 g(x1, …, xn)中不含任何未知参数, 则称 g(x1, …, xn)是
数理统计是一个内容十分丰富的数学分支。 它既有严格的理论,更有极其广泛的应用。而且 随着科技的发展其研究内容还在不断地充实提高。
数理统计学是一门应用性很强的学科. 它 是研究怎样以有效的方式收集、 整理和分析带 有随机性的数据,以便对所考察的问题作出推 断和预测,直至为采取一定的决策和行动提供
依据和建议.
(n1)2,
DCXC2X
DXEX2EX2
2 顺序统计量与极差
设 (X1,X2,,Xn) 为样本, (x1,x2,,xn)为样本值,且 x1 *x2 *xn * 当 (X1,X2,,Xn)取值为(x1,x2,,xn)时, 定义 r.v. X(k) xk*,k1,2,,n 则称统计量X(1),X(2),,X(n) 为顺序统计量.
另一类是研究如何分析所获得的随机数据,对所研究 的问题进行科学的、合理的估计和推断,尽可能地为 采取一定的决策提供依据,作出精确而可靠的结论. 这部分的内容称为推断统计学,如:参数估计、假设 检验等。
我们主要讨论有关推断统计学中几个最基本的 问题。
描述统—计—学
数
对随机现象进行观测、试验,
理 统
以取得有代表性的观测值
体进行观察试验以获得有关总体的信息. 这一抽取过程称为抽样,
所抽取的部分个体称为样本. 样本中所包含的个体数目称为样本容
量.
从国产轿车中抽5辆 进行耗油量试验
样本容量为 5
抽到哪 5 辆是随机的!
样本是随机变量
容量为 n 的样本可以看作一 n 维随机变量(X1, X2, …, Xn). 但是,一旦取定一组样本,得到的是 n 个具体的数 x1, x2, …, xn , 称为样本(X1, X2, …, Xn)的一组观测值,简称样本值 .
本章作为数理统计基础,学习总体、样 本、统计量与抽样分布等有关概念,以及有 关正态总体的重要的抽样分布定理.
5.1 简单随机样本
一.总体和样本 二.统计量
§1 总体和样本
1.总体 一个统计问题总有它明确的研究对象.
研究对象的全体称为总体(母体),总体中每个对象称为个体.
总体 研究某批灯泡的质量
该批灯泡寿命的全体就是总体
总体
每公里的耗油量
灯泡的寿命
考察国产 轿车的质量
所有国产轿车每公里耗油量的全体就是总体
不过在统计研究中,人们关心总体仅仅是关心
其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布
情况. 这时,每个个体具有的数量指标的全体就是总体.
称总体中所含个体的数目为总体容量, 总体容量有限的称为有 限总体, 总体容量无限的称为无限总体.
样本的值域称为样本空间。
抽样的目的是为了对总体进行统计推断,为了使抽取的样本能 很好地反映总体的信息,必须考虑抽样方法.
最常用的一种抽样方法叫作简单随机抽样, 它要求抽取的样本 X1, X2, …, Xn 满足下面两点:
1.独立性: X1, X2, …, Xn 是相互独立的随机变量 ; 2.代表性: Xi (i =1,2,…,n) 与所考察的总体 X 同分布. 由简单随机抽样得到的样本称为简单随机样本,它可以用与总体 同分布的 n 个相互独立的随机变量 X1, X2, …, Xn 表示.