数理统计基本概念
第六章 数理统计的基本概念pdf_(一)基本要求
.第六章 数理统计基本概念
一、基本要求、重点与难点
(一)基本要求
1.理解总体、个体、简单随机样本和统计量的概念。掌握样本均值和样本 方差的计算。
(2)设 X ~ χ 2 (n) ,则 E(X)=n,D(X)=2n .
若 X ~ χ 2 (n) ,对于α (0 < α < 1) ,称满足 P( X > χα2 (n)) = α的点χα2 (n) 为 χ 2 (n) 分布的
上侧α 分位点。当 n>45 时,R.A.Fisher 证明了下面的近似公式
( ) χα2
(n)
≈
1 2
uα +
2
2n −1 ,
其中 uα 为标准正态分布的上侧α 分位点。
2、 自由度为 n 的 t 分布:
定义设 X1, X2 独立,X1~N(0,1), X2~ χ 2 (n) ,则称
T (n) = X1 X 2 n
的分布是自由度为 n 的 t 分布,简记为 t(n) ,亦称为学生(student)分布。这种分布是英国人 w.s.Gosset 在 1908 年以笔名”student”发表的,它是数理统计中最重要的分布之一。 命题 设 T(n)是自由度为 n 的 t 分布,则它的概率密度函数为:
2.会列出分组数据统计表。 3.了解X2-分布、t-分布和F-分布的定义及性质。了解分位数的概念并会查
表计算。 4.掌握正态总体的抽样分布规律。
(二)重点
1.样本均值和样本方差的计算。 2.分组数据统计表。 3.正态总体的抽样分布规律。
数理统计基本概念
P{6.262 χ 2 24.996}
2 2
P{χ 6.262} P{χ 24.996}
0.975 0.05 0.925
注意 应注意分布表的定义与查法!
#
数理统计基本概念
3.自由度为 n的 t 分布 作笔名发表文章.
T~t(n)
又称学生氏分布--第一个研究者以Student
( X 1 , X 2 , , X n ) ~ ( 2 ) e
n 2 2
i 1
( xi )2 2 2
n
数理统计基本概念
四、统计量 定义6.1.2 设X1 , X2 , ·, Xn是总体X的样本, · · T为n元实值函数,若样本的函数 T=T(X1 , X2 , ·, Xn) · · 是随机变量且不含未知参数,称 T为统计量. 对相应的样本值( x1 , x2 , … , xn ) ,称 t =T( x1 , x2 , … , xn )
理
统
计
的
引
入
数理统计基本概念
某厂生产的一批产品中次品率为 p 。从中 抽取10件产品装箱。 概
1)没有次品的概率 2)平均有几件次品
率
3)为以 0.95的概率保证箱中 有10件正品,箱中至少要装多 少件产品。
数
理
统
计
的
引
入
数理统计基本概念
所有这些问题的关键是 p 是已知的! 如何获取 p ? 这就是数理统计的任务了!
定的α(0<α<1),数uα满足
P{ X u } ,
(C ) u1 ;
数理统计的基本概念
n 1 2
, x .
t 分布的概率密度图形
图形关于 x 0 对称, lim f ( x; n) 0 , 且 x 当 n 充分大时,f (x; n) 趋近于标准正态 分布的概率密度。
定理 4: X 1, 2, , n 是抽自正态总体 设 X X
若总体 X 是离散型的,其分布律为:
则样本的联合分布为
§6.2 抽样分布
6.2.1 统计量的概念 由样本推断总体的某些情况时,需要对样本进行“ 加工”,构造出若干个样本的已知 (确定)的函数, 其作用是把样本中所含的某一方面的信息集中起来 。 这种不含任何未知参数的样本的函数称为统计量。 它是完全由样本所决定的量。 定义2:设 X 1 , X 2 , , X n 是来自总体X的样本, g( X 1 , X 2 , , X n ) 是样本 X 1 , X 2 , , X n 的函数,如果 g( X 1 , X 2 , , X n ) 中不包含任何未知参数,则称它 是一个统计量。
1 (0.82)
1 0.7939 0.2061
X ~ N (0, 22 ), X1 , X 2 , X3 , X 4 为其样本,求a,b 例2:总体
(2). (n 1)S / ~ (n 1)
2
X (1). X ~ N ( , / n), 或 ~ N (0,) ; 1 / n 2 2 2
2
X (3). X 与 S 相互独立; (4). ~ t(n 1). S/ n
定理5:设X1, X2, …, Xm 与Y1, Y2, …, Yn分别来自总体 2 两样本独立, X ~ N ( 1 , 12 )和Y ~ N ( 2 , 2 )的样本, 2 S12 / S2 则有 F 2 ~ F ( m 1, n 1). 2 1 / 2 定理6*:设X1, X2, …, Xm 与Y1, Y2, …, Yn分别来自
数理统计的基本概念
第6章
§6.1-6.2
第10页
设(X1,X2,…,Xn)为来自总体X的简单随机样本 1 n 1.样本均值: X X i 常用于估计总体分布的均值,或 检验有关总体分布均值的假设。 n i 1
n 1 2 S2 ( X X ) 2.样本方差: i n 1 i 1
首页 上页 返回 下页 结束
第6章
§6.1-6.2 §6.1 样本及抽样分布
第3页
数理统计的核心问题是由样本推断总体,即统计推断
6.1.1 总体、个体与样本
1. 总体:研究对象的全体称为总体(母体),用X表示, 它是一个随机变量. 总体分为有限总体和无限总体. 个体:组成总体的每个研究对象称为个体.
i 1 i 1
i
ki !
e
首页
上页
返回
下页
结束
第6章
§6.1-6.2
第8页
3 加工某零件时,每一件需要的时间服从均值为1 / 的 指数分布,今以加工时间为零件的数量指标,任取n件 零件构成一个容量为n的样本,求样本分布.
解:零件的加工时间为总体X,则X ~ E ( ), 其概率 e x x0 密度为 f ( x) x0 0 于是样本( X 1 , X 2 , X n )的密度为 f ( x1 , x2 , xn )
样本容量为5
首页 上页 返回 下页 结束
第6章
§6.1-6.2
第5页
样本是随机变量. 抽到哪5辆是随机的
容量为n的样本可以看作n维随机变量(X1, X2, …, Xn). 一旦取定一组样本,得到的是n个具体的数 (x1,x2,…,xn),称为样本的一次观察值,简称样本值 .
数理统计的基本概念
样本k阶原点矩 样本 阶原点矩 样本k阶中心矩 样本 阶中心矩
河南理工大学精品课程
1 Ak = n 1 Bk = n
∑ ∑
n
n
i =1
X ik ( k = 1, 2 , L )
i =1
( X i − X ) k ( k = 1, 2 , L )
概率论与数理统计
说明 (修正 样本方差还可表示为 修正)样本方差还可表示为 修正
n 1 S2 = [ ∑ X i2 − n X 2 ] n − 1 i =1
1 n 推导】 【推导】 S 2 = ( X i − X )2 ∑ n − 1 i =1 = = = =
河南理工大学精品课程
1 n ( X i2 − 2 X i X + X 2 ) ∑ n − 1 i =1 n n n 1 [ ∑ X i2 − 2 X ∑ X i + ∑ X 2 ] n − 1 i =1 i =1 i =1 n 1 [ ∑ X i2 − 2 n X 2 + n X 2 ] n − 1 i =1 n 1 [ ∑ X i2 −n X 2 ] n − 1 i =1
河南理工大学精品课程 概率论与数理统计
做法
从总体中随机地抽取若干个体(灯泡、 从总体中随机地抽取若干个体(灯泡、工大男
生),测试其所需数据(寿命、身高),最后对所得数据通过 ),测试其所需数据 寿命、身高), 测试其所需数据( ),最后对所得数据通过 整理加工和分析来推断总体(这批灯泡寿命、 整理加工和分析来推断总体(这批灯泡寿命、工大男生身 高)的分布情况,从而了解整体情况. 的分布情况,从而了解整体情况. 一般,我们所研究的总体的某项数量指标X 一般,我们所研究的总体的某项数量指标X是一个随 机变量,其取值在客观上有一定的分布.因此, 机变量,其取值在客观上有一定的分布.因此,对总体的研 究,就是对相应的随机变量X的研究。 就是对相应的随机变量X的研究。 今后,我们称X 今后,我们称X的分布函数和数字特征分别为总体的 分布函数和数字特征, 分布函数和数字特征,并不再区分总体与相应的随机变量 X.对总体的称呼 总体,总体X 总体F X.对总体的称呼:总体,总体X与总体F. 对总体的称呼:
第六章 数理统计的基本概念
1 n 2 S S ( X X ) i n 1 i 1
2
(4) 样本k阶(原点)矩
1 n k Ak X i n i 1
k 1, 2,
k 2,3,
(5) 样本k阶中心矩
1 n Bk ( X i X )k n i 1
§2
常用统计量的分布
统计量的分布称为抽样分布.下面介绍三种由 正态总体演化而来的统计量的分布:
• 从二战后到现在,是统计学发展的第三个时期,这是一个在 前一段发展的基础上,随着生产和科技的普遍进步,而使这 个学科得到飞速发展的一个时期,同时,也出现了不少有待 解决的大问题.
学科奠基者
数理统计作为一个进一步完善的数学学科的奠基者是英国人费歇尔。他1909 年入剑桥大学,攻读数学物理专业,三年后毕业。毕业后,他曾去投资办工 厂,又到加拿大农场管过杂务,也当过中学教员。1919年,他开始对生物统 计学产生了浓厚的兴趣,参加罗萨姆斯泰德试验站的工作,致力于数理统计 在农业科学和遗传学中(费歇尔1890—1962)的应用研究。 年轻的费歇尔主要的研究工作是用数学将样本的分布给以严格的确定。 在一般人看来枯燥乏味的数学,常能带给研究者极大的慰藉,费歇尔热衷于 数理统计的研究工作,后来的理论研究成果有:数据信息的测量、压缩数据 而不减少信息、对一个模型的参数估计等。 最使科学家称赞的工作则是试验设计,它将一切科学试验从某一个侧面 “科学化”了,不知节省了多少人力和物力,提高了若干倍的工效。 费歇尔培养了一个学派,其中有专长纯数学的,有专长应用数学的。在30- 50年代费歇尔是统计学的中心人物。1959年费歇尔退休后在澳大利亚度过了 最后三年。
若 x1 , x2 , , xn 是样本的观察值, 则 g ( x1 , x2 , xn ) 是 g ( X 1 , X 2 , X n )
数理统计基本概念
1 1 n1 n2
~ t ( n1 n2 2)
定理 5 (两总体样本方差比的分布)
且X与Y独立, 设X ~ N ( 1, ), Y ~ N ( 2 , ), X1, X2,…, X n1是取自X的样本, Y1,Y2,…, Yn2 是
样本是联系二者的桥梁 总体分布决定了样本取值的概率规律, 也就是样本取到样本值的规律,因而可以由 样本值去推断总体.
二、统计量和抽样分布 1. 统计量 由样本值去推断总体情况,需要对样本 值进行“加工”,这就要构造一些样本的 函数,它把样本中所含的(某一方面)的 信息集中起来.
这种不含任何未知参数的样本的函数 称为统计量. 它是完全由样本决定的量.
2. 独立性: X1,X2,…,Xn是相互独立的随机 变量.
由简单随机抽样得到的样本称为简单 随机样本,它可以用与总体独立同分布的 n个相互独立的随机变量X1,X2,…,Xn表示.
若总体的分布函数为F(x),则其简单随机 样本的联合分布函数为 F(x1) F(x2) … F(xn) 简单随机样本是应用中最常见的情 形,今后,当说到“X1,X2,…,Xn是取自某 总体的样本”时,若不特别说明,就指简 单随机样本.
数理统计的基本概 念
一、总体和样本
1.总体
一个统计问题总有它明确的研究对象.
研究对象的全体称为总体(母体), 总体中每个成员称为个体.
总体
…
研究某批灯泡的质量
然而在统计研究中,人们关心总体仅仅 是关心其每个个体的一项(或几项)数量指标 和该数量指标在总体中的分布情况. 这时, 每个个体具有的数量指标的全体就是总体.
统计中,总体这个概念 的要旨是:总体就是一个 概率分布.
数理统计的基本概念
证明:设F~F(n1,n2),则
P{F F1 (n1 , n2 )} 1
1 1 P{ } 1 F F1 (n1 , n2 ) 1 1 P{ } F F1 (n1 , n2 )
得证!
1 P{ F (n2 , n1 )} F
5.1.4 统计量及抽样分布
2. F分布的分位点 对于:0<<1,
若存在F(n1, n2)>0,
满足
P{FF(n1, n2)}=, 则
称F(n1, n2)为 F(n1, n2)的 上侧分位点;
F (n1 , n2 )
注:
1 F1 (n1 , n2 ) F (n2 , n1 )
1 ~ F ( n2 , n1 ) F
列出其频数频率分布表。
组序 分组区间 组中值 1 (147,157] 152 2 (157,167] 162 3 (167,177] 172 4 (177,187] 182 5 (187,197] 192 合计
频数 4 8 5 2 1 20
频率 累计频率(%) 0.20 20 0.40 60 0.25 85 0.10 95 0.05 100 1
1、设X 1 , X 2 ,
, X n (n 2)为来自总体N (0,1)的简单随机样本, (n 1) X 12
2 X i i 2 n
X 为样本均值,S 2为样本方差,则统计量
服
从 __________ 分布。 (05—06二)
2、设 X 1 , X 2 , X 3是来自正态分布 N (0, 2 )总 体的简单随机样本,则 统计量 2 服从 ________ 分布。(05—06三) X1 X X
3.总体、样本、样本观察值的关系 总体
第六章 数理统计的基本概念(1)
XK
1 n
n i 1
X
k i
(4)样本k阶中心矩:
1 n
n i 1
(Xi
X )k
(5)顺序统计量: X(1) X(2) X(n) . 其中 X(k) 为将 X1, X2 , , Xn 从小到大排列第 k 位值.
18 September 2020
概率论与数理统计
理学院数学系
2、离散型 设总体X的分布律为 P{ X x} p( x)
则样本X1, X2 ,的, 联Xn合分布律为 P{ X1 x1, X2 x2 ,, Xn xn } p( x1 ) p{ x2 ) p( xn )
18 September 2020
概率论与数理统计
理学院数学系
样本分布
第六章 数理统计的基本概念
(1)样本均值:
X
1 n
n i 1
Xi
(2)样本方差:
Sn2
1 n
n
(Xi
i 1
X )2
修正样本方差:
Sn*2
1 n1
n i 1
(Xi
X )2
nSn2 (n 1)Sn*2
18 September 2020
概率论与数理统计
理学院数学系
第六章 数理统计的基本概念
第22页
(3)样本k阶原点矩:
第13页
1、样本的联合分布函数 设总体 X 的分布函数为 FX (., ), (X1, X2 ,
则样本的联合分布函数为
, Xn ) 为样本.
FX1,X2 , ,Xn ( x1, x2 , , xn ; ) FX ( x1, )FX ( x2 , ) FX ( xn , )
概率论和数理统计(第三学期)第7章数理统计的基本概念
n i1
i
1 n
n
Ei
i1
D
D 1 n
n i 1
i
1 n2
n
Di
i 1
2
n
2
S~ 1 n
n i 1
i
2
1 n
n i 1
i2 2i
2
1 n
n
i2
i 1
2
n
i
i 1
n
2
1 n
n
i2
i 1
2
2
2
1 n
n
i2
i 1
2
E S~2
E
1 n
n
i2
i 1
23
.209
2
2 0.95
20
10
.851
当自由度n 45时,可用下面近似公式去求2 n:
x2 n
1 2
u
2
2n 1
例3
求
2 0.05
60 .
解
2 0.05
60
1 2
u0.05
2
2 60 1
1 1.645
2
119 78.798
2
3、t分布的上侧分位点
对于给定的α(0<α<1),使
2
e
xi 2 2
2
(2
) e 2
n 2
1
2 2
n i1
xi 2
在数理统计中,总体的分布往往是未知的,需 要通过样本找到一个分布来近似代替总体分布。
§7.3 分布的估计
频率分布 例 某炼钢厂生产的钢由于各种因素的影响,各炉
钢的含硅量可以看作是一个随机变量,现记录了 120炉钢的含硅量百分数,求出这个样本的频数分 布与频率分布。
第五章 数理统计的基本概念
线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)E
最小方差线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)对 的一切线性无偏估计量 0,D D 0
定理 (R-C不等式)
设总体X具有分布密度f ( x; )。抽取样本( x1 ,..., xn ), 设g ( )为 的一个可估函数,T T ( x1 ,..., xn )为g ( ) 的一个无偏估计量,且 满足正则条件
• 若12, 22已知
(X Y) ( 1 2 ) U ~ N (0,1)
2 1
n
2 2
m
• 若12, 22未知,但是12= 22
T (X Y) ( 1 2 ) ~ t (m n 2)
12
m
2 2
n
mS12
12
2 nS2 2 2
T
(X Y) (1 2 ) 1 1 2 mS12 nS2 /(m n 2) m n
~ t (m n 2)
推论:设( X 1 ,..., X n )和(Y1 ,..., Ym )分别为来自
2 2 正态总体N ( 1 , 1 )和N ( 2 , 2 )的两个相互
独立的样本,则随机变量
F
2 若 1 2 2
2 2 Sm / 1 2 Sn 2 / 2
~ F (m 1, n 1)
F
2 Sm 2 Sn
~ F (m 1, n 1)
第六章 参数估计
第一节 点估计
• 定义:设为总体分布中的未知参数,从X 中抽取样本 (x1,…,xn) ,构造适当的统计量 (x1,…,xn), 估计 (以的值作为的近似), 这种方法称为参数的点估计。 • 统计量称为的点估计量; • 对于一组样本观测值 (x1,…,xn) ,该统计量 相应的值(x1,…,xn)称为的点估计值 • 的点估计量和点估计值简称为的点估计。
数理统计的基本概念
概率论与数理统计的区别: 在概率论中,假设随机变量的分布列或者分布函数已知,然 后描述随机变量的统计规律. 数理统计首先解决,如何知道 随机变量的分布规律,如何知道分布中所含的参数.
数理统计研究问题:它研究怎样有效地收集整理和分析带有随 机性的数据,以对所考察的问题作出推断或预测,直至为采取一 定的决策和行动提供依据和建议.
概率统计的基本问题:依据有限个观测或试验如何对整体所作 出推论的问题.这种伴随有一定概率的推断称为统计推断.
母体与子样、经验分布函数
1、母体:把研究对象的全体所构成的一个集合称为母体或总体; 组成母体的每一个成员称为个体. 注:10、实际应用中总体往往指研究对象的某项数值指标的全体。 20、总体的某个数值指标是一个具有分布函数F(x)随机变量,称 总体为具有分布函数F(x)的总体。 30、也可能是一个随机向量,相应的分布函数就为多元函数.
(i
n! 1)!(n
i)![F (
y)]i1[1
F(
y )] n1
f
(
y),
0 ,
a yb 其它
证明 第 i个次序统计量(i)落入无穷小区间 [ y , y y)
内这一事件等价于”容量为n的子样1 ,2 , n 中有(i 1)
个分量落入区间[a , y)内,1个分量落入区间[ y , y y)内,
n
F ( x1 ,, xn ) F ( xi ) i 1
例1 设总体 X 服从参数为 ( 0)的指数分布, ( X1, X2 ,, Xn )
是来自总体的样本, 求样本( X1, X2 ,, Xn )的概率密度.
解
总体 X 的概率密度为
ex ,
f (x)
数理统计的基本概念
另一类是研究如何分析所获得的随机数据,对所研究 的问题进行科学的、合理的估计和推断,尽可能地为 采取一定的决策提供依据,作出精确而可靠的结论. 这部分的内容称为推断统计学,如:参数估计、假设 检验等。
我们主要讨论有关推断统计学中几个最基本的 问题。
在数理统计中总体X的分布永远是未知的,即使 有足够的理由可以认为总体X服从某种类型的分布, 但这个分布的参数还是未知的。
例如本市家庭的月收入X是个随机变量,X服从什么
分布事先是不清楚的,根据资料可确信 X ~ N , 2 .
但 , 2 究竟取什么值还是未知的,
由于总体X的分布是未知的,因此X的数字特征如 均值、方差等往往也是一个未知的值。对于这些未知
不过在统计研究中,人们关心总体仅仅是关心
其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布
情况. 这时,每个个体具有的数量指标的全体就是总体.
称总体中所含个体的数目为总体容量, 总体容量有限的称为有 限总体, 总体容量无限的称为无限总体.
当个体个数很大时通常把有限总体看作无限总体。
从另一方面看: 统计的任务,是根据从总体中抽取的样本, 去推断总体的性质. 由于我们关心的是总体中的个体的某项指标(如人的身高、体重, 灯泡的寿命,汽车的耗油量…), 所谓总体的性质,无非就是这 些指标值集体的性质. 概率分布是刻划这种集体性质最适当的工具. 因此在理论上可 以把总体与概率分布等同起来. 如研究某批灯泡的寿命时, 关心的数量指标就是寿命, 那么, 此 总体就可用描述其寿命的随机变量 X 或用其分布函数 F(x)表示.
一个统计量.
ex1.设 X1, X 2, X3 是取自正态总体 X ~( , 2) 的一个样本,
数理统计的基本概念
数理统计的基本概念第6章数理统计的基本概念6.1 内容框图6.2 基本要求(1)理解总体、样本及统计量的概念,并熟练掌握常⽤统计量的公式.(2)掌握矩法估计和极⼤似然估计的求法,以及估计⽆偏性、有效性的判断. (3)掌握三⼤抽样分布定义,并记住其概率密度的形状.(4)理解并掌握有关正态总体统计量分布的⼏个结论,如定理6.4~6.9及定理6.11.6.3 内容概要1) 总体与样本在数理统计中,我们把作为统计研究对象的随机变量称为总体,记为ξ,η,… 。
对总体进⾏ n 次试验后所得到的结果,称为样本,记为(n X X X ,,,21 ),(n Y Y Y ,,,21 ),……,其中,试验次数 n 称为样本容量。
样本(n X X X ,,,21 )中的每⼀个 i X 都是随机变量。
样本所取的⼀组具体的数值,称为样本观测值,记为总体与样本统计量点估计矩阵估计常⽤统计量定义统计量的分布正态总体统计量的分布极⼤似然估计点估计的评价三⼤抽样分布(n x x x ,,,21 )。
具有性质:(1)独⽴性,即 n X X X ,,,21 相互独⽴。
(2)同分布性,即每⼀个 i X 都与总体ξ服从相同的分布。
称为简单随机样本。
如果总体ξ是离散型随机变量,概率分布为 }{k P =ξ,那么样本(n X X X ,,,21 )的联合概率分布为∏∏=========ni i ni i in n x P x XP x X x X x X P 112211}{}{},,,{ξ。
如果总体ξ是连续型随机变量,概率密度为 )(x ?,那么样本(n X X X ,,,21 )的联合概率密度为∏∏====ni i ni i X n x x x x x i1121)()(),,,(*??。
如果总体ξ的分布函数为 )(x F ,那么样本(n X X X ,,,21 )的联合分布函数为∏∏====ni i n i i X n x F x F x x x F i 1121)()(),,,(* 。
数理统计的基本概念
数理统计的基本概念
1. 总体和样本:总体是研究对象的全体,样本是从总体中选取的一部分。
2. 参数和统计量:参数是总体的性质,统计量是样本的函数,用来估计总体的参数。
3. 随机变量和概率分布:随机变量是取值不确定的变量,概率分布是描述随机变量取值可能性的函数。
4. 分布特征:包括均值、方差、标准差、偏度和峰度等。
5. 假设检验:用样本的统计量推断总体参数的方法。
6. 置信区间:用来估计总体参数的区间,表示参数真值有一定概率落在该区间之内。
7. 方差分析:用来比较多组数据的差异来源和大小的方法。
8. 回归分析:用来研究自变量和因变量之间关系的方法。
数理统计基本概
第五章 样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示★ 引言 ★ 总体与总体分布 ★ 样本与样本分布 ★ 例1★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ 分组数据统计表和频率直方图 ★ 例5 ★ 经验分布函数 ★ 例6★ 统计量 ★ 样本的数字特征★ 例7 ★ 例8 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题5-1 ★ 返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x Λ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X Λ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x Λ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21Λ与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21Λ是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21Λ表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X Λ的联合分布函数为∏==ni i n x F x x x F 121)(),,,(Λ并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(Λ分别称)(x f 与),,,(21n x x x f Λ为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p ΛΛ分别称)(i x p 与),,,(21n x x x p Λ为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21Λ对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21Λ是样本的n 个观察值.(i) 求出n x x x ,,,21Λ中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm 在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[Λ, 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i Λ=∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
《概率论》 第六章 数理统计的基本概念.
2. 抽样原则 为使抽取的样本能很好地反映总体的特征,
一般要求抽取样本时遵循以下两点原则:
(1) 代表性 要求样本中的每个样品都是从总体 中 完全随机地抽出的,即每个样品与总体 具有相同
的分布;
(2) 独立性 要求每个样品的抽出相互之间是互不 影响的,即要求每个样品之间相互独立.
满足以上两点要求的样本称为简单随机样本.
1n
n 1 i1
i
2
(4) 样本 k 阶原点矩
Mk
1 n
n
i 1
k i
,
k
1,
2, ;
(5)样本 k 阶中心矩
M
k
1 n
n
(i
i 1
)k
, k 2, 3, ;
注 1. 上述几个统计量统称为样本矩;
2.
X
M1 ,
S2
M
2
.
三、样本矩的性质
2. 2分布的性质
性质1 ( 2 分布的可加性)
设 ~ 2(n1 ), ~ 2(n2 ), 并且 , 独立, 则 ~ 2(n1 n2 )
推广: 设 i ~ 2(ni ), 并且 i (i 1, 2,, m) 相互
独立,
则
m
i
~
2 (n1
2π
标准正态分布的上侧分位点
定义 设 U ~ N (0,1) ,对给定的正数(0 1),
若实数u 满足
P{U u }
则称点 u为标准正态分布U的 上侧分位点(或称 上 分位数或 临界值).
6.1.数理统计的基本概念
对容量较小的样本可分为5-6组,容量100左右的可分7-10组,
容量200左右的可分9-13组,容量300左右及以上的可分12-20 组,目的是使用足够的组来表示数据的变异。本例中只有20个 数据,我们将之分为5组,即k=5。
(2) 确定每组组距:每组区间长度可以相同也可以不同,实用中 常选用长度相同的区间以便于进行比较,此时各组区间的长度 称为组距,其近似公式为:
频数fi
3
4
8
3
2
试写出此分组样本的经验分布函数。
解:由经验分布函数的定义得到
0
0.15
Fn
(
x)
0.35 0.75
0.9
1
x 37.5 37.5 x47.5 47.5 x57.5 57.5 x67.5 67.5 x77.5 x 77.5
例6 以下是一组来自标准正态分布总体的样本的观测值: -1.4462 , -0.7012 , 1.2460 , -0.6390 , 0.5774 , -0.3600 , -0.1356, -1.3493 , -1.2704 , 0.9846
13
100—110
105
16
110—120
从总体X中抽取一个个体,就是对总体X进行一次观察并记 录其结果。取样是随机的,且观察前无法预知起结果,故每 个观察结果都是随机变量,且与总体同分布。
定义 1 在相同的条件下,对总体X进行n次重复的、独立的 观察,得到n个结果 X1, X 2 , , X n ,称随机变量X1, X 2 , , X n 为来自总体X的容量n的简单随机样本,简称样本。其观测值
641 635 640 637 642 638 645 643 639 640 这是一个容量为10的样本的观测值,对应的总体为该厂生产 的瓶装啤酒的净含量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§1.1 总体与样本
一、 总体与个体
总体指研究对象的某项数量指标值的全体。组成总体 的每个元素称为个体。由于每个个体的出现带有随机 性,即相应的数量指标值的出现带有随机性。从而可 把此种数量指标看作随机变量,我们用一个随机变量 及其分布来描述总体。为此常用随机变量的符号或分 布的符号X,Y,Z…来表示总体。
7
表 1.1.1 58批矿泉水不合格指标数的频率、 频数分布表
不合格 指标数 0
频数 33
频率 0.57
1
17
0.293
2
5
0.086
3
1
0.017
4
2
0.034
合计
58
1
8
直方图
频率
40
20
频率
0 0 1 2 3 4 其他
个数
9
(2) 经验分布函数
样本直方图可以形象地去描述总体概率密度函数大致 形状,经验分布函数将可以用来描述总体分布函数的 大致形状.
若人们关心的是灯泡的寿命。这是一个无限总体。 假如人们根据过去的资料知道灯泡的寿命X服从 指数分布,其密度函数为
ex , x 0
f (x) 0, x 0
所需确定的参数是λ>0.
6
四、从样本去认识总体
⑴ 频数频率分布表及其图示
例1.4 我们通常饮用的矿泉水有19个指标.某市 技术监督局一次抽查了58批矿泉水,记录每一批 矿泉水的每个指标是否合格,从中可统计出每批矿 泉水不合格指标的个数X.这里X是一个离散型随 机变量,其一切可能取值为0,1,…19。 58批矿泉 水的指标不合格数构成了一个容量为58的样本的 观察值,每个可取0,1,…,19中某个值,将它们整理 后列成表1.1.1
Ch 1 数理统计基本概念
数理统计是研究如何有效地收集、整理和分析带有随机影 响的数据,从而对所观察的现象做出推断或预测,为决策 提供依据的一门学科。
在近一个多世纪的发展中,数理统计不同程度地渗透到 人类活动的许多领域。人口调查、税收预算、测量误差、 出生与死亡统计、保险业中赔款额和保险金的确定等,这 些数理统计早期主要研究的问题,直到现在仍然值得认真 研究。在近半个世纪以来,数理统计在理论、方法、应用 上都有较大的发展。抽样调查、试验设计、回归分析与回 归诊断、多元分析、时间序列分析、非参数统计、统计决 策函数、统计计算、随机模拟、探索性数据分析等统计方 法相继产生并在实践中普遍使用,把以描述为主的统计发 展到以推断为主的统计。数理统计的内容已异常丰富,应 用广泛,成为当前最活跃的学科之一。
( X1, X 2 , , X n ), 其观察值为( x1, x2 , , xn ).
3
简单随机抽样:
它要求满足两点:
(1)代表性. 样本中每个个体与所考虑的总体有相同 的分布.即样本中每个个体与总体X具有相同的分布.
(2)独立性. 样本中每个个体取什么值并不影响其它 个体取什么值.即必须是相互独立的随机变量.
由简单随机抽样所得到的样本称为简单随机样本.假
如总体的分布函数为F(x),则其简单随机样本的联合
分布函数为
n
F (x1, , xn ) F (xi ) i1
n
f (x1, , xn ) f (xi )
i1
4
三、 分布族
在概率论研究中,随机变量的分布总是假设给定 的,但在数理统计的研究中,总体的分布是未知 的,但总可以假定总体的分布是某一个分布族的 成员.
某食品厂用自动装罐机生产净重量为345克的午餐肉
罐头,由于随机性,每个罐头的净重有差别,现从中随
机取10个罐头,其净重如下: 0 x 336
344,336,345,342,340, 0.1 336 x 338
338,344,343,344,343, 0.2 338 x 340
求经验数为F(x),从中获得
的样本观察值为 x1, , xn ,将它们从小到大排
列成 x(1) x(2) x(n) ,令
0,
x x(1)
Fn (x) k n , x(k ) x x(k1)
1,
x x(n)
称 Fn (x) 为该样本的经验分布函数.
10
例1.5 写出经验分布函数
例1.3 在研究某批灯泡的质量时,若关心的是其质量 是否合格,若合格记为0,不合格记为1,因此该总体就 可用仅取0和1的随机变量X来表示.显然,这个总体 的分布就是一个参数为p的二点分布b(1,p),由于p 未知,故这个总体分布也是未知的,但可以假定该总 体分布是二点分布族
F={b(1,p);0<p<1} 5
例1.1研究某灯泡的使用寿命时,总体可用随机变量X 来表示,或用其分布函数F(x)表示。
2
例1.2研究某地区学龄前儿童发育情况,人们关心的 是其体重X和身高Y这两个数量指标,则此总体就可 用二维随机变量(X,Y)或其联合分布函数F(x,y)表示.
二、样本
为了推断总体分布及其各种特征,就必须从总体中 按一定法则抽取若干个体进行观测或试验,以获得 有关总体的信息.这一抽取过程称为抽样.所抽取的 部分个体称为样本,样本中个体的数目称为样本容量. 例如容量为n的样本可以看作是n维随机变量
SK反映了总体分布密度曲线的对称性信息.当 SK>0时,分布的形状是右尾长,称为正偏的;当 SK<0时,分布的形状是左尾长,称为负偏的.
(Xi
X )2
S S2
样本方差与样本标准差反映了数据取值分散与 集中的程度,即反映了总体方差与标准差的信息.
⑶样本k阶(原点)矩
Ak
1 n
n i 1
X
k i
样本k阶中心矩
Bk
1 n
n i 1
(Xi
X )k
它们分别反映了总体k阶(原点)矩与k阶中心矩的 信息.
13
⑷样本偏度
SK
B3
3
B2 2
中不含任何未知参数,则称T为统计量.统计量的 分布称为抽样分布.
2.常用的几个统计量
设 X1, , X n 是来自总体X的样本
⑴样本均值
X
1 n
n i 1
Xi
样本均值是反映总体数学期望所在位置信息的一
个统计量,是总体数学期望的一个很好的估计. 12
⑵样本方差 样本标准差
S 2
1 n 1
n i 1
Fn
(
x)
0.3 0.4
340 x 342 342 x 343
0.6 343 x 344 0.9 344 x 345
1 345 x
11
§1.2 统计量及其分布
1.定义1.2.1 设 X1, , X n 是取自某总体的一个 容量为n的样本,假如样本函数 T T ( X1,L , X n )