第6章 样本及抽样分布PPT

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 样本及抽样分布
6.1 随机样本 6.2 直方图和箱线图 6.3 抽样分布
一、总体与个体
6.1 随机样本
1.总体 试验的全部可能的观察值称为总体.
2.个体
总体中的每个可能观察值称为个体.
例1 在研究2 000名学生的 年龄时, 这些学生的年龄的全 体就构成一个总体, 每个学生 的年龄就是个体.
列表如下:
组限 124.5~129.5 129.5~134.5 134.5~139.5 139.5~144.5 144.5~149.5 149.5~154.5 154.5~159.5
频数 1 4 10 33 24 9 3
频率 0.0119 0.0476 0.1191 0.3929 0.2857 0.1071 0.0357
作出箱线图如图所示.
男子
女子
图 6-4
疑似异常值
在数据集中, 某一个观察值不寻常地大于或 小于该数据集中的其他数据,称为疑似异常值.
第一四分位数Q1与第三四分数Q3之间的距离: Q3 Q1 IQR
称为四分位数间距. 若数据小于Q1 1.5IQR 或大于Q3 1.5IQR,
则认为它是疑似异常值.
设 x1, x2, , xn 是相应于样本X1, X2, , Xn 的样本值 , 则称 g( x1, x2 , , xn ) 是 g( X1, X 2 , , X n )
的观察值 .
例1 设 X1, X2, X3是来自总体N (, 2 )的一个 样本, 其中 为已知, 2 为未知, 判断下列各式哪
它们的观察值 x1, x2, , xn 称为样本值, 又称 为X 的 n 个独立的观察值.
2. 简单随机抽样的定义
获得简单随机样本的抽样方法称为简单随机抽样.
若X1, X2, , Xn为F 的一个样本, 则X1,X2, ,
X n相互独立,且 它 们 的 分 布 函 数 都 是 F,所以
( X1,
它是基于以下五个数的图形概括:最小值 Min,
第一四分位数 Q1,中位数M,第三四分位数Q3和 最大值 Max. 它的作法如下:
(1) 画一水平数轴,在轴上标上 Min,Q1,M, Q3,Max. 在数轴上方画一个上、下侧平行于数
轴的矩形箱子,箱子的左右两侧分别位于 Q1,Q3 的上方.
在M点的上方画一条垂直线段. 线段位于箱子 内部.
例4 下面给出了某医院21个病人的住院时间(以 天计),试画出修正箱线图(数据已经过排序).
1233445667799 10 12 12 13 15 18 23 55 解 Min 1, Max 55, M 7, 因 21 0.25 5.25, 得 Q1 4, 又 21 0.75 15.75, 得 Q3 12, IQR Q3 Q1 8, Q3 1.5IQR 12 1.5 8 24,
(2)因为 np 18 0.25 4.5, x0.25位于第[4.5] 1 5处,即有 x0.25 145.
(3)因为 np 18 0.5 9, x0.5是这组数中间两
个数的平均值,即有
x0.5
1 (157 2

162)
159.5.
数据集的箱线图是由箱子和直线组成的图形,
些是统计量, 哪些不是?
T1 X1,
T2 X1 X2e X3 ,
T3

1 3
(
X
1

X2

X 3 ),

T4 max( X1, X 2 , X 3 ), T5 X1 X2 2,
T6

1 2
(
X
2 1

X
2 2

X 32 ).
不是
2. 几个常用统计量的定义
设 X1, X2, , Xn 是来自总体的一个样本 ,
Q1 1.5IQR 4 12 8.
观察值55 24, 故55 是疑似异常值,且仅此一个疑 疑似异常值.
作出修正箱线图如图所示.
Min Q1 M Q3 图 6-5

Max
一、基本概念
6.3 抽样分布
1. 统计量的定义
设 X1, X2, , Xn 是来自总体X 的一个样本 , g( X1, X2 , , Xn )是 X1, X2 , , Xn 的函数 , 若 g中 不含未知参数, 则称 g( X1, X2, , Xn ) 是一个统 计量.
(2)自箱子左侧引一条水平线 Min;在同一水平 高度自箱子右侧引一条水平线直至最大值. 如图所示.
Min Q1 M Q3 Max 图 6-2
例3 下面分别给出了25个男子和25个女子的肺活 量(以升计.数据应经过排序) 女子组 2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4
累计频率 0.0119 0.0595 0.1786 0.5715 0.8572 0.9643 1.0000
现在自左向右依次在各个小区间上作以 fi n
为高的小矩形, 这样的图形叫频率直方图.
fi n
0.095 0.071 0.048 0.024
频率直方图
129.5. 134..5 139.5 144..5 149..5 154. .5 15.9.5
5. 总体分布
例3 在2 000名大学一年级学生的年龄中, 年龄 指标值为“15”,“16”,“17”,“18”,“19”, “20”的依次有 9,21,132,1207,588,43 名, 在总体中所占比率依次为
9 , 21 , 132 , 1207 , 588 , 43 , 2000 2000 2000 2000 2000 2000 即学生年龄的取值有一定的分布.
X 2,
,
Xn)
的分布函数为 n
F *( x1, x2, , xn ) F ( xi ).
i 1
又若X具有概率密度 f, 则( X1, X2, , Xn ) 的
概率密度为 n
f *( x1, x2, , xn ) f ( xi ).
i 1
6.2 直方图和箱线图
一、直方图
图 6-1
二、箱线图
定义 设有容量为n 的样本观察值 x1, x2, , xn, 样本 p分位数(0 p 1)记为xp ,它具有以下的性质:
(1)至少有 np 个观察值小于或等于xp ; (2)至少有 n(1 p) 个观察值大于或等于xp .
样本 p 分位数可按以下法则求得. 将 x1, x2, , xn 按从小到大的顺序排列成 x(1) x(2) x(n) .
x1, x2, , xn 是这一样本的观察值.
(1) 样本平均值
X

1 n
n i 1
Xi;
其观察值
1 n
x n i1 xi .
(2) 样本方差
S2

n
1
1
n i 1
(Xi
X )2
154 142 150 149 145 149 141 140 145 148 154 137 148 152 143 143 153 149 146 147 140
146 155 158 150 140 158 143 141 144 144 135 147 146 141 136 139 143 140 131 143 144 141 143 147 146 146 149 138 142 149 142 140 137 152 145
特别,当 p 0.5时,0.5分位数 x0.5也记为Q2或 M称为样本中位数,即有
x0.5


x
([
n
]1)
,
2
1 2
[
x
(
n 2
)

x
(
n
1)
],
2
当np不是整数, 当np是整数.
0.25分位数 x0.25 称为第一四分位数,又记为Q1; 0.75分位数 x0.75 称为第三四分位数,又记为Q3 .
例1 下面给出了84个伊特拉斯坎(Etruscan)人 男子的头颅的最大宽度(mm), 现在来画这些 数据的“频率直方图”.
141 148 132 138 147 148 144 150 126 140 144 142 140 146 142 137 141 149 148 135 150 132 142 142 142 137 134 144
3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2 男子组 4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3 5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6.0 6.1 6.3 6.7 6.7 试分别画出这两组数据的箱线图.
所谓从总体抽取一个个体, 就是对总体X 进行 一次观察并记录其结果.
当n次观察一经完成,我们就得到一组实数 x1, x2 , , xn , 它们依次是随机变量X1, X 2 , , X n 的观察值,称为样本值 .
二、随机样本的定义
1.样本的定义
设 X 是具有分布函数 F 的随机变量, 若 X1, X 2 , , Xn 是具有同一分布函数F、相互独立的 随机变量, 则称 X1, X2 , , Xn 为从分布函数 F (或总体 F、或总体 X ) 得到的容量为 n 的简单 随机样本 , 简称样本 .
步骤: 1. 找出最小值126,最大值158,现取区间
[124.5,159.5];
2. 将区间[124.5,159.5]等分为7个小区间, 小区间的长度记成 , (159.5 124.5) / 7 5, 称为组距;
3. 小区间的端点称为组限, 数出落在每个小区 间的数据的频数 fi , 算出频率fi / n.
例2 设有一组容量为18的样本如下(已经排过序) 122 126 133 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212
求样本分位数:x0.2,x0.25,x0.5 .
解 (1)因为 np 18 0.2 3.6, x0.2位于第[3.6] 1 4处,即有 x0.2 x(4) 140.
1o 若np不是整数,则只有一个数据满足定义 中的两点要求,这一数据位于大于np的最小整数
处,即为位于[np] 1 处的数. 2o 若np是整数,就取位于[np]和[np] 1处的
中位数.
综上,
x([np]1) ,

xp

1 2
[
x(
np
)

x(np1) ],
当np不是整数, 当np是整数.
一般地, 我们所研究的总体, 即研究对象的某 项数量指标 X , 其取值在客观上有一定的分布, X 是一个随机变量.
X 的分布函数和数字特征就称为总体的分布 函数和数字特征. 今后将不区分总体与相应的随机 变量.
在实际中,总体的分布通常是未知的,或只 知道它具有某种形式而其中包含未知参数。
在数理统计中, 人们都是通过从总体中抽取 一部分个体, 根据获得的数据来对总体分布得出 判断的. 被抽出的部分个体叫做总体的一个样本.
Байду номын сангаас
修正箱线图
(1) 同(1) ; (2) 计算IQR Q3 Q1,若一个数据小于 Q1 1.5IQR 或大于Q3 1.5IQR,则认为它是一个 疑似异常值. 画出疑似异常值,并以* 表示; (3) 自箱子左侧引一水平线段直至数据集中 除去疑似异常值后的最小值,又自箱子右侧引一 水平线直至数据集中除去疑似异常值后的最大值.
解 女子组 Min 2.7, Max 4.2, M 3.5, 因 np 25 0.25 6.25, Q1 3.2. 因 np 25 0.75 18.75, Q3 3.7.
男子组 Min 4.1, Max 6.7, M 5.3, 因 np 25 0.25 6.25, Q1 4.7. 因 np 25 0.75 18.75, Q3 5.8.
3.容量 总体中所包含的个体的个数称为总体的容量.
4.有限总体和无限总体 容量为有限的称为有限总体. 容量为无限的称为无限总体. 例2 某工厂10月份生产的灯泡寿命所组成的总
体中,个体的总数就是10月份生产的灯泡数, 这是 个有限总体; 而该工厂生产的所有灯泡寿命所组成 的总体是一个无限总体, 它包括以往生产和今后生 产的灯泡寿命.
相关文档
最新文档