概率论与数理统计7
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本: 样本:来自总体的部分个体X1, X 如果满足: 如果满足: (1)同分布性: Xi, 同分布性: 同分布性 i=1,…,n与总体同分布. (2)独立性: 独立性: 独立性 X1,… ,Xn 相互独立; 则称为容量为n 的简单随 机样本,简称样本。 样本 而称X1,… ,Xn 的一次 实现为样本观察值,记为 x1,… ,xn
3.总体、样本、样本观察值的关系 总体、样本、 总体 总体 理论分布
样本
样本观察值
统计是从手中已有的资料——样本观察值, 统计是从手中已有的资料——样本观察值,去推断 ——样本观察值 总体的情况——总体分布。 ——总体分布 总体的情况——总体分布。样本是联系两者的桥梁 总体分布决定了样本取值的概率规律, 。总体分布决定了样本取值的概率规律,也就是样 本取到样本观察值的规律, 本取到样本观察值的规律,因而可以用样本观察值 去推断总体
当x ≺ x
∗ 1 ∗ 1
0 1/n ⋮ 令Fn (x)= k/n ⋮ 1
1
2
nBaidu Nhomakorabea
当x ≤ x ≺ x
∗ 2
Fn (x) 的图形 就是累积频率曲线
例1 观察新生女婴儿的体重(它是一个 连续型随机变量),取170名按出生顺 序测得体重如表7-1. 采取等区间分组,将表7-1中170个 数据分为13组得到如表7-2所示的频 数分布表(每组不包括上限 ).
表7-1
简单统计表
2880 2440 2700 3500 3500 3600 3080 3860 3200 3100 3180 3200 3300 3020 3040 3420 2900 3400 3000 2620 2720 3480 3320 3000 3120 3180 3220 3160 3940 2620 3120 2520 3060 2620 3400 2160 2960 2980 3000 3020 3760 3500 3060 3160 2700 3500 3080 3100 2860 3500 3000 2520 3660 3200 3140 3100 3520 3640 3500 2940 3620 2860 3300 3800 2140 3080 3420 2900 4280 3400 2900 2980 3000 2880 3400 3400 3380 3820 3240 2640 3020 2520 2400 3420 3640 2700 2700 3500 3440 3240 3120 2800 3300 2920 2900 1980 3300 3260 2540 3200 3200 3300 4000 3400 3400 2700 2700 2920 3300 3140 2300 2200 3160 2700 2900 3180 3400 3160 2440 3640 2620 3100 2980 3200 3100 3260 3100 3160 3540 3100 2840 3660 2820 3140 3800 1800 2800 2660 3600 3760 2540 2780 2760 2380 3500 3300 3200 3400 3460 3220 3100 3120 3280 2560 2940 2840 3400 3420 3400 3500 3740 2820 3100 2820 3880 2500 3400 3540 3000 3400
1 2400 | 2700 2550 2
2 2700 | 3000 2850 3
3 3000 | 3300 3150 8
4 3300 | 3600 3450 5
5 3600 | 3900 3750 2
表7-4
分组编号 组 限 组 中 值 组 频 数
1 2400 | 2700 2550 2
2 2700 | 3000 2850 3
mi 第i组的组频率 f i = 组的组频率 N
m f= N
在频率直方图中,第i个长方形的高度取为相应的 mi 频率 f i = 的k倍,k是组距的倒数。 N 频率直方图能大致的描述出ξ的概率分布情况, 而每个长方形面积正好近似的代表了体重ξ的取值 落入相应一组的概率。根据频率直方图,可以大致 划出概率密度函数曲线。
∗ x1∗ ≺ xn ①找出最大的和最小的数据
∗ 取a ≺ x1∗ ,b ≻ xn 把区间 把区间[a,b]分成若干等份 分成若干等份 一般n个数据分成 一般 个数据分成 n 组较合适
②
列出分组数据统计表,组限[ ③ 列出分组数据统计表,组限[xi, xi+1) 以组距为底,以组频数为高, ④ 以组距为底,以组频数为高,画出频数直方图
13
4100 | 4300 4200 1
例2 将例1中前20个新生女婴儿体重按大小顺序列成 一个简单统计表,如表7-3所示.若进一步把20个数据分 为5组(每组不包括上限),得分组数据的频数分布表,见 表7-4.根据表7-4画成频数直方图,见图7-1. 表7-3
重量 频数 重量 频数
2440 1 3100 1 2620 1 3180 1 2700 1 3200 2 2880 1 3300 1 2900 1 3420 1 3000 1 3440 1 3020 1 3500 2 3040 1 3600 1 3080 1 3860 1
二、统计量
定义7.3:称样本X1, … ,Xn 的函数 f (X1, … ,Xn )是总体X的一个统计量 如果 统计量,如果 统计量 f (X1, … ,Xn )不含 未知 参数 不含 几个常用的统计量 :
1. 样本均值 1 n X = ∑ Xi, n i =1
1 n 2. 样本方差 S 2 = ( X i − X )2 ∑ n − 1 i =1 样本均方差 ( 标准差 ) S = S 2 ,
如上所述,所谓总体 总体就是一个随机变量,所谓样本 样本就 总体 样本 是n个相互独立且与总体有相同分布 相互独立且与总体有相同分布的随机变量 相互独立且与总体有相同分布 X1,…,Xn (n是样本容量).通常把它们看成一个n元随 机变量(X1,…,Xn),而每一次具体抽样所得的数据,就 是n元随机变量的一个观察值(样本值),记为 (x1,…,xn). 一个容量为n的样本有双重意义 双重意义:有时指一次 双重意义 抽样的具体数值(x1,…,xn),有时泛指一次抽出的可能 结果,这就是指一个n元随机变量.用大写字母 (X1,…,Xn)表示.
§7.1 总体与样本 §7.2 §7.3 §7.4 样本分布函数 样本分布的数字特征 几个常用统计量的分布
7.1 总体与样本
定义7.1. 总体: 定义7.1. 总体:研究对象的全体。 通常指研究对象的某项数量指标。 组成总体的每个基本单位称为个体。 个体。 个体
从本质上讲,总体就是所研究的随机变量或 从本质上讲, 随机变量的分布。 随机变量的分布。
总体可以包含有限个个体,也可以包含无限个个 总体 体.在一个有限总体所包含的个体相当多的情况下, 可以把它作为无限总体来处理.例如,一麻袋稻谷,一 个国家的人口.
每一总体中的个体, 每一总体中的个体,具有共同的可观察的 特征,把它作为不同总体的区别. 特征,把它作为不同总体的区别. 例如,灯泡厂一天生产5万个25万瓦白炽灯泡 ,按规定,使用寿命不足0.1万小时的为次品.在考 察这批灯泡的质量时,“该天生产的5万个25瓦 白炽灯泡的全体”组成一个总体,每一个灯泡 是总体中的一个个体,其共同的可观察的特征 共同的可观察的特征 为灯泡的使用寿命. 为灯泡的使用寿命. 数轴上的“一条线段所有点的全体”组成 一个总体,其中的每一个点是总体的一个个体, 其共同的可观察的特征为点在数轴上的位置. 共同的可观察的特征为点在数轴上的位置. 共同的可观察的特征为点在数轴上的位置
表7-2
分组编号 组 限
频数分布表(分组数据统计表) 频数分布表(分组数据统计表) 1
1700 | 1900 1800 1
2
1900 | 2100 2000 1
3
2100 | 2300 2200 3
4
2300 | 2500 2400 5
5
2500 | 2700 2600 13
6
2700 | 2900 2800 22
7
2900 | 3100 3000 28
组 中 值 组 频 数
分组编号 组 限 组 中 值 组 频 数
8
3100 | 3300 3200 39
9
3300 | 3500 3400 28
10
3500 | 3700 3600 20
11
3700 | 3900 3800 7
12
3900 | 4100 4000 2
3 3000 | 3300 3150 8
4 3300 | 3600 3450 5
5 3600 | 3900 3750 2
以组距为底 ,以组频数 为高, 为高,画出 频数直方图
频数m 频数
8 6 4 2
频数直方图
2400
3000
3600 3900
体重x 体重
(二)频率直方图和累积频率直方图
设组频数m 设组频数 总频数N 总频数 组频率f
对于一个总体来说,其每一数量特征就是一 个随机变量ξ .由于人们主要是研究总体的某 些数量特征,所以把总体看作所研究对象的若干 数量特征的全体,而直接用一个随机变量ξ(也 可以是一个多元随机变量)的代表.
定义7.2 样本.样 定义7.2 总体中抽出若干个体而成的集体,称样本 样本 本中所含个体的个数,称为样本容量 样本容量。 样本容量
…
, Xn
在进行抽样时,样本的选取必须是随机的,即总 体中每个个体都有同等机会被选入样本.抽样通常有 不重复抽样,即每次抽取一个不放 两种方式:一种是不重复抽样 不重复抽样 回去,再抽取第二个,连续抽取n次;另一种是重复抽 重复抽 样,指每次抽取一个,进行观察后再放回去,再抽取第 二个,连续抽取n次,构成一个容量为n的样本. 简单随机样本:进行重复抽样所得的随机样本称 简单随机样本 为简单随机样本.
表7-3
重量 频数 重量 频数
2440 1 3100 1
2620 1 3180 1
2700 1 3200 2
2880 1 3300 1
2900 1 3420 1
3000 1 3440 1
3020 1 3500 2
3040 1 3600 1
3080 1 3860 1
表7-4
分组编号 组 限 组 中 值 组 频 数
因此,频率直方图可以作为概率密度曲线的 一种近似。但是,他只适用于连续型随机变量。 累积频率曲线所代表的函数 累积频率曲线
Fn (x)
无论对于离散型和连续型随机变量都可以用,因此 累积频率直方图是总体分布函数的良好近似。
频率% 频率% 频率直方图
2400
3900
体重x 体重
以组距为底,以组频率为高, 以组距为底,以组频率为高,画出频率直方图
累积频率% 累积频率% 1
累积频率直方图
2400
3900 体重 体重x
以组距为底,以累积频率为高, 以组距为底,以累积频率为高,画出累积频率直方图
(三)样本分布函数 总体就是一个随机变量ξ.把ξ的分布看作某统计总 体的分布,则ξ的分布函数F(x)即为一总体分布函数. 设 (x1 ,x2 ,⋯ ,xn ) 是总体ξ的一个样本观察值, 将它们按大小排列为: x∗ ≤ x∗ ≤ ⋯ ≤ x∗
数理统计简介
怎样抽 抽样技术 抽多少 采集样本 点估计 试验设计 参数估计 区间估计 统计估计 非参数估计 统计推断 参数假设检验 统计检验 非参数假设检验 方差分析 统计分析
数理统计
回归分析
第七章 样本分布
3.样本 阶矩 样本k阶矩 样本
1 n k 原点矩 Ak = ∑ X i n i =1 1 n 中心矩 B k = ∑ ( X i − X ) k , n i =1
§7.2 样本分布函数 (一)分组数据的统计表和频数直方图
简单表:依出现先后顺序或按其大小顺序列成的表格 简单表: 分组数据统计表:把数据分成若干组, 分组数据统计表:把数据分成若干组,同一组中的 数据看成是相同的, 数据看成是相同的,都以组中值代表 分法:一般采取等区间分组,区间长度称为组距。 分法:一般采取等区间分组,区间长度称为组距。