总体与样本1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13.0 14.2 14.5 14.5 15.0 15.1 15.3 15.9 16.4 16.7 ( 1 ) 可 见n 10 2k k 5 1 1 此时, mn ( X ( 5 ) X ( 6 ) ) ( 15.0 15.1 ) 15.05 2 2 ( 2 ) 若 X ( 11 ) 15.2时, n 11 2k 1 k 5 mn X ( 6 ) 15.1
S—包括试验的全部样本点,每次试验每次都发生, 因此称为必然事件. —不包括任何样本点,每次试验都不发生,因而 称为不可能事件
车比雪夫不等式
车比雪夫不等式知 , 对任意正数 0, 有 D( X n ) P X n E ( X n ) 2
贝努利大数定律 设n A是n次独立重复试验中事件 A发生的次数, p是事件A在每次试验中发生的概 率, 则对于任意正数 0, 有 nA lim P p 1或 n n nA lim P p 0 n n
• 统计推断的结果往往有赖于方法,尽可能采用“有效的” 方法。 “有效的”标准:样本尽可能少,而结果更合理, “大量重复使用该方法总体效果好”——基于概率论原 理。
§1.2
一 总体与样本
1. 总体 与样本 定义1.1 例1.1 注1
总体与样本
研究对象的全体元素的 集合称为总体 , 组成总体的 考察某地区全体居民的 身高情况, 则该地区所有人的身高 一般来说, 实际上只关心总体的某 项数量指标, 则常把这
( 3)
样本标准差 S S2 ( 1.9 ) S 2与X的量纲不一致,而S与X的量纲一致.
如在上面( 2 )中, S 2 113.5,则S 10.6536 (4) 变异系数 S Cr ( 1.10 ) X 变异系数用于不同数据 集的分散程度的比较 .
例如 测得北京到上海的平均 距离1463 公里, 测量误差的标准 为1公里,而测得一张桌子的平均 长度为 1米 , 测量误差的标准 为0.01米 ,两者的变异系数为 1 C1 0.000684 0.0684% 1463 故知前者测量的精度比 后者高. C2 0.01 0.01 1% 1
易见,众数为 6.
练习
今从肖伯纳 An Intelligen t Wom an ' s Guide To Socialism
一书中,随机取出 20个句子,这些句子的单词数分别 为 52 24 15 67 15 22 63 26 16 32 7 33 28 14 7 29 10 6 59 30 试问该书中一个句子的 均值,中位数, 近似为多少?( 点击 )
3
众数(m od) 数据中最常出现的值 ,即为众数,即是样本中出现可能
性最大的值,不过它可能不唯一 . 例1.10
数值 出现次数
现有一数据集合: 2 ,3,3,3,3,4 ,4 ,5,6,6,6,6,6,7 ,7 ,8,
2 1 3 4 4 2 5 1 6 5 7 2 8 1
那么其中每一个值出现 的次数如下 :
(2)
但不是统计量 ,因其中未知.
i 1
(
n
xi
) ,
2
X1
X2
, 等为样本( X 1 , X 2 ,..., X n )的函数,
练习
设( X 1 , X 2 ,..., X n )来自均匀总体 U (a, b),
n
xi a 试问T ( )是否为统计量? i 1 b a 答案点击 :
5、样本空间:试验的所有可能结果的集合,记为S。
随机事件
1.样本点 = 组成样本空间 的元素 ,即试验的一个可能出现
的结果.又称基本事件,记为e,故样本空间S可记作S={e}. 2.随机事件 = S的子集,即部份样本 点的集合,若事件中 至少一样本点发生时,称这一事件发生或出现.
4
必然事件S与不可能事件
随机试验、随机事件及样本空间
1、现象:必然现象,随机现象 2、 试验是对随机现象的观察过程 随机试验的三个特点:
1)试验能在相同条件下重复进行; 2)每次试验的可能结果不止一个,且能事先明确试验的 所有可能结果; 3)每一次试验之前不能确定哪一个结果会出现;
检查一个试验是否是随机试验可查上述三点是否 满足。 3、事件是指随机试验的结果 4、随机试验是量化的实验结果
X 27.75 mn 24 26 25 2
4.
描述样本数据分散程度 的统计量 反映样本数据分散程度 的统计量实际上反映了 总体取值的
分散程度,常用统计量有以下几种: (1) 样本极差 R X (1) X ( n ) 样本方差
2
( 1.8 )
如在例1.10中, 样本极差R 8 2 6 (2) 1 n 2 S ( X X ) i n 1 i 1 1 如要例1.7中, S 2 [( 140 144)2 ( 150 144)2 ( 155 144)2 4 ( 130 144)2 ( 145 144)2 113.5
1090.9
当n 2k 1 X ( k 1 ) ( 2 ) 样本中位数 mn 1 ( 1.7 ) ( X ( k ) X ( k 1 ) ) 当n 2k 2 例1.9 某工厂制作一种线圈 ,为控制生产过程保持稳 定,从产品中任 取10件, 测定其阻抗值X ( 单位 : 欧姆 )所得数据如下: 15.3 13.0 16.7 14.2 14.5 14.5 15.9 15.0 15.1 16.4 试求 : ( 1 )样本中位数mn的值 ( 2 )若取第11件数据为 15.2 ,此时mn 又为何值 解 : 先将所得数据按从小到 大顺序排列为
练习 从一批灯泡中任取 10只作寿命试验 , 得数据如下(单位 : 小时) 988 1005 1002 1012 981 999 1004 975 979 1001 设灯泡寿命X服从某个分布 , 上述数据即为的一个样 本值, 试写出其顺序统计值 .
975 979 981 988 999 1001 1002 1004 1005 1012
•
为什么要用数理统计?
实际中,数据量大(抽取的数据具有随机性),试验具有破坏 性(不可重复)。
• 数理统计的研究范畴:应用广泛 传统上,有生物统计(遗传学、医药)、农业统计、 工业统计(民航统计)等; 现代,多元统计应用领域:通信、质量控制、气象、 地质勘探、市场预测与决策等。
• 数理统计的基本内容:试验设计(数据采集、抽样理论 等)与统计推断(估计、检验等)。
例1.5
n
设( X 1 , X 2 ,..., X n )是来自正态总体 N ( , 2 )的容量
2
为n的样本, 其中已知, 未知, 则 1 n 1 n 2 2 (1) ( X i ) , X1 X 2 , X X i , S (X i X ) i 1 n i 1 n 1 i 1 均为统计量, 相应的统计值为 n 1 n 1 n 2 2 2 ( xi ) , x1 x 2 , x xi , s ( xi x) i 1 n i 1 n 1 i 1
( x1 , x 2 ,..., x n )称为样本值 . 3 样本的分布 若总体X的分布函数为F ( x),则样本( X 1 , X 2 ,..., X n )的分布函数为 F x1 , x 2 ,..., x n F ( xi )
i 1 n
(1.1)
二 统计量
1. 统计 量定义 设( X 1 , X 2 ,..., X n )为总体的一个样本 , 不含任何未 定义1.3 知参数的样本的函数 T T ( X 1 , X 2 ,..., X n )称为统计量, 其中T为连续函数 . 对样本( X 1 , X 2 ,..., X n )作一次观察, 观察值为( x1 , x 2 ,..., x n ) , t T ( x1 , x 2 ,..., x n )称为统计值 .
每一个元素称为个体 . 便构成一个总体 , 而每一个人的身高就是 一个个体. 项指标看作一个随机变 量, 称之为总体X , 相应的个体即指所研究 对象的每一个体的这项 指标X 1 , X 2 ,... 注2 若研究的数量指标不止 一个时, 则对应分为几个总体进 行研究.
2 简单随机样本(子样)
定义1.2 设X 1 , X 2 ,..., X n为来自总体X的容量为n的子样, 如果X 1 , X 2 ,..., X n 满足 : (1) X 1 , X 2 ,..., X n 相互独立; (2) X 1 , X 2 ,..., X n 与X具有相同的分布 . 则称X 1 , X 2 ,..., X n为总体X的简单随机样本 , 简称子样或样本 . 注1 注2 样本容量n较大时, 称样本为大样本 , n较小时, 称为小样本 . 对样本( X 1 , X 2 ,..., X n )作一次观察所得实数值
练习
某批矿砂的 5个样本中的镍含量 ,经测定为 (%) 3.25 3.27 3.24 3.26 3.24
试确定样本极差 , 样本方差, 样本标准差及变异系数 答案点击 :
R 0.03
5.
S 2 0.00017
S 0.013
C 0.4%
样本矩 对不同的总体矩 ,有相应的样本矩 . 1 n X X ik 为样本k阶原点矩 n i 1
(1) (2)
若a ,b均已知,则T为统计量; 若a或b未知,则T不为统计量;
2.
顺序统计量 设( X 1 , X 2 ,..., X n )为总体X的样本, 把它们按从小到 X (1) X ( 2 ) ... X ( n )
定义1.4
大的次序排列为 则称X (1) , X ( 2 ) ,..., X ( n )为原样本( X 1 , X 2 ,..., X n )的顺序统计量, 称X ( k )为第k个顺序统计量(1 k n) 注1 顺序 统计量保留了原样本的 数据信息.只去掉了不太重 要的得到数据的顺序信 息, 若样本值为x1 , x2 ,..., xn , 则按从小到 大顺序排列后得到顺序 统计值 x(1) x( 2 ) ... x( n ) 注2 X ( k ) 意味着在n个数据中 , 恰有k个数据不超过它 , X (1) minX 1 , X 2 ,..., X n X ( n ) maxX 1 , X 2 ,..., X n 即超过它的恰有 n k个数据,因此, 易见
第一章 数理统计的基本概念
§1.1 导言
概率论中:随机事件发生的概率p假定已知或易算出中:如何知道概率p和F(x),如果是根据具体问题作
出的假设,有没有方法验证假设是否符合实际情况
数理统计:是从实际试验和观察出发,对带有随机性影响的
有限个数据进行加工、处理和推断,以此来研究随机现象的一 门学科
描述样本的中心位置的 统计量 1 n ( 1 )样 本均值 X Xi ( 1.6 ) n i 1 1 n 观察值x xi , 样本均值处于样本的中 间位置, n i 1 它可以反映总体的分布 的均值. 例1.7 从某种合金强度总体中 抽取容量5的样本,其观察值为 140 150 155 130 145 试求其样本均值 . X ( 140 150 155 130 145) / 5 144 解:
3
例1.8
组中值xi 频数 f i
下 表是经过整理的分组数 据表给出了 110个电子元件的
200 6 600 28 1000 1400 1800 2200 2600 3000 37 23 9 5 1 1
失效时间:
那么,平均失效时间近似为
X
i 1 n
f i xi
i 1
n
fi
1 ( 200 6 600 28 ... 3000 1 ) 110