北邮考研概率论与数理统计6.1随机样本(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p i 1 (1 p ) xi
n
n
i 1
xi
n
其中 x1 , x2 , , xn 在集合 {0,1} 中取值.
例已知总体X服从参数为 的泊松分布,求样本的联合
第28页
分布律.
解 总体 X 的分布律为
P{X x}
x
x!
e

, x 0, 1, 2, ,
所以样本 X 1 , X 2 ,, X n 的联合分布律为
合格。在70年代后期,美国消费者购买日产SONY彩电的
热情高于购买美产SONY彩电,原因何在?
第22页
1979年4月17日日本《朝日新闻》刊登调查报告指
2 出,日产SONY彩电彩色浓度服从正态分布 N . (m, (5 / 3) )
,而美产SONY彩电的彩色浓度服从(m-5,m+5)上的均 匀分布。
i 1 n
又若 X 具有概率密度 f ,
则 X1 , X 2 ,, X n 的联合概率密度为
f * ( x1 , x2 , , xn ) f ( xi ).
i 1 n
第25页

设总体 X 服从参数为 ( 0) 的指数分
布, ( X 1 , X 2 ,, X n ) 是来自总体的样本 , 求样本
X P
0 1p
1 p
不同的p反映总体的差异。第一个工厂的产品质量优于第二个。
第12页 例2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在? 原因在于总体的差异上!
1979年4月17日日本《朝日新闻》刊登调查报告指出 N(m, (5/3)2),日产SONY彩电的彩色浓度服从正态分布, 美产SONY彩电的彩色浓度服从(m5 , m+5)上的均匀分布。
第30页
例 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则 P(x2 = 1 | x1 = 1) = (Np1)/(N1) 而若第一次抽到的是合格品,则第二次抽到不合 格品的概率为 P(x2 = 1 | x1 = 0) = (Np)(N1)
第14页
6.1.2 样本
样本的定义
为了了解总体的分布,我们从总体中随机地抽
取n个个体,记其指标值为 x1 , x2 ,, xn,则
x1 , x2 ,, xn 称为总体的一个样本,n 称为样本容
量,或简称样本量,样本中的个体称为样品。
样本具有两重性
第15页
• 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, …, Xn 表示; • 另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, …, xn 表示是恰当的。 简单起见,无论是样本还是其观测值,样本一般 用 X1, … Xn 表示,应能从上下文中加以区别。
x i 0, 其他.
第26页

设总体 X 服从两点分布B(1, p), 其中0 p 1,
( X 1 , X 2 ,, X n )是来自总体的样本 , 求样本 ( X 1 , X 2 , , X n ) 的分布律.
解 总体 X 的分布律为
P{ X i } p (1 p)
i
这两个不同的分布代表了两个不同的总体,均值
相同(都为m),但方差不同。若彩色浓度与m的距离在 5/3以内为I级品,在5/3到10/3之间为II级品,在10/3
到5之间为III级品,其他为IV级品。
第23页
于是,日产SONY彩电的I级品为美产SONY的两倍 出头(见下表),这就是美国消费者愿意购买日产 SONY 的主要原因。 I 等级 美产 日产 33.3 68.3 33.3 27.1 33.3 4.3 0 0.3 II III IV
第1页
第2页
从历史典籍中,人们不难发现许多关于钱粮、户口、 地震、水灾等记载,说明人们很早就开始了统计工作 . 但是当时的统计,只是对有关事实的简单记录和整理, 而没有在一定理论的指导下,作出超越这些数据范围之 外的推断. 到了十九世纪末二十世纪初,随着近代数学和概率 论的发展,才真正诞生了数理统计学这门学科.
第13页
然而,在实际操作中,不是对所研究的对象全体(称为 总体)进行观察,而是抽取其中的部分(称为样本)进行观察 获得数据(抽样),并通过这些数据对总体进行推断.
由于推断是基于抽样数据,抽样数据又不能包括研究 对象的全部信息. 因而由此获得的结论必然包含不肯定性. 所以应记住毕竟是由“局部”推断“整体”,因而仍可能 犯错误,结论往往又是在某个“可靠性水平”之下得出的. 这种矛盾的特殊性与普遍性的辩证统一在统计学中贯 穿始终,是我们应该记住的基本思想.
例4我们考察某厂生产的某种电子元件的寿命,选了100 只进行寿命试验,数据如下。 表2 100只元件的寿命数据 寿命范围 ( 0 24] (24 48] (48 72] (72 96] (96 120] (120 144] (144 168] (168 192] 元件数 4 8 6 5 3 4 5 4 寿命范围 (192 216] (216 240] (240 264] (264 288] (288 312] (312 336] (336 360] (360 184] 元件数 6 3 3 5 5 3 5 1 寿命范围 (384 408] (408 432] (432 456] (456 480] (480 504] (504 528] (528 552] >552
F ( x 1 , ..., x n )
F ( x ).
i i 1
思考:
若总体的密度函数为f(x),则其样本x1, …, xn的(联合) 密度函数是什么? n
f(x 1 , x 2 , , x n )
f(x i ). i
1
第20页
附录
1、例2的详细解释。 2、思考题:若总体的密度函数为p(x), 则其样本的(联合)密度函数是什么?
第17页
元件数 4 4 1 2 2 3 1 13
表2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。
第18页
样本的要求:简单随机样本
要使得推断可靠,对样本就有要求,使样本能很 好地代表总体。我们在相同条件下对总体进行重 复、独立的观察,通常有如下两个要求: 随机性: 总体中每一个个体都有同等机会 被选入样本 -- xi 与总体X有相同的分布。
1i
( i 0, 1)
因为 X 1 , X 2 ,, X n相互独立,
且与 X 有相同的分布,
所以 ( X 1 , X 2 ,, X n ) 的分布律为
第27页
P{ X 1 x1 , X 2 x2 , , X n xn } P{ X 1 x1 }P{ X 2 x2 } P{ X n xn }
P{ X 1 x1 , X 2 x2 , , X n xn }
i 1 n

xi
xi !
e



xi
i 1
n
ห้องสมุดไป่ตู้
x!
i i 1
n
e n
其中 x 0, 1, 2, .
28
第29页
3、总体分为有限总体与无限总体
实际中总体中的个体数大多是有限的。当个体 数充分大时,将有限总体看作无限总体是一种 合理的抽象。 对无限总体,随机性与独立性容易实现,困难 在于排除有意或无意的人为干扰。 对有限总体,只要总体所含个体数很大,特别 是与样本量相比很大,则独立性也可基本得到 满足。
第10页
例如:研究某批灯泡的寿命时,关心的数量指标就是寿命, 那么,此总体就可以用随机变量X表示,或用其分布函数F(x) 表示.
总体
寿命 X 可用一概率 (指数)分布来刻划
寿命总体是指数分布总体
某批 灯泡的寿命
例1 考察某厂的产品质量,以0记合格品, 第11页 以1记不合格品,则 总体 = {该厂生产的全部合格品与不合格品} = {由0或1组成的一堆数} 若以 p 表示这堆数中1的比例(不合格品率),则该 总体可由一个二点分布表示:
第4页
在数理统计中,不是对所研究的对象全体(称为总 体)进行观察,而是抽取其中的部分(称为样本)进行观察 获得数据(抽样),并通过这些数据对总体进行推断. 数理统计所要研究的问题: (1)怎样设计试验,决定观察的数目;
(2)怎样利用试验观察的结果作出一个“好”的推断等.
第一个问题是怎样进行抽样,使抽得的样本更合理,并有更 好的代表性?这是抽样方法和试验设计问题:最简单易行的是 进行随机抽样. 第二个问题是怎样从取得的样本去推断总体?这种推 断具有多大的可靠性? 这是统计推断(核心)问题.
点估计 参数估计
统计估计 统计推断 统计检验 非参数估计 参数假设检验 非参数假设检验 统计方法具有“部分推断整体”的特征 .
第5页
区间估计
第6页
引例 某公司要采购一批产品,每件产品不是合格品就是不合格品, 该批产品总有一个不合格品率 p 。由此,若从该批产品中随机抽取 一件,用 x 表示产品的不合格数,不难看出 x 服从一个二点分布 b(1 , p),但分布中的参数 p 是不知道的。一些问题:
研究对象的全体观察值称为总体,总体中每个成员称为个体
第9页
总体中所包含的个体的个数称为总体的容量.
总体

研究某批灯泡的质量
总体
有限总体 无限总体
由于每个个体的出现是随机的,所以相应的数量指标的出 现也带有随机性 . 从而可以把这种数量指标看作一个随机变 量X ,随机变量X的分布是该数量指标在总体中的分布.今后不 做区分,统称为总体。
3、对有限总体,采用放回抽样所得到的 样本为简单随机样本,但使用不方便, 是否可以用不放回抽样代替?
第21页
1、例2
彩电的彩色浓度是彩电质量好坏的一个重要指
标。20世纪70年代在美国销售的SONY牌彩电有两个产地: 美国和日本,两地的工厂是按同一设计方案和相同的生 产线生产同一型号SONY彩电,连使用说明书和检验合格 的标准也是一样的。 其中关于彩色浓度X的标准是:目标值为m,公差为5, 即当X在[m-5,m+5]内该彩电的彩色浓度合格,否则不
独立性: 样本中每一样品的取值不影响其 它样品的取值 -- x1, x2, …, xn 相互独立。
用简单随机抽样方法得到的样本称为 简单随机样本,也简称样本。
第19页
于是,样本 x1, x2, …, xn 可以看成是独立同分 布( iid ) 的随机变量,其共同分布即为总体分布。
设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样 n 本联合分布函数为
2.若总体的密度函数为p(x),则其样本的(联 合)密度函数是什么?
第24页
由于是简单随机抽样. 根据定义得: 若 X1 , X 2 ,, X n 为 F 的一个样本,
则样本( X1, X 2 ,, X n )的联合分布函数为
F * ( x1 , x2 , , xn ) F ( xi ).
e x , x 0, 解 总体 X 的概率密度为 f ( x ) x 0, 0, 因为 X 1 , X 2 ,, X n 相互独立, 且与 X 有相同的分布 ,
( X 1 , X 2 ,, X n ) 的概率密度.
所以 ( X 1 , X 2 ,, X n )的概率密度为 n xi n ne i 1 , f n ( x1 , x2 , , xn ) f ( xi ) i 1 0,
第16页
例3 啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果:
641, 635, 640, 637, 642, 638, 645, 643, 639, 640
这是一个容量为10的样本的观测值, 对应的总体为该厂生产的瓶装啤酒的净含量。 这样的样本称为完全样本。
数理统计学是一门关于数据收集、整理、分析和推断的科学。
第7页
第6章 样本及抽样分布
§6.1 总体与样本 §6.2 样本数据的整理与显示
§6.3 统计量及三大抽样分布
第8页
§6.1
总体与个体
总体的三层含义:
• 研究对象的全体; • 数据; • 分布
一个问题总有明确的研究对象和数量指标,对其做试验或观察.
相关文档
最新文档