数理统计简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基 本 概 念
1、总体
我们把所研究对象的全体所组成的集合 , 称为总体 我们把所 研究对象的全体所组成的集合, 称为 总体 研究对象的全体所组成的集合 , (universe) 把总体中的每个元素称为个体。例如,一个 universe) 把总体中的每个元素称为个体。例如, 个体 班级作为总体, 班级里的每位同学是个体; 工厂里的一批产 班级作为总体, 班级里的每位同学是个体; 品作为总体,每件产品就是个体。 品作为总体,每件产品就是个体。
所以,数理统计和概率论之间,有密切的联系, 所以,数理统计和概率论之间,有密切的联系, 也有显著的区别。它们都以随机现象为研究对象, 也有显著的区别。它们都以随机现象为研究对象,但 概率论侧重于理论的研究, 而数理统计从经验 数据) (数据) 概率论侧重于理论的研究, 出发,这就决定了数理统计有它自己的鲜明的特点, 出发,这就决定了数理统计有它自己的鲜明的特点, 具有更加直接的实用性。 具有更加直接的实用性。
一般来说,在相同条件下, 一般来说,在相同条件下,这样的观测要进行多 就每次的观察结果而言, 次。就每次的观察结果而言, x1 , x2 ,L , xn 是一组完全 确定的值,但它又是随每次抽样观察(试验)而改变的, 确定的值,但它又是随每次抽样观察(试验)而改变的,
当进行研究时, 当进行研究时 ,要把样本看做随机变量 X 1 , X 2 , L , X
今后,我们把这个表示“总体” 今后,我们把这个表示“总体”的某项数量指标的 称为总体 它所能取得的每个值称为个体。 总体, 它所能取得的每个值称为个体 个体。 随机变量 X 称为总体,
2、样本 、
为了对总体X的性质进行各种所需的研究,总是对 为了对总体X的性质进行各种所需的研究, 总体进行抽样观察----对部分个体进行研究( ----对部分个体进行研究 总体进行抽样观察----对部分个体进行研究(观测或实 ),以取得信息 并据此对总体进行统计推断, 以取得信息, 验),以取得信息,并据此对总体进行统计推断, 对所关心的问题做出尽可能科学的总结。 对所关心的问题做出尽可能科学的总结。 之所以只是对部分个体而不是对全部个体进行研究, 之所以只是对部分个体而不是对全部个体进行研究, 是因为: 是因为: 有的实验是破坏性的(如灯泡的寿命试验等) (1)有的实验是破坏性的(如灯泡的寿命试验等) 需要花费大量的人力、时间、财力、物力等。 (2)需要花费大量的人力、时间、财力、物力等。
定义 3
称不含未知参数的样本 X1 , X2 ,L, Xn 的函数
T = T( X1 , X2 ,L, Xn )
为统计量(statistic) 统计量(statistic)
显然, 是一个随机变量, 显然,T 是一个随机变量,T 常常是 X 1 , X 2 ,L, X n 的 连续函数
例如, 未知, 是来自X 例如, X ~ N ( µ ,σ 2 ), µ 和σ 2 未知, X 1 , X 2 是来自X的
今后,如无特别说明, 样本”即指简单随机样 今后,如无特别说明,“样本”即指简单随机样 本。而称 X 1 , X 2 ,L , X n 是来自总体 X 的一个样本。 的一个样本 样本。 由定义得: 具有分布函数F(x) F(x), 由定义得:若总体 X 具有分布函数F(x),则 ( X 1 , X 2 ,L, X n ) 的联合分布函数为 :
发展简史
• 1945年,瑞典数学家克莱美著书《统计方 法》 • 19世纪末,英卡尔皮尔逊创立统计学 • 英费歇尔发现古典统计学中的极大似然估 计方法,方差分析方法等 • 波兰奈曼和英国埃根皮尔逊给出统计假设 检验理论 • 中国数学家徐宝路创立中国第一个统计实 验室
我国改革开放以来,经济建设稳步发展, 我国改革开放以来,经济建设稳步发展,概率统计已成为 处理信息、 制定决策的重要理论与方法, 其作用日益显著, 处理信息、 制定决策的重要理论与方法, 其作用日益显著, 学科本身也得到迅速发展, 成为最为活跃的数学分支之一。 学科本身也得到迅速发展, 成为最为活跃的数学分支之一。 随着高科技的发展, 随着高科技的发展,数理统计的理论和方法的研究将有一 个长足的进步,统计知识将会日益普及,为加速科研、生 长足的进步,统计知识将会日益普及,为加速科研、 产和经济的发展发挥重要作用。 产和经济的发展发挥重要作用。 发挥重要作用 数理统计的内容非常丰富, 包括参数估计 点估计和 ( 数理统计的内容非常丰富, 包括参数估计 区间估计) 假设检验、方差分析等内容。 、 区间估计) 假设检验、方差分析等内容。 内容
另外,各次观测应独立进行,互不干扰, 另外,各次观测应独立进行,互不干扰,以保证数 据的可靠性, 据的可靠性,因此各 X i ( i = 1,2,L n) 应相互独立。 应相互独立。
定义1 称随机变量X为总体, 的分布为总体分布 定义1 称随机变量 为总体,称X的分布为总体分布 的分布为 (universe distribution)。 distribution) 定义2 称随机变量为来自总体 的简单随机样本,如果: 定义2 简单随机样本,如果: (1) X 1 , X 2 ,L, X n 相互独立 (2) X i ( i = 1,2,L, n) 与总体有相同的分布。 与总体有相同的分布。
点估计
点估计问题的一般提法是:设总体X 点估计问题的一般提法是:设总体X的分布函数
的形式已知, 是未知参数(待估参数) F ( x;θ ) 的形式已知, 是未知参数(待估参数) θ ∈ Θ , θ ,
Θ 是 θ 可 能 取 值 范 围 , 称 之 为 参 数 空 间 ( parmeter
space) .构造一个样本 X 1 L X n 的统计量T ( X 1 ,L X n ) 作 space)
的估计. 为参数θ 的估计.
定义1 设总体X的分布函数已知为 定义 设总体 的分布函数已知为 F ( x ,θ ),θ ∈ Θ ,
X 1 , X 2 L, X n ,是X的样本,称统计量 T = T ( X 1 , X 2 L , X n , ) 的样本, 的样本
是未知参数的点估计量( 是未知参数的点估计量(point estimator),记为 点估计量 ) θˆ = T , 对样本值 x , x ,L, x ,θˆ = T ( x , x ,L, x )
S= S
2
为样本标准差。 样本标准差。
参数估计
前面介绍的抽样和抽样分布已为讨论统计推断 打下了必要的理论基础。何谓统计推断?就是利用资 打下了必要的理论基础。何谓统计推断?就是利用资 料提供的信息,做出尽可能精确和可靠的结论。 料提供的信息,做出尽可能精确和可靠的结论。严格 地说,就是从总体中抽取一个样本获得信息后, 地说,就是从总体中抽取一个样本获得信息后,对 总体做出推断。由于信息的有限性和样本的随机性, 总体做出推断。由于信息的有限性和样本的随机性, 做出的推断不可能绝对准确, 做出的推断不可能绝对准确,总会有一定程度的不确 定性,而所出现的不确定性可以用概率的大小来衡量。 定性,而所出现的不确定性可以用概率的大小来衡量。 于是,我们称伴有一定概率的推断为统计推断 于是,我们称伴有一定概率的推断为统计推断 (statistical inference) )
1 n k 原点) Ak = ∑Xi (k = 1,2,L 为样本的 k 阶(原点)矩。 ) n i=1 1 n X = ∑Xi n i=1
为样本均值
1 n k Bk = ∑( Xi − X) (k = 1,2,L 为样本的 k 阶中心矩 ) n i=1 1 n 1 n 2 2 2 2 S = ∑( Xi − X) = n − 1∑Xi − nX n − 1 i=1 i=1 样本方差。 为样本方差。
总体根据其包含的个体总数, 分为有限总体和无限总 总体根据其包含的个体总数, 分为有限总体和 有限总体 体。当有限总体所包含的个体数目很大时,可以近似地将 当有限总体所包含的个体数目很大时, 它看成是无限总体。 它看成是无限总体。
在数理统计中,我们不研究每个个体的种种特性, 在数理统计中,我们不研究每个个体的种种特性,而 关心总体的某项数量指标 X。 关心总体的 例如, 例如, 我们仅关心班级里同 总体 学们某一科的学习成绩, 来衡量。 学们某一科的学习成绩,用最终考试分数 X 来衡量。又 例如,某工厂生产的一批灯泡, 例如,某工厂生产的一批灯泡,我们关心的是灯泡的寿 通常, 是随机变量。 命 X。通常,X 是随机变量。
F( x1 , x2 ,L, xn ) = ∏F( xi )
i =1
n
又若总体 X 概率密度为 f ( x ) ,( X 1 , X 2 ,L, X n ) 是来 的样本, 自总体 X 的样本,则其联合概率密度为
f ( x1 , x2 ,L, xn ) = ∏ f ( xi )
i =1
n
3. 统计量和样本矩
数
理
统
计
数理统计以随机现象为研究对象, 以概率论为理论 数理统计以随机现象为研究对象, 基础。 对观测大量随机现象得到的数据进行的收集、 整 基础。 对观测大量随机现象得到的数据进行的收集、 分析和应用的方法构成了数理统计的基本内容。 对 理、 分析和应用的方法构成了数理统计的基本内容。 所关心的随机现象, 做出具有一定精度的推断作为数理 所关心的随机现象, 统计的基本任务。 统计的基本任务。
参数估计
有两类重要的统计推断的问题: 有两类重要的统计推断的问题:其中一类是总体 的分布类型已知,而它的某些分布参数未知, 的分布类型已知,而它的某些分布参数未知,如何 根据样本提供的信息,对这些未知参数做出推断, 根据样本提供的信息,对这些未知参数做出推断, 也就对总体分布做出了推断。这类问题称为参数估计 也就对总体分布做出了推断。这类问题称为参数估计 问题。 问题。 在有些问题中,只须对总体的某些数字特征( 在有些问题中,只须对总体的某些数字特征(如 数学期望和方差)做出估计,一般也称之为参数估计 数学期望和方差)做出估计,一般也称之为参数估计 参数推断( 或参数推断(parameter inference)问题。 )问题。
1 n 1 S 2 = Σ ( X i − X )2 一个样本, 一个样本,则 X = ( X 1 + X 2 ) , 都是 n i =1 2 X2 统计量, 都不是统计量。 统计量,而 X 1 − µ 和 都不是统计量。
σ
常用统计量: 常用统计量:
为总体X 设 X 1 , X 2 ,L, X n 为总体X的样本
1为参数的估计值(estimate value)。 称为参数的估计值( 估计值 )
在不致混淆的情况下,统称估计量和估计值为估 在不致混淆的情况下,统称估计量和估计值为估 ˆ 由于估计量是样本的函数, 计,并都简记为 θ 。由于估计量是样本的函数,因此 对于不同的样本值, 的估计值往往是不同的。 对于不同的样本值,θ 的估计值往往是不同的。
n
的一组观测值, 而 x1 , x2 ,L , xn 表示 X 1 , X 2 ,L , X n 的一组观测值,称 样本值或称为样本的一个现实。 或称为样本的一个现实 为样本值或称为样本的一个现实。
由于 X i ( i = 1,2,L n)
中随机抽取的, 是从总体 X 中随机抽取的,
的取值范围, 它的取值范围就是总体 X 的取值范围,并且它与总体 X 应有相同分布,否则就没有代表性。 应有相同分布,否则就没有代表性。
对参数的点估计问题需要解决两个问题: 其一, 要 对参数的点估计问题需要解决两个问题: 其一, 寻找一些获得估计量的方法; 其二, 建立衡量估计量 好 “ 寻找一些获得估计量的方法; 其二, 坏”的标准,并利用这些标准来评价各个估计量。 的标准,并利用这些标准来评价各个估计量。
从总体中抽取n个个体(对有限总体, 从总体中抽取n个个体(对有限总体,当个体总数 N≥10n时 可将不放回抽样近似地当作放回抽样), N≥10n时,可将不放回抽样近似地当作放回抽样), 的值, 个观测值: 观测其数量指标 X 的值,从而得到 n 个观测值:
x1 , x 2 ,L , x n ,
的一组样本值 样本值, 称之为总体 X 的一组样本值,称 n 为样本容量 size)。 (size)。