数理统计与随机过程讲义

合集下载

数理统计与随机过程2--概率论1

数理统计与随机过程2--概率论1

解:
e 4.5 4.5k P( X k ) , k 0,1, 2, k!
1
P( X 2) 1 P( X 0) P( X 1) 1 e 4.5 (1 4.5) 0.9389
2
P( X 2) P( X 2 | X 2) 0.1198 P( X 2)
示数的——降雨量;候车人数;发生交通事故的次数… 示性的——明天天气(晴,多云…);化验结果(阳性,阴性)…
*
中心问题:将试验结果数量化
*
*
定义:随试验结果而变的量X为随机变量
常见的两类随机变量
离散型的
连续型的
•4
定义:取值可数的随机变量为离散量 离散量的概率分布(分布律)
X P
x1 p1 x2 p2
5
5
f x
0.798
0.399 0.266
0.5
1.0 1.5
0

1
x
0

x
•18
在自然现象和社会现象中,大量 随机变量服从或近似服从正态分布。
•19
记 Z ~ N (0, 1), 称Z 服从标准正态分布
1 Z的概率密度: x e 2 t2 x 1 2 Z的分布函数: ( x) e dt 2
•13

概率密度函数f(x)的性质
面积为1
1) f ( x) 0
2)
y f ( x)

+

f ( x)dx 1
Px1 X x2
3) 对于任意的实数x1,x2 ( x2 x1 ) P x1 X x2

x2
x1

数理统计与随机过程

数理统计与随机过程

数理统计与随机过程1. 介绍2. 数理统计概述2.1 统计学的定义统计学是一门研究如何收集、整理、分析和解释数据的学科。

它利用数理统计方法和技巧来从已有数据中获取有关现象和问题的信息。

2.2 数理统计的重要性•数理统计可以帮助我们理解和解释现象和问题,从数据中提取有用信息。

•数理统计可以帮助我们做出合理的决策,并评估决策的风险和效果。

•数理统计是其他学科研究的重要工具,如经济学、社会学、医学等。

3. 数理统计的基本概念3.1 总体与样本•总体:研究对象的全体。

•样本:从总体中抽取出的一部分数据。

3.2 参数与统计量•参数:用于描述总体特征的数值。

•统计量:用于描述样本特征的数值。

3.3 随机变量与概率分布•随机变量:取值不确定的变量。

•概率分布:描述随机变量取值的概率情况。

4. 数理统计的基本方法4.1 描述统计描述统计是通过对数据进行整理、分类、计算和统计来描述和总结数据的基本特征。

•频数分布表:将数据按照不同取值分组统计出现次数。

•频数分布直方图:用柱状图表示不同频数的分布情况。

•平均数:描述数据的集中趋势。

•方差:描述数据的离散程度。

4.2 推断统计推断统计是通过样本对总体进行推断和估计。

•置信区间:估计总体参数的区间范围。

•假设检验:对总体参数的假设进行检验。

5. 随机过程概述5.1 随机过程的定义随机过程是一组随机变量的集合,这些随机变量依赖于一个或多个参数,并且随着参数变化而改变。

5.2 随机过程的分类•马尔可夫过程:未来状态只与当前状态有关。

•广义马尔可夫过程:未来状态与当前状态及历史状态有关。

•马尔可夫链:具有马尔可夫性质的离散时间的随机过程。

6. 数理统计与随机过程的应用6.1 金融领域在金融领域,数理统计和随机过程被广泛应用于风险评估、资产定价和投资组合管理等。

6.2 生物医学领域在生物医学领域,数理统计和随机过程被用于疾病诊断、药物研发和生物信息学等。

6.3 工程领域在工程领域,数理统计和随机过程被应用于质量控制、可靠性分析和网络通信等。

数理统计与随机过程讲义

数理统计与随机过程讲义

=q(t) r e ,为非平凡(非零)有界解,这里•为状态转移概率 那么我们有分布函数F (t) = P(x 乞 t) = 1 _ P(x t) = 1 _ q(t) = 1 _ e —'t因此得到指数分布 Ye 」t_00 other两个指数分布之和的分布?f(t) dF(t) dt 《数理统计与随机过程讲义》段法兵复杂性科学研究所第一章概率论回顾F 面是数理统计部分需要的掌握的,许多推导的基础知识§1.1几种分布的由来指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。

设q(t)为区间t 上没有事件发生的概率,x 为第一次事件发生等待 的时间,那么q(t)二P(x .t),假设不同时间区间t i ,t 2相互不重叠且独立,那么 P(x tJP(x t 2) = P(x t 1 t 2)=q(t i )q(t 2)=q(t i t ?)在x-y的空间内,满足x • y乞z的区域如上,那么z的累计分布f z (z)二 f x (x) * f y (y)= F(z) = P& + y wz}= (dy(」f xy (x,y)dx那么f z (zH-d FjZ Z^ " 0f x (x )f y (^x)dx 例如x 与y 为相互独立的指数分布,f x (x)二(厂和f y (y)二,e_y 分别为其概率分 布函数,那么z = x+y 的分布为,2e —'X e-'(z 」)dx = z ・2e 」z , 0Gamma 分布:N 个指数分布的随机变量之和的分布为 Gamma 分布。

例如x 与y 为相互独立的指数分布,f x (x)二’e"和f y (y)二分别为其概率分 布函数,那么z 二x+y 的分布为z n - n f z (z) = f x (x) * f y (y)=[扎eF/Jdx = zfb如此卷积下去,N 个相互独立的指数分布相加的概率分布为 Gamma 分布,其概 率密度函数这里参数〉,■:':0。

数理统计与随机过程讲义

数理统计与随机过程讲义

第四章 假设检验假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。

从发展历史上有重要的节点为1 :Pearson 的拟合优度的2χ检验 19002:Fisher 的显著性检验 19203:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 19505:Bayes 方法 (二战之后发展的学派) §4.1 基本术语关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。

无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。

为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ⋃,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。

那么这样就产生了两种错误:第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。

选定一种检验方法,我们希望上述两种错误概率都小。

但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。

数理统计与随机过程ch9课件

数理统计与随机过程ch9课件
总平均的差异,称为水平Aj 的效应。此时, s n jδi 0. j 1
模型 (1.1)可改写成
X ij μ δj εij ,
各εij独 立 同 分 布 ,且εij
~ N(0,2 ),
j 1, 2, , s, i 1, 2, ,nj ,
s
njδj 0.
j 1
(1.1)
假设(1.2)等价于假设
试验目的是为了考察各台机器生产的铝合金薄板 的厚度是否有显著差异,即因素的不同水平是否对试 验目标有显著不同的影响。
例2:随机选取的、用于计算器的四种类型的电路的 响应时间如下表所示 (单位是毫秒)。试验指标是电 路的响应时间;考虑的因素是电路类型;四种电路 就是四个水平。试验目的:考察电路类型对响应时 间有无显著影响。
j1 i 1
j1 i 1
s nj
2
( X ij X . j )(X . j X ) .
j1 i 1
上式的第三项为
s
nj
s
nj
2
j 1
( X . j
X
)
i 1
( X ij
X.j
)
2
j 1
( X . j
X
)
i 1
X ij
nj
X.j
0
.
于是,有
ST=SE+SA ,
其中
s nj
SE
由于
E( X• j X•k ) μ j μk ,
D( X• j
X•k )
1 nj
1 nk
2 ,
且 X• j X•k 与 ˆ 2 SE /(n s) 相互独立。于是,
( X• j X•k ) ( μ j μk ) SE (1 / n j 1 / nk )

第十二章随机过程及其统计描述概率论与数理统计

第十二章随机过程及其统计描述概率论与数理统计

20
当n充分大时, n维分布函数族能够近似地描 述随机过程的统计特性. 显然, n取得越大, 则 n维分布函数族描述随机过程的特性也越趋 完善. 一般, 可以指出(科尔莫戈罗夫定律):有 限维分布函数族, 即{FX(x1,x2,...,xn, n=1,2,...,t1, t2, ...,tn), tiT}完全地确定了随机过程的统计 特性.
4
随机过程可看作多维随机变量的延伸. 随机过 程与其样本函数的关系就象数理统计中总体 与样本的关系一样. 因此, 热噪声电压的变化过程{V(t), t0}是一 随机过程, 它的状态空间是(-, +), 一次观 测到的电压-时间函数就是这个随机过程的一 个样本函数. 在以后的叙述中, 为简便起见, 常以X(t), tT 表示随机过程. 在上下文不致混淆的情况下, 一般略去记号中的参数集T.
13
随机过程的不同描述方式在本质上是一致的. 在理论分析时往往以随机变量族的描述方式 作为出发点, 而在实际测量和数据处理中往往 采用样本函数族的描述方式. 这两种描述方式 在理论和实际两方面是互为补充的. 随机过程可依其在任一时刻的状态是连续型 或离散型随机变量而分成连续型随机过程和 离散型随机过程. 热噪声电压, 例2和例3是连 续型随机过程, 例1, 例4和例5是离散型随机过 程.
12
工程技术中有很多随机现象, 例如, 地震波幅, 结构物承受的风荷载, 时间间隔(0, t]内船舶甲 板"上浪"的次数, 通讯系统和自控系统中的 各种噪声和干扰, 以及生物群体的生长等等变 化过程都可用随机过程这一数学模型来描绘. 不过, 这些随机过程都不能象随机相位正弦波 那样, 很方便, 很具体地用时间和随机变量(一 个或几个)的关系式表示出来, 其主要原因是 自然界和社会产生随机因素的机理极为复杂, 甚至不可能观察到, 因此只有通过分析样本函 数才能掌握它们的规律性.

数理统计与随机过程(涂然)-第1课

数理统计与随机过程(涂然)-第1课

大量时间写板书 内容少、思考时间多 容易接收
随机现象与随机事件
例2
生产产品,直到有 生产产品 直到有10件合格品为止,则生产产 件合格品为止 则生产产 品总件数的样本空间是? 解 设产 完第10件正品前共 解:设产生完第 件正品前共生产了 产了k件不合 格产品,则 10 k | k 0,1,2,... 10 1112 或 10,11,12,...
课堂要求
请各位尽量遵守 看准上课时间 手机请静音(拍照勿用闪光) 课后作业用作业本提交
概率论
概率论
概率论自身框架
概率论有一个自生的框架,所有问题都是在这 概率论有 个自生的框架 所有问题都是在这 个框架之内进行讨论,是一门严谨的学科 这个框架在我们这门课里称为概率空间
(, F , P )
随机事件
概率
概率发展简史
起源于17世纪 公认是1654年Pascal与Fermat就赌博中的数 学问题所展开的讨论
概率
概率发展简史
随后众多数学大家的积淀(17-18 17 18世纪)
Poisson
Laplace
Huygens
Bernouli
概率
相机简史
1822年才有了第一张照片(诞生于法国) 年才有了第 张照片(诞生于法国)
事件关系
文氏图
BA
BA
AB相容
AB不相容
AB对立
事件关系
文氏图
与打靶的相似 环是 事件 打靶就是作实验
ห้องสมุดไป่ตู้件关系
文氏图
文式图介绍 由John Venn(英国数学家) 在1881年发明,又翻译为 维恩图或韦恩图,最早是用来 表示集合及其关系的图形
事件关系

数理统计与随机过程课件

数理统计与随机过程课件

[例1]研究1000件产品的质量。已知其中一件产品的质 量等级可分为:次品、一等品、二等品,请写出母体。 解:设数0、1、2分别表示次品、一等品、二等品, 则母体为数集 {0,1,2}。 [例2]研究2021年全校学生的身高。母体是什么? 母体:2021年全校学生的身高。
母体是随机变量
2.母体分布
f(x1,x2,… ,xn)= fX1 (x1) fX2 (x2) … fXn (xn) =f(x1) f(x2) … f(xn)
3)若总体X的分布函数为F(x),则子样(X1,X2,…,Xn )的 联合分布函数为
F(x1,x2,… ,xn)= FX1(x1) FX2(x2) … FXn(xn) = F(x1) F(x2) … F(xn)
测后放回母体,再随机抽取下一个个体; u 无放回(非重复)抽样(当N/n<=0.1时,无放回
抽样可视为有放回抽样).
定义:有放回地随机抽样称为简单随机抽样。通过 简单随机抽样得到的子样称为简单随机子样。
注:教材使用的都是简单随机子样,简称为子样。
2. 子样的二重性
u 在具体的抽样行为发生之前,子样 (X1,X2,…,Xn ) 中的每个样品都是随机变量, 从而子样是n 维随 机向量(随机变量).
求子样频数分布和子样频率分布.
解:将12个数从小到大排列:
0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3
子样频数分布
子样频率分布
X 0123 X 0 1 2 3 频数 3 5 3 1 频率 1/4 5/12 1/4 1/12
问:频数分布和频率分布有什么作用?
2.经验分布函数
定义:设子样值为( x1,x2,… ,xn),对任意实数x,子样

概率论与数理统计经典课件随机过程

概率论与数理统计经典课件随机过程
3
一维、二维或一般的多维随机变量的研究是概率论的研究内容,而 随机序列、随机过程则是随机过程学科的研究内容。从前面的描述中看 到,它的每一样本点所对应的,是一个数列或是一个关于t的函数。
定义:设T是一无限实数集,X (e,t), e S,t T是对应于e和t的实数,
即为定义在S 和T 上的二元函数。
DX
(t)
E
[ X (t) X (t)]2
---方差函数
X (t)
2 X
(t
)
---标准差函数
又设任意t1,t2 T RXX (t1,t2 ) E[ X (t1) X (t2 )] (自)相关函数
CXX (t1,t2 ) Cov[ X (t1), X (t2 )]
E [ X (t1) X (t1)][ X (t2 ) X (t2 )] (自)协方差函数
定义: X (t),t T是一随机过程,若它的每一个有限维分布
都是正态分布,即对任意整数n 1及任意t1,t2,
X (t1), X (t2 ), X (tn )服从n维正态分布, 则称X (t),t T是正态过程
tn T ,
正态过程的全部统计特性完全由它的均值函数和自协方差函数所确定。
16
例3:设A, B是两个随机变量,试求随机过程:
当A
N 1,4, B
U 0, 2时,E(A) 1, E( A2 ) 5, E(B) 1, E(B2)
4 3
又因为A, B独立, 故E(AB) E(A)E(B) 1
X (t) t 3, RX (t1, t2 ) 5t1t2 3(t1 t2 ) 12 t1, t2 T
17
例4:求随机相位正弦波X (t) acos(t ) t ,

研究生《数理统计》完整课件讲义

研究生《数理统计》完整课件讲义

解. 由题意,X (t) 可表示为
X (t) a cos(t ), t
其中随机变量 的分布律为
0
P
23 13
所以
mX (t) EX (t) Ea cos(t )
a cost 2 (a cost) 1
3
3
a cost, 3
RX (t1, t2 ) E[ X (t1 ) X (t2 )]
2
F
(x;
2
)
0, x 1, x
0 0
(2)X (0) A, X ( ) A ,二维随机变量
32
( A, A 2) 的分布律为
(A, A 2)
P
(1,1 2) (2,1) (3, 3 2)
13
13
13
x2
D4
D2
D3
D1
o
O
x1
二维分布函数为
F (x1,
x2 ;0,
3
)
P{A
x1 ,
A 2
例2. 西安地区从2012年开始,第n年的 降雨量Xn,n∈T={1,2,3,…}。
例3. 某超市在时段[t1,t] 内到来的顾 客人数X(t),t∈T=[t1,t2]。
例4. 某电路中,一电子元件 t 时刻的 热噪声电压X(t),t∈T=[0,+∞)。
在上述几个例子中,X(t)(或Xn)具有以下 两个特征:
正态过程是二阶矩过程,它在工程技
术中有重要的应用。正态过程 {X (t),t T} 的 n 维分布密度为
f
1
n
(2 ) 2
C
1 2
exp{
1 2
(
x
m
X
)

数理统计与随机过程

数理统计与随机过程

数理统计与随机过程数理统计与随机过程1. 引言数理统计与随机过程是两个密切相关的概念,既有相似之处又有一些区别之处。

数理统计是一种研究数据收集、分析和解释的方法,而随机过程则是研究时间上的随机变化的数学模型。

本文将深入探讨数理统计与随机过程的基本概念、应用以及相互关系,以期帮助读者更全面地理解这两个领域。

2. 数理统计数理统计是一种通过收集、处理和解释数据来进行推断和决策的学科。

它包括描述统计和推断统计两个方面。

描述统计主要包括对数据的总结、图形展示和基本统计指标的计算,通过这些方法可以揭示数据的特征和分布。

推断统计则是基于样本数据对总体特征进行估计和推断的方法,其中包括参数估计和假设检验。

数理统计在各个领域都有广泛的应用,如市场调研、医学研究和金融风险评估等。

3. 随机过程随机过程是一种描述随机现象演变的数学模型,它涉及到时间上不确定性的变化。

随机过程可以看作是一系列随机变量的集合,这些随机变量在时间上有关联,并且它们的取值取决于某个随机事件的结果。

随机过程可以分为离散时间和连续时间两种类型。

离散时间下的随机过程通常用更简单的概率论工具进行描述,如马尔可夫链和随机游走。

而连续时间下的随机过程则需要用到更为复杂的数学方法,如随机微分方程和布朗运动。

随机过程在物理学、通信系统和金融工程等领域有着广泛的应用。

4. 数理统计与随机过程的联系数理统计和随机过程有着密切的联系,两者既有相互支持的关系,也有独立发展的特点。

数理统计可以用来对随机过程进行建模和推断。

通过收集随机过程的样本数据,可以应用数理统计中的方法来估计空间分布、预测未来变化趋势等。

而随机过程则为数理统计提供了数据来源,将现实世界的随机现象进行数学描述,为数理统计的分析提供了基础。

随机过程的理论和方法也常常被运用到数理统计中。

在时间序列分析中,随机过程的模型可以用来描述数据随时间变化的规律,从而可以对未来的观测结果进行预测和分析。

数理统计和随机过程的融合使得对数据的分析更加全面和准确。

数理统计与随机过程3-1-数理统计1

数理统计与随机过程3-1-数理统计1
定义: 称 E [ X E ( X )][Y E (Y )] 为随机变量X 与Y 的协方差,
记为:Cov ( X , Y ) E [ X E ( X )][Y E (Y )]. 称 XY Cov( X , Y ) D( X ) D(Y ) 为随机变量X 与Y的相关系数.
t2
1 te 2 | 2
因为X Z,故E ( X ) E ( Z ) , D( X ) D( Z ) 2 D(Z ) 2
即正态分布的两个参数 , 2分别是该分布的数学期望和方差。
独立的n个正态变量的线性组合仍服从正态分布:
即二维正态变量( X , Y )的概率密度中的参数 就是X , Y 的相关系数。 从而二维正态变量的分布完全可由X , Y 各自的 均值、方差以及它们的相关系数所确定。
前面已经证明: 若( X , Y )服从二维正态分布,那么X 和Y 相互独立 0 现在知道, XY ,从而知: 对于二维正态变量( X , Y )来说, X 和Y 不相关 X 与Y 相互独立
k!
k 1
(k 1)!
e e
即 E( X )
5

数学期望的特性:
1.设C是常数,则有E(C) C
2.设X 是一个随机变量,C是常数,则有E(CX ) CE( X )
3.设X , Y 是两个随机变量,则有E( X Y ) E( X ) E(Y )
(2) X ~ b(1, 1 2),(即(0 1)分布) P(U 1,V 0) P( X Y 1, X Y 0) 0 P(U 1) P( X Y 1) P( X 1, Y 0) 1 4, P(V 0) P( X Y 0) P( X 0, Y 0) 1 4, 所以P(U 1,V 0) P(U 1) P(V 0) U 与V不独立。

概率论与数理统计之随机过程

概率论与数理统计之随机过程

12
⎧cos π t 出现H X (t ) = ⎨ 出现T ⎩t
t ∈ ( −∞, +∞ ),P( H ) = P(T ) = 1 。 2
⎧ ⎪(1, −1) 出现H (2) = (0), (1) X X ( ) ⎨ ⎪ ⎩( 0, 1) 出现T
X (t )
X 2 (t )
X 1 (t )
1
2
3
4
解:设质点第i 次移动的距离为X i,X i可取 + 1,也可取 − 1, P( X i = +1) = p,P( X i = −1) = q = 1 − p。
=
x
π
1 ⎧ , −a < x < a ⎪ 所以,f X (0) ( x) = ⎨ π a 2 − x 2 ⎪ 0, 其它 ⎩

a
θ
−a
15
当0 ≤ x < a 时, F ( x,
= P(−π ≤ Θ ≤ − arccos − ) + P(arccos − ≤ Θ ≤ π ) a 2 a 2 a π 当 − a < x < 0 时, F ( x, ) 2ω π 3π x π x − π = P (arccos − ≤ Θ ≤ − arccos ) θ a 2 2 a −a
它 是 t的 函 数 , 称 为 随 机 过 程 的 样 本 函 数 。
今后将X (e, t )简记为X (t )
例1:抛掷一枚硬币的试验,样本空间是 Ω = { H , T },现定义:
则{ X (t ), t ∈ ( −∞, +∞ )} 是一随机过程。
⎧cosπ t 当出现H X (t ) = ⎨ 当出现T ⎩t
( )

数理统计与随机过程ch(3)

数理统计与随机过程ch(3)

可编辑ppt
14
说明:这里有一个问题,即物体长度的测
量值总是在其真值 的附近,它不可能取负值。
而正态分布取值在(-∞,∞)上。那么,怎 么可以认为测量值X服从正态分布呢?
回答这个问题,有如下两方面的理由。
(1).在前面讲过,对于X∼N(,2),
P{-3<X<+3}=0.9974.
即 X 落在区间(-3,+3)之外的概率不超过 0.003, 这个概率非常小。X 落在(-4,+4)
可编辑ppt
12
例 3 (例 l 续):在例 l中,若农户年收入以万 元计,假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型 分布,分布律为:
X 0.5 0.8 1 1.2 1 p k n1/N n2/N n3/N n4/N n5/N
可编辑ppt
6
实际上,我们真正关心的并不一定是总体 或个体本身,而真正关心的是总体或个体的某 项数量指标。
如:某电子产品的使用寿命,某天的最高 气温,加工出来的某零件的长度等数量指标。 因此,有时也将总体理解为那些研究对象的某
项数量指标的Leabharlann 体。可编辑ppt7
为评价某种产品质量的好坏,通常的做法 是:从全部产品中随机(任意)地抽取一些样品 进行观测(检测),统计学上称这些样品为一个 样本。
可编辑ppt
13
例4 (例2续):在例2中,假定物体真实长度为
(未知)。一般说来,测量值X就是总体,取 附近值的概率要大一些,而离 越远的值被取
到的概率就越小。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章 假设检验假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。

从发展历史上有重要的节点为1 :Pearson 的拟合优度的2χ检验 19002:Fisher 的显著性检验 19203:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 19505:Bayes 方法 (二战之后发展的学派) §4.1 基本术语关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。

无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。

为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ⋃,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。

那么这样就产生了两种错误:第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。

选定一种检验方法,我们希望上述两种错误概率都小。

但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。

§4.2参数假设检验设X 符合分布),(θx F ,未知参数θΘ∈参数空间,空间分成两部分0Θ和Θ-0Θ,二者交集为空。

主要对于正态分布参数的统计假设的显著性检验方法。

1)针对不同问题,提出基本假设与备选假设0H :θ0Θ∈ 1H :θ0Θ-Θ∈如果参数空间仅仅是由0θθ=和1θθ=两个点组成的,那么我们称简单假设,否则是复合假设。

2)给定检验的显著性水平α,其大小依据不同问题不同,比如火箭、飞机等可靠性问题,α要越小越好,对于一般生产问题,太小了则意味着生产时间和成本的增加;3)建立对于基本假设的统计量和否定域;4)取样,计算统计量值,落入否定域则判读0H 为假,否则为真。

例子:某种药片制剂中国家规定成分A 的含量X 必须为10%,现在抽取5个片剂试样,测得A 的含量为10.9% 9.45% 10.38% 9.61% 9.92%假设)%,10(~20σ=u N X ,按照显著性水平α=0.05进行检验是否与规定10%相符?解:建立基本假设0H :0u u =,这里显著性水平α=0.05,样本容量为5,样本值如上。

如何确定统计量呢?样本均值X 可以求出,但是这里方差未知,用无偏估计量*2n S 来代替2σ,那么统计量=t )1(~/*20--n t nS u X n这是我们以前推导过的,因此可以建立否定域为αα=⎭⎬⎫⎩⎨⎧≥2||t t P即落入区域2||αt t ≥则认为假,此区域之外就是真。

t-检验法。

回到我们的问题,X =1005.0,*2nS =25120059.0)(151=--∑=i i X x ,那么6949.1/*20=-=nS u X t n为统计量的值,由显著性水平α=0.05,我们查得7764.2)4(205.0=t 。

由于6949.1=t <7764.2)4(205.0=t ,这个统计量值落在否定域之外,就是说基本假设是真的,因此判断显著性水平α=0.05下规定成分A 的含量与规定10%相符的。

两样本t 检验法:有时为了比较两种方法、仪器、产品等的差异性,我们在相同条件下做对比试验,然后得到成对的数据,分析这些数据作出推断。

再次回顾第二章中定理定理:设121,,,n x x x 子样来自母体),(211σu N ,221,,,n y y y 子样来自母体),(222σu N ,各自的子样均值∑==1111n i i x n X ),(~1211n u N σ,∑==2121n i i y n Y ),(~2222n u N σ,那么),(~22212121n n u u N Y X σσ+--,那么一个新的变量)1,0(~)()(22212121N n n u u Y X U σσ+---=,若21μμ=,)1,0(~)(222121N n n Y X U σσ+-=*22222*2121111S n S n V σσ-+-=符合)1(12-n χ+ )1(22-n χ,即)2(212-+n n χ,加和性质 且上述两个变量相互独立。

那么依据定义)2(~)2/(2121-+-+n n t n n V U例子:设两种橡胶轮胎进行耐磨性试验对比,从中各自随机取8个,各取一个随机配对装在8架飞机上,经过一段时间测量磨损量如下(单位毫克)这里显著性水平α=0.05。

方法一:假设两个母体),(21σu N , ),(22σu N 方差一样 原假设 0H :21u u =, 对立假设为1H :21u u ≠ 独立那么按照上述定理得到6145=X 1867312*1=S ;5825=Y 1204422*1=S 代入得到)14(~516.014/t V U= 查表145.2)2/(14=αt ,可见大于计算的统计量值,那么就不否定(接受)假设0H ,认为二者磨损量无显著差异。

方法二:我们采用配对实验Z=X-Y -30 320 360 320 -140 230 780 720 由于 d y x E z E i i i =-=-=21][][μμ,2][][][D i i i y D x D z D σ=+=那么,i z 是来自母体),(D d N σ的正态母体,此时假设0H :21u u =等价于 0=d 的假设,设∑==n i i z n Z 11=320,∑=--=n i i n Z z n S 12*2)(11=102200,那么我们也可以构造 72*~83.2/t nS Z n=查表,显著性水平α=0.05下,365.2)2/(14=αt ,我们发现365.283.2>,说明落在了否定域,即否定原假设0H ,两种轮胎的耐磨性是有差异的。

讨论:同一显著性水平α=0.05下,相同的数据,为何两种方法得到完全不同的推断结论呢?这是因为,配对分析时,自由度下降了n=8-1,从而临界值提高了,即365.2)2/(14=αt ,增加了否定原假设的可能性,每架飞机突出两种轮胎之间差异,消除了飞机之间的数据影响,只要两个轮子耐磨性有一定差异,就可能否定假设0H ;而不做配对,自由度增加为8+8-2=14,临界值降低,减小了否定原假设的可能性。

什么时候用方法一还是方法二,还是得靠具体情况定。

其他不同的问题,构造不同的统计量,利用不同的分布进行检验,书上有基本的统计量表格,无非就是查表计算问题。

§4.3 非参数假设的2χ检验所谓非参数假设,就是不确切知道母体分布的数学形式的情况下,对于母体分布的各种论断,比如服从什么什么分布,相互独立,等等。

其特点是:A 不依赖与母体分布的具体形式,什么形式都适用的检验;B 由于缺乏母体分布的完全知识,所以使用的统计量精确分布难以求出,只能求出极限分布,一般需要大样本容量。

Pearson 提出了2χ检验法,步骤为:1):将所有观测值X 进行分割不同子集 rk k A X 1==, j i A A j i ≠=,φ,子集的数目为r ;2):统计观测值在每个子集k A 中出现的频数k n (出现的次数),当然满足n nrk k=∑=1;3):在基本假设0H 真实的情况下,就是按照我们设定的分布概率密度函数,计算每个子集k A 中的理论期望频数,设落入概率为}|{0H A x P P k k ∈==dx H x f kA ⎰)|(0,r k ,,2,1 =,11=∑=rk k P 注意这是概率那么我们得到期望频数为 k n nP E k =,就是总共抽取n 个样本,那么每个子集k A 内理论上应该抽取了几个。

4)建立统计量∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ~)1(2-r χ符合)1(2-r χ分布,且表示了实际观察和理论结果之间相对差异的总和,当这个值大于某个临界值,则否定此假设。

否则接受假设。

Pearson 证明 为何上述统计量符合)1(2-r χ分布: 证明:1)当r=2两个子集,n n n =+21,121=+P P那么2112112122)1()()(ηχ=--=-=∑=P nP nP n nP nP n k k k k这里注意211211222)())1(()(nP n P n n n nP n -=---=-,代入即可那么由De Moirre-Laplace (隶莫弗)定理,二项分布)1(1111P nP nP n --=η的极限分布为标准正态分布,即)1,0(~N η,那么)12(~22-χη分布。

这是r=2时是符合的。

2)当2>r 的一般情况我们知道频数有n n rk k =∑=1,上面为二项分布,这里符合多项分布rn r n r r P P n n n n P P f 11211!*!*!*!),,(=同样由中心极限定理)1(j j j j P nP nP n --)1,0(~N ,那么jjj j nP nP n Y -=)1,0(~j P N -∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ就是r 个正态随机变量的平方和,但是由于这些变量之间有一个制约关系。

就像前面我们证明正态母体均值和方差的分布时一样证明方法,构造的正交矩阵⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=ija P P P A 321使得AY Z =,我们会发现=-∑=jjj rj jnP nP n P 1∑∑∑====-=-rj j r j j rj jj P n n n n nP n 1110)(1∑∑∑=====-==rk k r k k rk k k k Z Y nP nP n 21122)(χ,只是1-r 正态变量的平方和,所以自由度为1-r 。

相关文档
最新文档