数理统计与随机过程讲义

合集下载

数理统计与随机过程2--概率论1

数理统计与随机过程2--概率论1

解:
e 4.5 4.5k P( X k ) , k 0,1, 2, k!
1
P( X 2) 1 P( X 0) P( X 1) 1 e 4.5 (1 4.5) 0.9389
2
P( X 2) P( X 2 | X 2) 0.1198 P( X 2)
示数的——降雨量;候车人数;发生交通事故的次数… 示性的——明天天气(晴,多云…);化验结果(阳性,阴性)…
*
中心问题:将试验结果数量化
*
*
定义:随试验结果而变的量X为随机变量
常见的两类随机变量
离散型的
连续型的
•4
定义:取值可数的随机变量为离散量 离散量的概率分布(分布律)
X P
x1 p1 x2 p2
5
5
f x
0.798
0.399 0.266
0.5
1.0 1.5
0

1
x
0

x
•18
在自然现象和社会现象中,大量 随机变量服从或近似服从正态分布。
•19
记 Z ~ N (0, 1), 称Z 服从标准正态分布
1 Z的概率密度: x e 2 t2 x 1 2 Z的分布函数: ( x) e dt 2
•13

概率密度函数f(x)的性质
面积为1
1) f ( x) 0
2)
y f ( x)

+

f ( x)dx 1
Px1 X x2
3) 对于任意的实数x1,x2 ( x2 x1 ) P x1 X x2

x2
x1

数理统计与随机过程

数理统计与随机过程

数理统计与随机过程1. 介绍2. 数理统计概述2.1 统计学的定义统计学是一门研究如何收集、整理、分析和解释数据的学科。

它利用数理统计方法和技巧来从已有数据中获取有关现象和问题的信息。

2.2 数理统计的重要性•数理统计可以帮助我们理解和解释现象和问题,从数据中提取有用信息。

•数理统计可以帮助我们做出合理的决策,并评估决策的风险和效果。

•数理统计是其他学科研究的重要工具,如经济学、社会学、医学等。

3. 数理统计的基本概念3.1 总体与样本•总体:研究对象的全体。

•样本:从总体中抽取出的一部分数据。

3.2 参数与统计量•参数:用于描述总体特征的数值。

•统计量:用于描述样本特征的数值。

3.3 随机变量与概率分布•随机变量:取值不确定的变量。

•概率分布:描述随机变量取值的概率情况。

4. 数理统计的基本方法4.1 描述统计描述统计是通过对数据进行整理、分类、计算和统计来描述和总结数据的基本特征。

•频数分布表:将数据按照不同取值分组统计出现次数。

•频数分布直方图:用柱状图表示不同频数的分布情况。

•平均数:描述数据的集中趋势。

•方差:描述数据的离散程度。

4.2 推断统计推断统计是通过样本对总体进行推断和估计。

•置信区间:估计总体参数的区间范围。

•假设检验:对总体参数的假设进行检验。

5. 随机过程概述5.1 随机过程的定义随机过程是一组随机变量的集合,这些随机变量依赖于一个或多个参数,并且随着参数变化而改变。

5.2 随机过程的分类•马尔可夫过程:未来状态只与当前状态有关。

•广义马尔可夫过程:未来状态与当前状态及历史状态有关。

•马尔可夫链:具有马尔可夫性质的离散时间的随机过程。

6. 数理统计与随机过程的应用6.1 金融领域在金融领域,数理统计和随机过程被广泛应用于风险评估、资产定价和投资组合管理等。

6.2 生物医学领域在生物医学领域,数理统计和随机过程被用于疾病诊断、药物研发和生物信息学等。

6.3 工程领域在工程领域,数理统计和随机过程被应用于质量控制、可靠性分析和网络通信等。

数理统计与随机过程讲义

数理统计与随机过程讲义

=q(t) r e ,为非平凡(非零)有界解,这里•为状态转移概率 那么我们有分布函数F (t) = P(x 乞 t) = 1 _ P(x t) = 1 _ q(t) = 1 _ e —'t因此得到指数分布 Ye 」t_00 other两个指数分布之和的分布?f(t) dF(t) dt 《数理统计与随机过程讲义》段法兵复杂性科学研究所第一章概率论回顾F 面是数理统计部分需要的掌握的,许多推导的基础知识§1.1几种分布的由来指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。

设q(t)为区间t 上没有事件发生的概率,x 为第一次事件发生等待 的时间,那么q(t)二P(x .t),假设不同时间区间t i ,t 2相互不重叠且独立,那么 P(x tJP(x t 2) = P(x t 1 t 2)=q(t i )q(t 2)=q(t i t ?)在x-y的空间内,满足x • y乞z的区域如上,那么z的累计分布f z (z)二 f x (x) * f y (y)= F(z) = P& + y wz}= (dy(」f xy (x,y)dx那么f z (zH-d FjZ Z^ " 0f x (x )f y (^x)dx 例如x 与y 为相互独立的指数分布,f x (x)二(厂和f y (y)二,e_y 分别为其概率分 布函数,那么z = x+y 的分布为,2e —'X e-'(z 」)dx = z ・2e 」z , 0Gamma 分布:N 个指数分布的随机变量之和的分布为 Gamma 分布。

例如x 与y 为相互独立的指数分布,f x (x)二’e"和f y (y)二分别为其概率分 布函数,那么z 二x+y 的分布为z n - n f z (z) = f x (x) * f y (y)=[扎eF/Jdx = zfb如此卷积下去,N 个相互独立的指数分布相加的概率分布为 Gamma 分布,其概 率密度函数这里参数〉,■:':0。

数理统计与随机过程

数理统计与随机过程

数理统计与随机过程一、数理统计的基本概念和方法1.1 数理统计的定义数理统计是应用数学和统计学的原理与方法,对各种现象进行观察、收集、整理、分析和解释,从而得出有关这些现象的规律性和特征性的科学。

1.2 数理统计的基本方法数理统计的基本方法包括:数据收集、数据整理、数据分析和结论推断等。

1.3 数据收集数据收集是指通过各种手段获取有关某一现象或问题的信息。

常见的数据收集方式包括问卷调查、实验观测、抽样调查等。

1.4 数据整理数据整理是指对收集到的原始数据进行加工处理,使其变成可分析和可比较的形式。

常见的数据整理方式包括分类汇总、编码标记等。

1.5 数据分析数据分析是指通过各种统计方法对已经整理好的数据进行描述性分析和推断性分析。

常见的数据分析方法包括频率分布、中心位置测度、离散程度测度等。

1.6 结论推断结论推断是指根据已经得出的结果,对所研究问题作出科学合理判断。

常见的结论推断方式包括假设检验、置信区间估计等。

二、随机变量及其分布2.1 随机变量的定义随机变量是指在一次试验中可能取到不同值的变量,其取值不仅受试验本身的性质决定,还受到随机因素的影响。

2.2 随机变量的分类随机变量可以分为离散型和连续型两种。

离散型随机变量只能取有限个或可数个值,而连续型随机变量可以取任意实数值。

2.3 随机变量的分布函数随机变量的分布函数是指对于任何实数x,求出X≤x的概率。

对于离散型随机变量,其分布函数为累积分布函数;对于连续型随机变量,其分布函数为概率密度函数。

2.4 常见离散型随机分布常见离散型随机分布包括:伯努利分布、二项式分布、泊松分布等。

2.5 常见连续型随机分布常见连续型随机分布包括:均匀分布、正态分布、指数分布等。

三、参数估计和假设检验3.1 参数估计的基本概念参数估计是指通过样本数据对总体分布的某些未知参数进行估计。

常见的参数估计方法包括点估计和区间估计。

3.2 点估计点估计是指用样本数据直接求出总体分布的某个未知参数的值。

数理统计与随机过程(涂然)-第1课

数理统计与随机过程(涂然)-第1课

大量时间写板书 内容少、思考时间多 容易接收
随机现象与随机事件
例2
生产产品,直到有 生产产品 直到有10件合格品为止,则生产产 件合格品为止 则生产产 品总件数的样本空间是? 解 设产 完第10件正品前共 解:设产生完第 件正品前共生产了 产了k件不合 格产品,则 10 k | k 0,1,2,... 10 1112 或 10,11,12,...
课堂要求
请各位尽量遵守 看准上课时间 手机请静音(拍照勿用闪光) 课后作业用作业本提交
概率论
概率论
概率论自身框架
概率论有一个自生的框架,所有问题都是在这 概率论有 个自生的框架 所有问题都是在这 个框架之内进行讨论,是一门严谨的学科 这个框架在我们这门课里称为概率空间
(, F , P )
随机事件
概率
概率发展简史
起源于17世纪 公认是1654年Pascal与Fermat就赌博中的数 学问题所展开的讨论
概率
概率发展简史
随后众多数学大家的积淀(17-18 17 18世纪)
Poisson
Laplace
Huygens
Bernouli
概率
相机简史
1822年才有了第一张照片(诞生于法国) 年才有了第 张照片(诞生于法国)
事件关系
文氏图
BA
BA
AB相容
AB不相容
AB对立
事件关系
文氏图
与打靶的相似 环是 事件 打靶就是作实验
ห้องสมุดไป่ตู้件关系
文氏图
文式图介绍 由John Venn(英国数学家) 在1881年发明,又翻译为 维恩图或韦恩图,最早是用来 表示集合及其关系的图形
事件关系

(完整版)《概率论与数理统计》讲义

(完整版)《概率论与数理统计》讲义

第一章 随机事件和概率 第一节 基本概念1、排列组合初步(1)排列组合公式)!(!n m m P n m -= 从m 个人中挑出n 个人进行排列的可能数。

)!(!!n m n m C n m -=从m 个人中挑出n 个人进行组合的可能数。

例1.1:方程xx x C C C 76510711=-的解是 A . 4 B . 3 C . 2 D . 1例1.2:有5个队伍参加了甲A 联赛,两两之间进行循环赛两场,试问总共的场次是多少?(2)加法原理(两种方法均能完成此事):m+n某件事由两种方法来完成,第一种方法可由m 种方法完成,第二种方法可由n 种方法来完成,则这件事可由m+n 种方法来完成。

(3)乘法原理(两个步骤分别不能完成这件事):m ×n某件事由两个步骤来完成,第一个步骤可由m 种方法完成,第二个步骤可由n 种方法来完成,则这件事可由m ×n 种方法来完成。

例1.3:从5位男同学和4位女同学中选出4位参加一个座谈会,要求与会成员中既有男同学又有女同学,有几种不同的选法?例1.4:6张同排连号的电影票,分给3名男生和3名女生,如欲男女相间而坐,则不同的分法数为多少?例1.5:用五种不同的颜色涂在右图中四个区域里,每一区域涂上一种颜色,且相邻区域的颜色必须不同,则共有不同的涂法A.120种B.140种 C.160种D.180种(4)一些常见排列①特殊排列②相邻③彼此隔开④顺序一定和不可分辨例1.6:晚会上有5个不同的唱歌节目和3个不同的舞蹈节目,问:分别按以下要求各可排出几种不同的节目单?①3个舞蹈节目排在一起;②3个舞蹈节目彼此隔开;③3个舞蹈节目先后顺序一定。

例1.7:4幅大小不同的画,要求两幅最大的排在一起,问有多少种排法?例1.8:5辆车排成1排,1辆黄色,1辆蓝色,3辆红色,且3辆红车不可分辨,问有多少种排法?①重复排列和非重复排列(有序)例1.9:5封不同的信,有6个信箱可供投递,共有多少种投信的方法?②对立事件例1.10:七人并坐,甲不坐首位,乙不坐末位,有几种不同的坐法?例1.11:15人中取5人,有3个不能都取,有多少种取法?例1.12:有4对人,组成一个3人小组,不能从任意一对中取2个,问有多少种可能性?③ 顺序问题例1.13:3白球,2黑球,先后取2球,放回,2白的种数?(有序) 例1.14:3白球,2黑球,先后取2球,不放回,2白的种数?(有序) 例1.15:3白球,2黑球,任取2球,2白的种数?(无序)2、随机试验、随机事件及其运算(1)随机试验和随机事件如果一个试验在相同条件下可以重复进行,而每次试验的可能结果不止一个,但在进行一次试验之前却不能断言它出现哪个结果,则称这种试验为随机试验。

概率论与数理统计经典课件随机过程

概率论与数理统计经典课件随机过程
3
一维、二维或一般的多维随机变量的研究是概率论的研究内容,而 随机序列、随机过程则是随机过程学科的研究内容。从前面的描述中看 到,它的每一样本点所对应的,是一个数列或是一个关于t的函数。
定义:设T是一无限实数集,X (e,t), e S,t T是对应于e和t的实数,
即为定义在S 和T 上的二元函数。
DX
(t)
E
[ X (t) X (t)]2
---方差函数
X (t)
2 X
(t
)
---标准差函数
又设任意t1,t2 T RXX (t1,t2 ) E[ X (t1) X (t2 )] (自)相关函数
CXX (t1,t2 ) Cov[ X (t1), X (t2 )]
E [ X (t1) X (t1)][ X (t2 ) X (t2 )] (自)协方差函数
定义: X (t),t T是一随机过程,若它的每一个有限维分布
都是正态分布,即对任意整数n 1及任意t1,t2,
X (t1), X (t2 ), X (tn )服从n维正态分布, 则称X (t),t T是正态过程
tn T ,
正态过程的全部统计特性完全由它的均值函数和自协方差函数所确定。
16
例3:设A, B是两个随机变量,试求随机过程:
当A
N 1,4, B
U 0, 2时,E(A) 1, E( A2 ) 5, E(B) 1, E(B2)
4 3
又因为A, B独立, 故E(AB) E(A)E(B) 1
X (t) t 3, RX (t1, t2 ) 5t1t2 3(t1 t2 ) 12 t1, t2 T
17
例4:求随机相位正弦波X (t) acos(t ) t ,

《概率论与数理统计》课件-随机过程

《概率论与数理统计》课件-随机过程
《概率论与数理统计》经典课件 -随机过程
目录
• 随机过程基础 • 随机过程的基本类型 • 随机过程的分析与变换 • 随机过程的应用 • 随机过程的计算机模拟 • 随机过程的未来发展与挑战
01
随机过程基础
随机过程的定义与分类
定义
随机过程是由随机变量构成的数 学结构,每个随机变量对应一个 时间点或位置。
分类
根据不同的特性,随机过程可以 分为离散随机过程和连续随机过 程,平稳随机过程和非平稳随机 过程等。
随机过程的统计特性
均值函数
方差函数
自相关函数
谱密度函数
描述随机过程的平均行 为。
描述随机过程的波动程 度。
描述随机过程在不同时 间点的相关性。
描述随机过程的频率特 性。
随机过程的概率模型
01
02
蒙特卡洛方法在金融、物理、工程等领域有广泛应用,如期权定价、核反应堆模拟 等。
离散事件模拟方法
离散事件模拟方法是一种基于 事件驱动的模拟方法,通过模 拟离散事件的发生和影响来逼 近真实系统。
离散事件模拟方法适用于描述 离散状态变化的过程,如交通 流模拟、排队系统模拟等。
离散事件模拟方法的关键在于 事件的时间点和顺序的确定, 以及事件影响的计算。
连续时间模拟方法
连续时间模拟方法是一种基于时间连 续变化的模拟方法,通过模拟时间连 续变化的过程来逼近真实系统。
连续时间模拟方法的关键在于时间步 长的选择和状态变化的计算,需要保 证模拟结果的准确性和稳定性。
连续时间模拟方法适用于描述连续状 态变化的过程,如人口增长模拟、生 态系统模拟等。
06
随机过程的未来发展与挑战
控制系统
利用随机过程理论,分析和设计 控制系统,提高系统的稳定性和

研究生《数理统计》完整课件讲义

研究生《数理统计》完整课件讲义

解. 由题意,X (t) 可表示为
X (t) a cos(t ), t
其中随机变量 的分布律为
0
P
23 13
所以
mX (t) EX (t) Ea cos(t )
a cost 2 (a cost) 1
3
3
a cost, 3
RX (t1, t2 ) E[ X (t1 ) X (t2 )]
2
F
(x;
2
)
0, x 1, x
0 0
(2)X (0) A, X ( ) A ,二维随机变量
32
( A, A 2) 的分布律为
(A, A 2)
P
(1,1 2) (2,1) (3, 3 2)
13
13
13
x2
D4
D2
D3
D1
o
O
x1
二维分布函数为
F (x1,
x2 ;0,
3
)
P{A
x1 ,
A 2
例2. 西安地区从2012年开始,第n年的 降雨量Xn,n∈T={1,2,3,…}。
例3. 某超市在时段[t1,t] 内到来的顾 客人数X(t),t∈T=[t1,t2]。
例4. 某电路中,一电子元件 t 时刻的 热噪声电压X(t),t∈T=[0,+∞)。
在上述几个例子中,X(t)(或Xn)具有以下 两个特征:
正态过程是二阶矩过程,它在工程技
术中有重要的应用。正态过程 {X (t),t T} 的 n 维分布密度为
f
1
n
(2 ) 2
C
1 2
exp{
1 2
(
x
m
X
)

数理统计与随机过程

数理统计与随机过程

数理统计与随机过程数理统计与随机过程1. 引言数理统计与随机过程是两个密切相关的概念,既有相似之处又有一些区别之处。

数理统计是一种研究数据收集、分析和解释的方法,而随机过程则是研究时间上的随机变化的数学模型。

本文将深入探讨数理统计与随机过程的基本概念、应用以及相互关系,以期帮助读者更全面地理解这两个领域。

2. 数理统计数理统计是一种通过收集、处理和解释数据来进行推断和决策的学科。

它包括描述统计和推断统计两个方面。

描述统计主要包括对数据的总结、图形展示和基本统计指标的计算,通过这些方法可以揭示数据的特征和分布。

推断统计则是基于样本数据对总体特征进行估计和推断的方法,其中包括参数估计和假设检验。

数理统计在各个领域都有广泛的应用,如市场调研、医学研究和金融风险评估等。

3. 随机过程随机过程是一种描述随机现象演变的数学模型,它涉及到时间上不确定性的变化。

随机过程可以看作是一系列随机变量的集合,这些随机变量在时间上有关联,并且它们的取值取决于某个随机事件的结果。

随机过程可以分为离散时间和连续时间两种类型。

离散时间下的随机过程通常用更简单的概率论工具进行描述,如马尔可夫链和随机游走。

而连续时间下的随机过程则需要用到更为复杂的数学方法,如随机微分方程和布朗运动。

随机过程在物理学、通信系统和金融工程等领域有着广泛的应用。

4. 数理统计与随机过程的联系数理统计和随机过程有着密切的联系,两者既有相互支持的关系,也有独立发展的特点。

数理统计可以用来对随机过程进行建模和推断。

通过收集随机过程的样本数据,可以应用数理统计中的方法来估计空间分布、预测未来变化趋势等。

而随机过程则为数理统计提供了数据来源,将现实世界的随机现象进行数学描述,为数理统计的分析提供了基础。

随机过程的理论和方法也常常被运用到数理统计中。

在时间序列分析中,随机过程的模型可以用来描述数据随时间变化的规律,从而可以对未来的观测结果进行预测和分析。

数理统计和随机过程的融合使得对数据的分析更加全面和准确。

数理统计与随机过程3-1-数理统计1

数理统计与随机过程3-1-数理统计1
定义: 称 E [ X E ( X )][Y E (Y )] 为随机变量X 与Y 的协方差,
记为:Cov ( X , Y ) E [ X E ( X )][Y E (Y )]. 称 XY Cov( X , Y ) D( X ) D(Y ) 为随机变量X 与Y的相关系数.
t2
1 te 2 | 2
因为X Z,故E ( X ) E ( Z ) , D( X ) D( Z ) 2 D(Z ) 2
即正态分布的两个参数 , 2分别是该分布的数学期望和方差。
独立的n个正态变量的线性组合仍服从正态分布:
即二维正态变量( X , Y )的概率密度中的参数 就是X , Y 的相关系数。 从而二维正态变量的分布完全可由X , Y 各自的 均值、方差以及它们的相关系数所确定。
前面已经证明: 若( X , Y )服从二维正态分布,那么X 和Y 相互独立 0 现在知道, XY ,从而知: 对于二维正态变量( X , Y )来说, X 和Y 不相关 X 与Y 相互独立
k!
k 1
(k 1)!
e e
即 E( X )
5

数学期望的特性:
1.设C是常数,则有E(C) C
2.设X 是一个随机变量,C是常数,则有E(CX ) CE( X )
3.设X , Y 是两个随机变量,则有E( X Y ) E( X ) E(Y )
(2) X ~ b(1, 1 2),(即(0 1)分布) P(U 1,V 0) P( X Y 1, X Y 0) 0 P(U 1) P( X Y 1) P( X 1, Y 0) 1 4, P(V 0) P( X Y 0) P( X 0, Y 0) 1 4, 所以P(U 1,V 0) P(U 1) P(V 0) U 与V不独立。

数理统计与随机过程ch12平稳随机过程

数理统计与随机过程ch12平稳随机过程

整理ppt
2
平稳随机过程的定义
定义1 设{X(t), t T }是随机过程,如果对任 意常数 h 和正整数 n,
t1, t2,, tnT, t1+h, t2 +h,,tn+h T, 若(X(t1), X(t2),, X(tn))与
(X(t1+h), X(t2 +h),, X(tn+h))
(1.1)
强震阶段的地震波幅;
船舶的颠簸过程;
照明电网中电压的波动过程;
各种噪声和干扰等等.
整理ppt
4
平稳过程数字特征的特点.
设平稳过程X(t)的均值函数E[X(t)]存在. 对n=1, 在(1.1)式中, 令h= - t1 , 由平稳性 定义, X(t1)和X(0) 同分布. 于是
E[X(t)] = E[X(0)], 记为 X
例3 X(t) =Ycos(t)+Zsin(t), t > 0, Y, Z相 互独立, E(Y) = E(Z) = 0, D(Y) =D(Z) =2. 讨论随机过程{X(t), t > 0}的平稳性.
解 E [X (t) ]E [Y co t) sZ (sitn )]( co t)E s(Y () sitn )E ((Z )0 .
• 相对地, 前述按分布函数定义的平稳过程称为 严平稳过程或狭义平稳过程.
• 一个严平稳过程只要二阶矩存在, 则它必定也 是宽平稳过程. 但反过来, 一般是不成立的.
• 特例: 一个宽平稳的正态过程必定也是严平稳.
• 泊松过程和维纳过程是非平稳过程.
整理ppt
8
若T为离散集, 称平稳过程{X(t), t T }为 平稳序列.
特别地, 令 =0,由上式,有

概率论与数理统计及其应用第15讲 随机过程的概念

概率论与数理统计及其应用第15讲   随机过程的概念

工程技术中有很多随机现象:地震波幅、结构物承受的
风荷载、通讯系统和自动控制系统中的各种噪声和干扰,
以及生物群体的生灭问题,数量遗传学,竞争现象,传染
病扩散,癌细胞扩散,质点的随机游动,排队问题等变化
过程都可以用随机过程这一数学模型来描述. 但是,这些随机过程都不能像随机相位正弦波那样,
很方便、很具体地用时间和随机变量(一个或几个)的关
例 10.2 (热噪声电压)电子元件或器件由于内部微观粒 子的随机热骚动所引起的端电压称为热噪声电压,它在任一确 定时刻t的值是随机变量,记为V(t).不同时刻对应着不同的随机 变量,当时间在某区间,譬如[0,+)上推移时,热噪声电压表现 为一簇随机变量.在无线电通讯技术中,接收机在接收信号时, 机内的热噪声电压要对信号产生持续的干扰,为消除这种干扰, 就必须考虑热噪声电压随时间变化的过程.为此,我们通过某种 装臵对电阻两端的热噪声电压进行长时间的测量,并把结果自 动记录下来,这作为一次试验结果,便得到一个电压—时间函数 v1(t),t0.这个电压—时间函数是不可能预先确知的,只有通过 测量才能得到.如在相同条件下独立地再进行一次测量,则得到 的记录是不同的,事实上,由于热骚动的随机性,在相同条件下 每次测量都将产生不同的电压—时间函数.这样,不断地独立 重复第一次测量就可以得到一簇不同的电压—时间函数 ,这簇函数从另一个角度刻画了热噪声电压.
y 1 dF ( y; t ) f X (ln ) t y f ( y ;t ) dy 0
t 1 y 0 0
, y 0, , y 0.
t 1 y , ln 0, y t 0 , y 0.
1 2 x (t ) gt 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章 假设检验假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。

从发展历史上有重要的节点为1 :Pearson 的拟合优度的2χ检验 19002:Fisher 的显著性检验 19203:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 19505:Bayes 方法 (二战之后发展的学派) §4.1 基本术语关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。

无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。

为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ⋃,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。

那么这样就产生了两种错误:第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。

选定一种检验方法,我们希望上述两种错误概率都小。

但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。

§4.2参数假设检验设X 符合分布),(θx F ,未知参数θΘ∈参数空间,空间分成两部分0Θ和Θ-0Θ,二者交集为空。

主要对于正态分布参数的统计假设的显著性检验方法。

1)针对不同问题,提出基本假设与备选假设0H :θ0Θ∈ 1H :θ0Θ-Θ∈如果参数空间仅仅是由0θθ=和1θθ=两个点组成的,那么我们称简单假设,否则是复合假设。

2)给定检验的显著性水平α,其大小依据不同问题不同,比如火箭、飞机等可靠性问题,α要越小越好,对于一般生产问题,太小了则意味着生产时间和成本的增加;3)建立对于基本假设的统计量和否定域;4)取样,计算统计量值,落入否定域则判读0H 为假,否则为真。

例子:某种药片制剂中国家规定成分A 的含量X 必须为10%,现在抽取5个片剂试样,测得A 的含量为10.9% 9.45% 10.38% 9.61% 9.92%假设)%,10(~20σ=u N X ,按照显著性水平α=0.05进行检验是否与规定10%相符?解:建立基本假设0H :0u u =,这里显著性水平α=0.05,样本容量为5,样本值如上。

如何确定统计量呢?样本均值X 可以求出,但是这里方差未知,用无偏估计量*2n S 来代替2σ,那么统计量=t )1(~/*20--n t nS u X n这是我们以前推导过的,因此可以建立否定域为αα=⎭⎬⎫⎩⎨⎧≥2||t t P即落入区域2||αt t ≥则认为假,此区域之外就是真。

t-检验法。

回到我们的问题,X =1005.0,*2nS =25120059.0)(151=--∑=i i X x ,那么6949.1/*20=-=nS u X t n为统计量的值,由显著性水平α=0.05,我们查得7764.2)4(205.0=t 。

由于6949.1=t <7764.2)4(205.0=t ,这个统计量值落在否定域之外,就是说基本假设是真的,因此判断显著性水平α=0.05下规定成分A 的含量与规定10%相符的。

两样本t 检验法:有时为了比较两种方法、仪器、产品等的差异性,我们在相同条件下做对比试验,然后得到成对的数据,分析这些数据作出推断。

再次回顾第二章中定理定理:设121,,,n x x x 子样来自母体),(211σu N ,221,,,n y y y 子样来自母体),(222σu N ,各自的子样均值∑==1111n i i x n X ),(~1211n u N σ,∑==2121n i i y n Y ),(~2222n u N σ,那么),(~22212121n n u u N Y X σσ+--,那么一个新的变量)1,0(~)()(22212121N n n u u Y X U σσ+---=,若21μμ=,)1,0(~)(222121N n n Y X U σσ+-=*22222*2121111S n S n V σσ-+-=符合)1(12-n χ+ )1(22-n χ,即)2(212-+n n χ,加和性质 且上述两个变量相互独立。

那么依据定义)2(~)2/(2121-+-+n n t n n V U例子:设两种橡胶轮胎进行耐磨性试验对比,从中各自随机取8个,各取一个随机配对装在8架飞机上,经过一段时间测量磨损量如下(单位毫克)这里显著性水平α=0.05。

方法一:假设两个母体),(21σu N , ),(22σu N 方差一样 原假设 0H :21u u =, 对立假设为1H :21u u ≠ 独立那么按照上述定理得到6145=X 1867312*1=S ;5825=Y 1204422*1=S 代入得到)14(~516.014/t V U= 查表145.2)2/(14=αt ,可见大于计算的统计量值,那么就不否定(接受)假设0H ,认为二者磨损量无显著差异。

方法二:我们采用配对实验Z=X-Y -30 320 360 320 -140 230 780 720 由于 d y x E z E i i i =-=-=21][][μμ,2][][][D i i i y D x D z D σ=+=那么,i z 是来自母体),(D d N σ的正态母体,此时假设0H :21u u =等价于 0=d 的假设,设∑==n i i z n Z 11=320,∑=--=n i i n Z z n S 12*2)(11=102200,那么我们也可以构造 72*~83.2/t nS Z n=查表,显著性水平α=0.05下,365.2)2/(14=αt ,我们发现365.283.2>,说明落在了否定域,即否定原假设0H ,两种轮胎的耐磨性是有差异的。

讨论:同一显著性水平α=0.05下,相同的数据,为何两种方法得到完全不同的推断结论呢?这是因为,配对分析时,自由度下降了n=8-1,从而临界值提高了,即365.2)2/(14=αt ,增加了否定原假设的可能性,每架飞机突出两种轮胎之间差异,消除了飞机之间的数据影响,只要两个轮子耐磨性有一定差异,就可能否定假设0H ;而不做配对,自由度增加为8+8-2=14,临界值降低,减小了否定原假设的可能性。

什么时候用方法一还是方法二,还是得靠具体情况定。

其他不同的问题,构造不同的统计量,利用不同的分布进行检验,书上有基本的统计量表格,无非就是查表计算问题。

§4.3 非参数假设的2χ检验所谓非参数假设,就是不确切知道母体分布的数学形式的情况下,对于母体分布的各种论断,比如服从什么什么分布,相互独立,等等。

其特点是:A 不依赖与母体分布的具体形式,什么形式都适用的检验;B 由于缺乏母体分布的完全知识,所以使用的统计量精确分布难以求出,只能求出极限分布,一般需要大样本容量。

Pearson 提出了2χ检验法,步骤为:1):将所有观测值X 进行分割不同子集 rk k A X 1==, j i A A j i ≠=,φ,子集的数目为r ;2):统计观测值在每个子集k A 中出现的频数k n (出现的次数),当然满足n nrk k=∑=1;3):在基本假设0H 真实的情况下,就是按照我们设定的分布概率密度函数,计算每个子集k A 中的理论期望频数,设落入概率为}|{0H A x P P k k ∈==dx H x f kA ⎰)|(0,r k ,,2,1 =,11=∑=rk k P 注意这是概率那么我们得到期望频数为 k n nP E k =,就是总共抽取n 个样本,那么每个子集k A 内理论上应该抽取了几个。

4)建立统计量∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ~)1(2-r χ符合)1(2-r χ分布,且表示了实际观察和理论结果之间相对差异的总和,当这个值大于某个临界值,则否定此假设。

否则接受假设。

Pearson 证明 为何上述统计量符合)1(2-r χ分布: 证明:1)当r=2两个子集,n n n =+21,121=+P P那么2112112122)1()()(ηχ=--=-=∑=P nP nP n nP nP n k k k k这里注意211211222)())1(()(nP n P n n n nP n -=---=-,代入即可那么由De Moirre-Laplace (隶莫弗)定理,二项分布)1(1111P nP nP n --=η的极限分布为标准正态分布,即)1,0(~N η,那么)12(~22-χη分布。

这是r=2时是符合的。

2)当2>r 的一般情况我们知道频数有n n rk k =∑=1,上面为二项分布,这里符合多项分布rn r n r r P P n n n n P P f 11211!*!*!*!),,(=同样由中心极限定理)1(j j j j P nP nP n --)1,0(~N ,那么jjj j nP nP n Y -=)1,0(~j P N -∑∑==-=-=rk k k k rk n n k nP nP n E E n kk 12122)()(χ就是r 个正态随机变量的平方和,但是由于这些变量之间有一个制约关系。

就像前面我们证明正态母体均值和方差的分布时一样证明方法,构造的正交矩阵⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=ija P P P A 321使得AY Z =,我们会发现=-∑=jjj rj jnP nP n P 1∑∑∑====-=-rj j r j j rj jj P n n n n nP n 1110)(1∑∑∑=====-==rk k r k k rk k k k Z Y nP nP n 21122)(χ,只是1-r 正态变量的平方和,所以自由度为1-r 。

相关文档
最新文档