研究生数理统计课件
合集下载
数理统计的基本知识.ppt
设 x1, x2,…, xn 是相应于样本 X1, X2, …,Xn 的样本值,则称 g(x1,x2,…, xn) 是统计量T = g(X1,X2,…,Xn)的观察值.
二、样本矩
下面给出几个常用的统计量.设(X1,X2,…,Xn)是来自总体 X 的一个样
本,(x1,x2,…,xn)是样本观察值,定义:
频数
2 0 0 2 2 8 13 23 24 21 14 6 2 2 0 1
组中值
0.645 0.665 0.685 0.705 0.725 0.745 0.765 0.785 0.805 0.825 0.845 0.865 0.885 0.905 0.925 0.945
直方图中第 i 个小矩形面积 yiΔt=fi (i=1,2,…,k),k 个小矩形的面积之 和为1.
由于样本观察值的 n 个数值 x1,x2,…,xn是从总体X 中独立抽取的,它 们落入区间 (ti-1,ti] 的频率 fi 近似等于随机变量 X 在该区间内取值的概率,即
fi≈P{ti-1<X≤ti}=pi,i=1,2,…,k,
一、样本分布函数
样本能够反映总体X的信息,总体X的分布函 数F(x)是否能由样本来“表示”?回答是肯定的, 我们用下面介绍的样本函数来近似表示总体X的 分布函数.
定义 设x(1),x(2),…,x(n)是总体X的顺序统计量的一组观察值,对于任 意的实数x,定义函数
0, x x(1) ;
Fn
(
x)
i n
,
x(i) x x(i1) ,
1, x x(n) .
i 1, 2,, n 1;
称 Fn(x) 为 总 体 X 的 样 本 分 布 函 数 (或 经 验 分 布 函 数).
数理统计的基本概念PPT精品文档40页
则样本的联合分布为
n
n
P { X 1 x 1 ,X 2 x 2 , ,X n x n } P { X i x i} p i.
i 1
i 1
§6.2 抽样分布
6.2.1 统计量的概念
由样本推断总体的某些情况时,需要对样本进行“ 加工”,构造出若干个样本的已知 (确定)的函数, 其作用是把样本中所含的某一方面的信息集中起来 。这种不含任何未知参数的样本的函数称为统计量。 它是完全由样本所决定的量。
统计量的分布称为抽样分布,下面介绍来自正 态总体的几个重要统计量的分布,称为统计学的三 大分布: 2 分布,t分布和F分布.
6.2.2 χ 2 分布
定义4: 设 X1, X2, …, Xn 是来自总体 N(0, 1), 的样本,则称统计量
与总体X具有相同的概率分布,则称随机变量 X1,X2, ,Xn为来自总体X的容量为n的简单随机 样本,简称样本.
它们的 x1,x观 2, ,x 察 n称值 为,样 又本 称值 为 X的 n个独立 . 的观察值
注意:样本的二重性。
6.1.2 样本的分布 样本 X1,X2,…,Xn 可以被看作n维随机向量,自
定义2:设 X1,X2, ,Xn是来自总体X的样本, g(X 1,X 2, ,X n)是样本 X1,X2, ,Xn的函数,如果 g(X 1,X 2, ,X n)中不包含任何未知参数,则称它
是一个统计量。
定义3:几个常用的统计量
样本均值
X
1 n
n i1
Xi
反映总体 均值的信息
样本方差 S2n11in1(Xi X)2n11(in1 Xi2nX2)
200 20 00 20 00 20 00 20 00 20 000
数理统计的基本概念ppt课件
体。 灯泡的寿命检验是一个破坏性试验,即当得知一个灯
泡寿命时,该灯泡的使用价值也就消失了.因此,不可能抽 检每个灯泡!
可以逐一测量每个工大男生的身高,但工作量大.而我 们仅需对工大男生身高情况有个大致了解,因此,不必要抽 测每个工大男生!
河南理工大学精品课程
.
概率论与数理统计
做法 从总体中随机地抽取若干个体(灯泡、工大男 生),测试其所需数据(寿命、身高),最后对所得数据通过 整理加工和分析来推断总体(这批灯泡寿命、工大男生身 高)的分布情况,从而了解整体情况.
x)2
ak
1 n ni1
xik(k1,2,)
bk 1 ni n1(xi x)k(k1,2,)
.
河南理工大学精品课程
概率论与数理统计
重要结论:样本矩(的连续函数)依概率收敛
于总体矩(的连续函数)[矩估计的理论基础]。
一般,我们所研究的总体的某项数量指标X是一个随 机变量,其取值在客观上有一定的分布.因此,对总体的研 究,就是对相应的随机变量X的研究。
今后,我们称X的分布函数和数字特征分别为总体的
分布函数和数字特征,并不再区分总体与相应的随机变量
X.对总体的称呼:总体,总体X与总体F.
河南理工大学精品课程
.
概率论与数理统计
数理统计的基本任务就是通过对样本的研究来对总 体的未知参数或分布类型作出估计,对有关总体的假设 作出推断。
后面介绍的内容仅限于有关总体参数的估计与推断, 称为参数估计与参数假设检验。
河南理工大学精品课程
.
概率论与数理统计
总体X
随机抽样 获得样本
样本X1,X2,…,Xn
完成试验 获得数据
样本值x1,x2,…,xn
数理统计的基本概念课件
离散程度
通过方差、标准差等指标 来描述数据的离散程度, 反映数据的变化程度。
数据的中位数、均值和众数
中位数
将数据按照大小顺序排列,处于 中间位置的数值即为中位数。中 位数可以反映数据的集中趋势和
离散程度。
均值
将所有数据相加后除以数据个数 ,得到的数值即为均值。均值可 以反映数据的集中趋势和离散程
度。
拟合优度
决定于所选择的非线性函数形式,常 用的有R²和SSPE(残差平方和)。
显著性检验
一般采用基于参数的假设检验和似然 比检验。
THANKS FOR WATCHING
感谢您的观看
05
假设检验
假设检验的基本思想
统计假设
假设检验的核心是对提出的问题(即假设)进行统计推断,先假设所要考察的 总体参数按某种规律或分布(即统计模型)分布,然后根据样本信息对原假设 进行检验。
假设检验的基本步骤
首先提出假设,然后收集样本数据,接着根据样本数据对原假设进行检验,最 后根据检验结果做出结论。
多元线性回归分析
• β0: 截距 • β1, β2, ...: 斜率
• ε: 误差项
多元线性回归分析
拟合优度
R²,表示模型解释因变量的方差的比例 。
VS
显著性检验
整体显著性检验(F检验)和单个变量的 显著性检验(t检验)。
非线性回归分析
定义
非线性回归分析是研究非线性关系的 统计方法。
模型
Y = f(X) (其中 f 是非线性函数)
• β0: 截距
一元线性回归分析
01
• β1: 斜率
02
• ε: 误差项
03
04
拟合优度:R²,表示模型解 释因变量的方差的比例。
数理统计的基本概念幻灯片PPT
数理统计的基本概念幻灯片PPT
本PPT课件仅供大家学习使用 请学习完及时删除处理 谢谢!
数理统计学 是一门以数据为基础的科学, 可以定义为
收集数据, 分析数据和由数据得出结论的一组概念、
原则和方法。
例如:若规定灯泡寿命低于1000小时者为次品,如何确定 次品率?由于灯泡寿命试验是破坏性试验,不可能把整批 灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验, 以样本的信息来推断总体的信息,这是数理统计学研究的 问题之一。
答 : 只 有 (4)不 是 统 计 量 。
2分布
定 义 : 设 随 机 变 量 X1,X2, Xn相 互 独 立 , Xi N0,1 i1,2, ,n
n
则 称n2 Xi2
1
i1
服 从 自 由 度 为 n的 2分 布 , 记 为 22n
自 由 度 指1式 右 端 包 含 的 独 立 变 量 的 个 数
n211
112 2 2
n n112n2 2 1
nx220
1
0 0
x0
其中B a,b x 其中Ba,b01x11xb1dxaabb1 1 1x b 0
f x
n2 ,n120 n2 25
n2 10
0
1
2
x
F 分 布 的 密 度 函 数
对 于 给 定 的 ,0 1 ,称 满 足 条 件 F n 1 ,n 2 fx ;n 1 ,n 2 d x 的 点 F n 1 ,n 2 为 F n 1 ,n 2 分 布 的 上 分 位 数 。 F n 1 ,n 2 的 值 可 查 F 分 布 表
2 . 设 Y 1 2 n 1 , Y 2 2 n 2 , 且 Y 1 , Y 2 相 互 独 立 , 则 有 Y 1 Y 2 2 n 1 n 2
本PPT课件仅供大家学习使用 请学习完及时删除处理 谢谢!
数理统计学 是一门以数据为基础的科学, 可以定义为
收集数据, 分析数据和由数据得出结论的一组概念、
原则和方法。
例如:若规定灯泡寿命低于1000小时者为次品,如何确定 次品率?由于灯泡寿命试验是破坏性试验,不可能把整批 灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验, 以样本的信息来推断总体的信息,这是数理统计学研究的 问题之一。
答 : 只 有 (4)不 是 统 计 量 。
2分布
定 义 : 设 随 机 变 量 X1,X2, Xn相 互 独 立 , Xi N0,1 i1,2, ,n
n
则 称n2 Xi2
1
i1
服 从 自 由 度 为 n的 2分 布 , 记 为 22n
自 由 度 指1式 右 端 包 含 的 独 立 变 量 的 个 数
n211
112 2 2
n n112n2 2 1
nx220
1
0 0
x0
其中B a,b x 其中Ba,b01x11xb1dxaabb1 1 1x b 0
f x
n2 ,n120 n2 25
n2 10
0
1
2
x
F 分 布 的 密 度 函 数
对 于 给 定 的 ,0 1 ,称 满 足 条 件 F n 1 ,n 2 fx ;n 1 ,n 2 d x 的 点 F n 1 ,n 2 为 F n 1 ,n 2 分 布 的 上 分 位 数 。 F n 1 ,n 2 的 值 可 查 F 分 布 表
2 . 设 Y 1 2 n 1 , Y 2 2 n 2 , 且 Y 1 , Y 2 相 互 独 立 , 则 有 Y 1 Y 2 2 n 1 n 2
数理统计 (研究生课程) :第三章 假设检验
(1) 差异可能是由抽样的随机性引起的,称为 “抽样误差”或 随机误差 这种误差反映偶然、非本质的因素所引起的随机波动。然 而,这种随机性的波动是有一定限度的, (2) 如果差异超过了这个限度,则我们就不能用 抽样的随机性来解释了.
必须认为这个差异反映了事物的本质差别,即反映 了生产已不正常.
这种差异称作 “系统误差”
正确
第二类错误
人们总希望犯这两类错误的概率越小越好,但 对样本容量一定时,不可能使得犯这两类错误的 概率都很小。 往往是先控制犯第一类错误的概率在一定限度 内,再考虑尽量减小犯第二类错误的概率。
即: 较小的 (0,1) 使得 P{拒绝H0|H0为真}≤ ,
然后减小P{接受H0|H0不真} 犯两类错误的概率:
如发现不正常,就应停产,找出原因,排除 故障,然后再生产;如没有问题,就继续按规定 时间再抽样,以此监督生产,保证质量.
很明显,不能由5罐容量的数据,在把握不大 的情况下就判断生产 不正常,因为停产的损失是 很大的.
当然也不能总认为正常,有了问题不能及时 发现,这也要造成损失.
如何处理这两者的关系,假设检验面对的就 是这种矛盾.
如果H0不成立,但统计量的实测 值未落入否定域,从而没有作出否定 H0的结论,即接受了错误的H0,那就 犯了“以假为真”的错误 . “取伪错误” 这两类错误出现的可能性是不可能排除的。 原因在于:由样本推导总体
假设检验的两类错误
实际情况 H0为真 H0不真 第一类错误 正确
决定 拒绝H0 接受H0
在上面的例子的叙述中,我们已经初步介绍 了假设检验的基本思想和方法 .
基于概率反证法的逻辑的检验: 如果小概率事件在一次试验中居然发生, 我们就以很大的把握否定原假设.
必须认为这个差异反映了事物的本质差别,即反映 了生产已不正常.
这种差异称作 “系统误差”
正确
第二类错误
人们总希望犯这两类错误的概率越小越好,但 对样本容量一定时,不可能使得犯这两类错误的 概率都很小。 往往是先控制犯第一类错误的概率在一定限度 内,再考虑尽量减小犯第二类错误的概率。
即: 较小的 (0,1) 使得 P{拒绝H0|H0为真}≤ ,
然后减小P{接受H0|H0不真} 犯两类错误的概率:
如发现不正常,就应停产,找出原因,排除 故障,然后再生产;如没有问题,就继续按规定 时间再抽样,以此监督生产,保证质量.
很明显,不能由5罐容量的数据,在把握不大 的情况下就判断生产 不正常,因为停产的损失是 很大的.
当然也不能总认为正常,有了问题不能及时 发现,这也要造成损失.
如何处理这两者的关系,假设检验面对的就 是这种矛盾.
如果H0不成立,但统计量的实测 值未落入否定域,从而没有作出否定 H0的结论,即接受了错误的H0,那就 犯了“以假为真”的错误 . “取伪错误” 这两类错误出现的可能性是不可能排除的。 原因在于:由样本推导总体
假设检验的两类错误
实际情况 H0为真 H0不真 第一类错误 正确
决定 拒绝H0 接受H0
在上面的例子的叙述中,我们已经初步介绍 了假设检验的基本思想和方法 .
基于概率反证法的逻辑的检验: 如果小概率事件在一次试验中居然发生, 我们就以很大的把握否定原假设.
研究生《数理统计》完整课件讲义
解. 由题意,X (t) 可表示为
X (t) a cos(t ), t
其中随机变量 的分布律为
0
P
23 13
所以
mX (t) EX (t) Ea cos(t )
a cost 2 (a cost) 1
3
3
a cost, 3
RX (t1, t2 ) E[ X (t1 ) X (t2 )]
2
F
(x;
2
)
0, x 1, x
0 0
(2)X (0) A, X ( ) A ,二维随机变量
32
( A, A 2) 的分布律为
(A, A 2)
P
(1,1 2) (2,1) (3, 3 2)
13
13
13
x2
D4
D2
D3
D1
o
O
x1
二维分布函数为
F (x1,
x2 ;0,
3
)
P{A
x1 ,
A 2
例2. 西安地区从2012年开始,第n年的 降雨量Xn,n∈T={1,2,3,…}。
例3. 某超市在时段[t1,t] 内到来的顾 客人数X(t),t∈T=[t1,t2]。
例4. 某电路中,一电子元件 t 时刻的 热噪声电压X(t),t∈T=[0,+∞)。
在上述几个例子中,X(t)(或Xn)具有以下 两个特征:
正态过程是二阶矩过程,它在工程技
术中有重要的应用。正态过程 {X (t),t T} 的 n 维分布密度为
f
1
n
(2 ) 2
C
1 2
exp{
1 2
(
x
m
X
)
硕士研究生数理统计课件
ξ2、……、ξn )来自于总体F(x)。
LOGO Your Site Here
第二章 数理统计的基本概念与抽样分布
定理:若( ξ1、ξ2、……、ξn )来自于F(x)(或P(x)), 则( ξ1、ξ2、……、ξn )的联合分布密度函数
n
n
∏ F(xi) 或∏ P(xi)
i=1
i=1
例一: ξ~N(0,1),(ξ1、ξ2、ξ3)是一个样本,
§2.1数理统计的几个基本概念 一、总体与样本
有限总体 总体 研究对象的全体
无限总体 个体 每个研究对象 关心 与它们的性能相联 系的某个数量指标 实验前不知结果 是一个随机变量(有 一个分布)。
LOGO Your Site Here
第二章 数理统计的基本概念与抽样分布
总体 个体
一个具有确定概率分布的随机变量 随机变量可能取的数值
数理统计是统计? 统计的内涵:
1.统计工作 2.统计资料 3.统计学
专业统计 大统计
数理统计
统计既是一种理论,也是许多方法的总称。
LOGO Your Site Here
绪论
二、统计的题材 统计的题材包括范围极广——设计生成数据
的试验,数据的收集、分析、描述和解释。
n
X的性质:(1)(Xi X ) 0 i 1
(2)若Yi aXi b,则Y aX b
(3)EX EX
(4)DX DX n
S2的性质:(1)E(S 2 ) n 1 DX E(S*2) DX n
n
n
(2)x R,有 (Xi -X)2 (Xi -x)2
合格率大于等于90%,信不信? 3.温度与压力有无关系?有什么样的关系? 4.一天所加工的零件的误差是否服从正态分布? 5.几个地区人的血液中胆固醇的含量的平均值
LOGO Your Site Here
第二章 数理统计的基本概念与抽样分布
定理:若( ξ1、ξ2、……、ξn )来自于F(x)(或P(x)), 则( ξ1、ξ2、……、ξn )的联合分布密度函数
n
n
∏ F(xi) 或∏ P(xi)
i=1
i=1
例一: ξ~N(0,1),(ξ1、ξ2、ξ3)是一个样本,
§2.1数理统计的几个基本概念 一、总体与样本
有限总体 总体 研究对象的全体
无限总体 个体 每个研究对象 关心 与它们的性能相联 系的某个数量指标 实验前不知结果 是一个随机变量(有 一个分布)。
LOGO Your Site Here
第二章 数理统计的基本概念与抽样分布
总体 个体
一个具有确定概率分布的随机变量 随机变量可能取的数值
数理统计是统计? 统计的内涵:
1.统计工作 2.统计资料 3.统计学
专业统计 大统计
数理统计
统计既是一种理论,也是许多方法的总称。
LOGO Your Site Here
绪论
二、统计的题材 统计的题材包括范围极广——设计生成数据
的试验,数据的收集、分析、描述和解释。
n
X的性质:(1)(Xi X ) 0 i 1
(2)若Yi aXi b,则Y aX b
(3)EX EX
(4)DX DX n
S2的性质:(1)E(S 2 ) n 1 DX E(S*2) DX n
n
n
(2)x R,有 (Xi -X)2 (Xi -x)2
合格率大于等于90%,信不信? 3.温度与压力有无关系?有什么样的关系? 4.一天所加工的零件的误差是否服从正态分布? 5.几个地区人的血液中胆固醇的含量的平均值
数理统计 ppt课件
医药数理统计方法
01-04-13
地区
东部 南部 西部 中部
订单百 易碎品订
分比 单百分比
30
25
40
10
20
5
10
3
医药数理统计方法
01-04-14
课堂讨论题 某发报站分别以概率
0.6和0.4发出信号“*”和“–”,若通
讯系统受到种种干扰,当发出信号 “*”时,收报站分别以概率0.8和 0.2收到信号“*”和“–”;当发出信 号为“–”时,收报站分别以概率0.9 和0.1收到信号“–”和“*”。求收报 站收到信号“*”时,发报站确实发 出信号“*”的概率。
n
P(B) P(Ai)P(B|Ai) i1
医药数理统计方法
A3 A2
… B
A1
An
01-04-04
医药数理统计方法
01-04-05
例 有3个外形完全相同的袋子,在 第1个袋子中装有2个白球、1个红球; 在第2个袋子中装有3个白球、1个红 球;在第3个袋子中装有2个白球、2 个红球。先随机地挑选一个袋子,
医药数理统计方法
0.6 “*”
0.8 0.2
0.4 “–”
0.1 0.9
01-04-15
“*” “–”
医药数理统计方法
01-04-16
例 癌症的早期诊断、治疗是提高
疗效的关键。近年来,甲胎蛋白免 疫检测法(简称 AFP 法)被普遍应 用于肝癌的普查和诊断。
医药数理统计方法
01-04-17
设 A={肝癌患者},B={AFP检验 结果为阳性};且已知AFP检测方法 的真阳性率 P(B|A)=0.94,假阳性率 P(B| A )=0.04;在人群中肝癌的发病 率 P(A)=0.0004;今有一人 AFP 检测
数理统计PPT(研究生)3-3
x , y
(3.3.7)
列联表
Y X
b1
n11 n21
b2
n12 n22
... ... ...
bs
n1 s
ni n1 n2
a1 a2
n2 s
ar
n j
nr 1
nr 2 n2
... ...
nrs n s
nr
n1
n
21
ni nik (i 1,2,..., r ),
H0 : F ( x) F0 ( x), H1 : F ( x) F0 ( x).
(3.3.1)
11
针对 F0 ( x ) 的不同类型有不同的检验方法,一般采 用K.pearson 2 检验法,又称为拟合优度 2检验法。
2、拟合优度检验法 统计假设(3.3.1)可理解为:事先给定的理论 分布 F0 ( x ) 能否较好地拟合观测数据 X1 , X 2 ,..., X n 所反 映的随机分布。拟合优度检验法的基本思想就是设 定一个能刻画观测数据 X1 , X 2 ,..., X n与理论分布 F0 ( x ) 之间拟合优度程度的量,即‘拟合优度’,当这个 量超过某个界限时,说明拟合程度不高,应拒绝 H 0 否则接受 H 0。
而
ˆ s 1 pk p
k 1
s 1
ˆ r 1 pk p
k 1
r 1
23
ln L p i 似然方程为 ln L p j
ni nr 0, i 1,2,..., r 1, pi pr n j n s 0, j 1,2,..., s 1. p j p s
研究生入学考试第六章数理统计基础
为该厂生产的瓶装啤酒的净含量. 从总体中抽取样本时,为使样本具有代表性,抽
样必须是随机抽样.通常可以用随机数表来实现随机 抽样.还要求抽样必须是独立的,即每次的结果互不 影响.在概率论中,在有限总体(只有有限个个体的 总体)中进行有放回抽样,是独立的随机抽样;然而, 若为不放回抽样,则是不独立的抽样.
这样,样本分布密度为
[例6-4]设某种电灯泡的寿命X服从指数分布E(λ), 其概率密度为:
则来自这一总体的简单随机样本x1,x2,…,的样 本分布密度为
【例6-1 】考察某厂的产品质量,将其产品只分为合 格品与不合格品,并以0记合格品,以1记不合格品,则 总体={该厂生产的全部合格品与不合格品}={由0或1 组成的一堆数}.
若以p表示这堆数中1的比例(不合格品率),则 该总体可由一个二点分布表示:
不同的p反映了总体间的差异.例如,两个生产同 类产品的工厂的产品总体分布为:
“p的大小如何?” “p大概落在什么范围内?” “能否认为p满足设定要求(如p≤5%)?”
从上例中不难看出,在概率论中研究的 随机变量,它们的概率分布往往是已知的,但 这在实际问题中,我们考察的随机现象虽然 可以用某个随机变量X去描述它们,但X的概 率分布往往是未知的,这就需要我们用数理 统计的方法来解决此类实际问题,由此可见, 数理统计学在理论和应用上的重要性.
总体
理论分布
样本
样本观察值
统计是从手中已有的资料——样本观察值,去推断总 体的情况——总体分布.样本是联系两者的桥梁.总体 分布决定了样本取值的概率规律,也就是样本取到样 本观察值的规律,因而可以用样本观察值去推断总体
[例6-3]为估计一物件的重量μ,用一架天平重复测 量n次,得样本x1,x2,…,,由于是独立重复测 量,x1,x2,…,是简单随机样本。总体的分布 即x1的分布(x1,x2,…,分布相同)。由于称 量误差是均值(期望)为零的正态变量,所以x1 可认为服从正态分布N(μ,σ2)(X1等于物件重 量μ)加上称量误差,即x1的概率密度为
样必须是随机抽样.通常可以用随机数表来实现随机 抽样.还要求抽样必须是独立的,即每次的结果互不 影响.在概率论中,在有限总体(只有有限个个体的 总体)中进行有放回抽样,是独立的随机抽样;然而, 若为不放回抽样,则是不独立的抽样.
这样,样本分布密度为
[例6-4]设某种电灯泡的寿命X服从指数分布E(λ), 其概率密度为:
则来自这一总体的简单随机样本x1,x2,…,的样 本分布密度为
【例6-1 】考察某厂的产品质量,将其产品只分为合 格品与不合格品,并以0记合格品,以1记不合格品,则 总体={该厂生产的全部合格品与不合格品}={由0或1 组成的一堆数}.
若以p表示这堆数中1的比例(不合格品率),则 该总体可由一个二点分布表示:
不同的p反映了总体间的差异.例如,两个生产同 类产品的工厂的产品总体分布为:
“p的大小如何?” “p大概落在什么范围内?” “能否认为p满足设定要求(如p≤5%)?”
从上例中不难看出,在概率论中研究的 随机变量,它们的概率分布往往是已知的,但 这在实际问题中,我们考察的随机现象虽然 可以用某个随机变量X去描述它们,但X的概 率分布往往是未知的,这就需要我们用数理 统计的方法来解决此类实际问题,由此可见, 数理统计学在理论和应用上的重要性.
总体
理论分布
样本
样本观察值
统计是从手中已有的资料——样本观察值,去推断总 体的情况——总体分布.样本是联系两者的桥梁.总体 分布决定了样本取值的概率规律,也就是样本取到样 本观察值的规律,因而可以用样本观察值去推断总体
[例6-3]为估计一物件的重量μ,用一架天平重复测 量n次,得样本x1,x2,…,,由于是独立重复测 量,x1,x2,…,是简单随机样本。总体的分布 即x1的分布(x1,x2,…,分布相同)。由于称 量误差是均值(期望)为零的正态变量,所以x1 可认为服从正态分布N(μ,σ2)(X1等于物件重 量μ)加上称量误差,即x1的概率密度为
数理统计的基本概念 ppt课件
称为第一自由度为n1 ,第二自由度为n2的F分 布,其概率密度为
h(y)((n2n1)12(nn0222,))((n11/nnn212)yn1)/(2ny1ynn212)1/02 ,
y0
数理统计的基本概念
2. F分布的分位点 对于:0<<1,
若存在F(n1, n2)>0, 满足
P{FF(n1, n2)}=, 则 称F(n1, n2)为 F(n1, n2)的 上侧分位点;
6.4、统计量及抽样分布
1.统计量
定义:称样本X1, … ,Xn 的函数g(X1, … ,Xn ) 是 总体X的一个统计量,如果g(X1, … ,Xn )不含 未知 参 数
几个常用的统计量 :
1.样本均 X 值 n1i n1Xi,
2.样本方 S2差 n11in1(Xi X)2
样本均(方 标差 准)差S S2,
数理统计的基本概念
经验分布函数
设 X1, X2, …, Xn 是取自总体分布函数为F(x)的样 本,若将样本观测值由小到大进行排列,为 x(1), x(2), …, x(n),则称 x(1), x(2), …, x(n) 为有序样本,
用有序样本定义如下函数
0, Fn(x) k/n, 1,
x<x(1) x(k)xx(k1), x(n)x
k1,2,...,n1
数理统计的基本概念
则Fn(x)是一非减右连续函数,且满足 Fn() = 0 和 Fn() = 1
由此可见,Fn(x)是一个分布函数, 并称Fn(x)为经验分布函数。
数理统计的基本概念
例1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 354
数理统计课件 研究生
2
σ 2≥σ 02 σ 2<σ 02
σ
2 0
~ χ (n −1)
2
χ ≤ χ (n −1)
2 2 1−α
σ 2≤σ 02 σ 2>σ 02
( µ 未知)
χ ≥ χα (n −1)
2 2
ch3-4
例1 某电工器材厂生产一种保险丝. 依通常情况其熔化时间的方差为400. 现从某天产品中抽取容量为25的子样 测量其熔化时间并计算得
近似
U ≥ uα / 2
U ≤ −uα
σ 2≥σ 02 σ 2<σ 02
ห้องสมุดไป่ตู้N (0,1)
其中
σ 2≤σ 02 σ 2>σ 02
χ =
2
(n −1)S
2 σ0
∗2
U ≥ uα
ch3-8
例2 某电工器材厂生产一种保险丝. 依通常情况其熔化时间的方差为400. 现从某天产品中抽取容量为46的子样 测量其熔化时间并计算得
χ ≤ χ (n)
2 2 1−α
σ
2>σ 2 0
( µ 已知)
χ ≥ χα (n)
2 2
χ 检验法( µ 未知)
2
ch3-3
原假设 备择假设 检验统计量及其在 H1 H0为真时的分布 H0
σ 2=σ 02 σ 2≠σ 02
拒绝域
χ 2 ≤ χ12α (n −1) −
2
χ =
2
(n −1)S
∗2
或 χ 2 ≥ χα2 (n −1)
2
ch3-2
原假设 备择假设 检验统计量及其在 H1 H0为真时的分布 H0
σ
2=σ 2 0
拒绝域
χ ≤ χ (n)
σ 2≥σ 02 σ 2<σ 02
σ
2 0
~ χ (n −1)
2
χ ≤ χ (n −1)
2 2 1−α
σ 2≤σ 02 σ 2>σ 02
( µ 未知)
χ ≥ χα (n −1)
2 2
ch3-4
例1 某电工器材厂生产一种保险丝. 依通常情况其熔化时间的方差为400. 现从某天产品中抽取容量为25的子样 测量其熔化时间并计算得
近似
U ≥ uα / 2
U ≤ −uα
σ 2≥σ 02 σ 2<σ 02
ห้องสมุดไป่ตู้N (0,1)
其中
σ 2≤σ 02 σ 2>σ 02
χ =
2
(n −1)S
2 σ0
∗2
U ≥ uα
ch3-8
例2 某电工器材厂生产一种保险丝. 依通常情况其熔化时间的方差为400. 现从某天产品中抽取容量为46的子样 测量其熔化时间并计算得
χ ≤ χ (n)
2 2 1−α
σ
2>σ 2 0
( µ 已知)
χ ≥ χα (n)
2 2
χ 检验法( µ 未知)
2
ch3-3
原假设 备择假设 检验统计量及其在 H1 H0为真时的分布 H0
σ 2=σ 02 σ 2≠σ 02
拒绝域
χ 2 ≤ χ12α (n −1) −
2
χ =
2
(n −1)S
∗2
或 χ 2 ≥ χα2 (n −1)
2
ch3-2
原假设 备择假设 检验统计量及其在 H1 H0为真时的分布 H0
σ
2=σ 2 0
拒绝域
χ ≤ χ (n)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H0 : i 0
H1 : i 0
Qe
2
ˆ 独立. 另一方面 ~ (n k 1),且 Qe 与 i
2
ˆ ~ N (B, 2 ( X T X ) 1 ) B
记
( X T X ) 1 (cij ) ( k 1)( k 1)
ˆ ~ N ( , 2 c ) i i ii
Qe 0.0329 ˆ ˆ 0.0608 0.0037 , n2 9
2
ˆ | L / ˆ 0.146 406.6 / 0.0608 48.4209 | t || 1 x'x'
| t | 48.4209 2.2622 t / 2 (n 2) =>拒绝原假设 H 0 : 1 0
令
y ' ln y,
0 ln a,
1 b,
1 x' x
经计算得
y ' 0 1 x '
n 11
1 x 87.408, i 1 i 1 xi
' i
' y i ln yi 6.732, i 1 i 1 n n
n
n
x ' 7.95
ˆ0 记预测误差 e0 y0 y
2 T 1 T e ~ N 0 , 1 X ( X X ) X 可以证明 0 0 0
且e0 与 Qe 相互独立.于是
ˆ 0 y0 y
T X 0 ( X T X ) 1 X 0
~ N (0,1)
所以
t
T ˆ 0 y 0 ) X 0 ( X T X ) 1 X 0 (y
0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.43 0.47
0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.25 1.29
(1)求出经验回归曲线方程;
(2)对回归曲线的显著性进行检验.
解 (1)由
y ae
b/ x
b ln y ln a x
=>y对x的回归方程是显著的.
§3 多元回归分析
设随机变量 y 与 x1 , x2 ,, xk 之间呈线性相关
关系, 则
其中
是 k 1 个未知参数, 是随
机误差. 称方程
为多元线性回归方程
如果我们获得了n组观察数据
( xi1 , xi 2 ,, xik , yi )(i 1,2,, n)
Lx ' y '
Lx ' x ' ˆ y' ˆ x' 0 1 0.612 0.146 7.95 0.549
=>线性回归方程为
59.35 0.146 406.6
n 11 x ' 7.95
y ' 0.612 Lx ' x ' 406.6
ˆ ' 0.549 0.146 x ' y 0.146 ˆ 0.549 ln y x
i 的 1 置信区间为
ˆ ˆ
i
cii t / 2 (n k 1)
(2)y 0 的置信区间
对于 X ( x1 , x2 ,, xk )T的一个观测值
X 0 (1, x01 , x02 ,, x0k ) ,有
y0 X 0 B 0
ˆ ˆ0 X 0 B y
Qe
~ t (n k 1)
2
(n k 1)
即
t
ˆ 0 y0 ) (y
T 1 T ˆ X 0 (X X ) X 0
~ t (n k 1)
所以 y0 的 1 置信区间为
yˆ
0
ˆ t / 2 n k 1 X 0 ( X X ) X
T 1
ˆ L | t | 1 x ' x ' t / 2 (n 2) ˆ
现在 n=11,取 0.05,
t / 2 (n 2) t0.025 (9) 2.2622
ˆ 2 L 8.70 0.1462 406.6 0.0329 Qe Ly ' y ' 1 x'x'
令 y ' ln y, a ' ln a
y ' a ' bx
4.倒指数曲线:
b 取对数得 ln y ln a x 1 令 y ' ln y, a ' ln a, x ' x y ' a ' bx '
5.对数曲线:
令 x ' ln x
y a bx '
其矩阵形式为 解得
T ˆ X XB X Y T
T 1 T ˆ B (X X ) X Y
所以多元线性回归方程的矩阵形式为
T 1 T ˆ ˆ Y XB X ( X X ) X Y
2 2. 的无偏估计
和一元线性回归类似,平方和分解
ˆi y ) Qe S回 ˆi ) ( y ST ( yi y ) ( yi y
分别求 Qe 关于 0 , 1 ,, k 的偏导数,并令其为零
Qe 0
ˆ BB
Qe k
0
ˆ BB
整理得正规方程组
n n n ˆ ˆ ˆ n x 0 1 i 1 k x ik y i i 1 i 1 i 1 n n n n 2 ˆ ˆ ˆ x x 0 i1 1 i1 k xi1 x ik x i1 y i i 1 i 1 i 1 i 1 n n n n 2 ˆ ˆ ˆ 0 xik 1 x ik x i1 k xik x ik y i i 1 i 1 i 1 i 1
有类似的性质.例如:
ˆ , ˆ ,, ˆ 都是 y1 , y 2 ,, y n 的线性组合; 0 1 k ˆ , ˆ ,, ˆ 分别是 , ,, 的无偏估计; 0 1 k 0 1 k
3.多元线性回归方程的显著性检验(F 检验)
检验假设
H 0 : 1 2 k 0 H1 : 1 , 2 ,, k 不全为零
=>曲线回归方程为
Lx ' y ' 59.35
Ly ' y ' 8.70
0.5490.146/ x 0.549 0.146/ x 0.146/ x ˆ ye e e 1.73e ˆ 0.146 ˆ 1.73, b a
(2)检验假设 拒绝域为
H0 : 1 0, H1 : 1 0
Lx ' x ' x 'i 2 nx '2 406.6
Lx ' y ' x 'i y 'i nx ' y ' 59.35 Ly ' y ' yi 2 ny '2 8.70
i 1 i 1 n
n
n
y ' 0.612
n
i 1 n
ˆ 1
所以对给定的显著性水平 (0 1)
H 0 的拒绝域为
F F (n k 1)
4.多元线性回归系数的显著性检验(t 检验)
多元线性回归系数的显著性假设检验,是对每一个变量
x i 在线性回归方程中的作用进行检验,如果 x i 对 y 的作
用不显著,则它的系数 i 就可以取值为0. 因此检验变量 x i 是否显著等价于检验假设
y ' 0.612
1 x 'i 2 1101.16 i 1 i 1 xi
2
n
n
n 11 x ' 7.95
y'
i 1
n
2
i
(ln yi ) 12.82
2 i 1
n
1 x 'i y 'i ln yi 112.84 i 1 i 1 xi
y 0 1 x 2 x ~ N (0, ) 2 ˆ ˆ ˆ ˆ y x x (1)试求回归方程 0 1 2
2
2
(2)检验回归方程的显著性 ( 0.05)
解
(1) 令
x1 x,
x2 x ,
2
y 0 1 x1 2 x2
T 0
可以通过增大样本容量n或增大样本观测值的范围 的办法提高多元线性回归模型的预测精度
例6 观测落叶松的树龄 x(年)与高度 y(m)有如下资料:
x 2
3 4 5 6 7 8 9 10 11 y 5.6 8 10.4 12.8 15.3 17.8 19.9 21.4 22.4 23.2
如果 y 与 x 的关系为抛物线
由平方和分解
ˆi )2 ( y ˆ i y ) 2 S 残 S回 S T ( yi y ) 2 ( yi y
i 1 i 1 i 1
n
n
n
构造统计量
F
S回 / k S 残 /(n k 1)
可以证明, 当 H 0成立时 F ~ F (k , n k 1)
则有: yi 0 1 xi1 2 xi 2 k xik i , i 1,2,, n
矩阵形式
Y XB
1 1 X 1 x11 x21 xn1 x1k x2 k , xnk
其中:
y1 y2 Y , y n