第一章 基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 对数正态分布 如果随机变量ξ的对数ln(ξ)服从正态分布N(u,σ2 ),即,ln(ξ) ~ N(u,σ2 ),则称随机变量ξ服从对数正态分布记为,ξ ~ lnN(u,σ2 ). 例如,Pt是金融资产在t时刻的市场价格,是金融资产在t时刻的简 单市场收益率;是连续复利收益率,或对数收益率。 于是,如果假设连续复利收益率服从正态分布,则价格比服从对数正态 分布。 常见分布 (1)卡方分布 如果随机变量ξ是n个相互独立的标准正态随机变量的平方和,则随 机变量ξ服从卡方分布,记为,ξ ~ χ2 (n),n被称为自由度。 (2)F分布 如果随机变量ξ1和ξ2分别是自由度为n1和n2的卡方随机变量,则称 随机变量 服从F分布,记为,ξ ~ F (n1,n2). (3)t分布 如果ζ ~ N(0,1 ),ξ ~ χ2 (n),则称随机变量 服从t分布,记为,t ~ t (n).
1.4.1 JB检验
JB检验的思想是推断样本数据的样本偏度和样本峰度是否分别等于 正态分布的偏度0和峰度3。为此,Jarque-Bera构造的检验统计量是:
JB = 显然,如果样本数据来源于正态总体,JB统计量应该接近于0;否 则,样本数据的总体就不服从正态分布。并且,Jarque-Bera证明,在零 假设
3. 概率密度函数
对于连续随机变量ξ,如果存在可积函数f(x),使得 F(x) = 则称f(x)是随机变量ξ的概率密度函数。
4. 正态分布 如果随机变量ξ的概率密度函数是 则随机变量ξ服从正态分布,记为,ξ ~ N(u,σ2 ) 如果随机变量ξ服从正态分布N(u,σ2 ),即,ξ ~ N(u,σ2 ),则随机 变量 服从标准正态分布N(0,1 ).
③零假设是不容易被推翻的,即,零假设成立的事件是小概 率事件;
(2)构造统计量 构造统计量,并在零假设成立的情况下,确定它的分布。 (3)选择置信水平α,例如,1%,5%,或10% (4)统计推断,即,对于一次随机试验的具体样本,在选择的置信 水平下,依据上述统计量的分布推断是否拒绝零假设。如果一次随机试 验小概率事件发生,则拒绝零假设;否则,接受零假设。
峰厚尾,
扁峰分布。
1.1.4 条件概率和分布
1 条件概率
设 (Ω,F,P)是概率空间,B∈F,P(B)> 0,那么对于任何事件
A∈F,记
P(A|B)=
并称P(A|B)为在事件B发生的条件下事件A发生的条件概率。
2. 条件分布
(1)离散情况
如果已知X =x,Y =y的条件概率定义为
P(Y =y|X =x)=
1.1.3 矩
在难以获得随机变量分布的情况下,为了了解随机变量分布情况, 一般用随机变量的数字特征来对该随机变量进行分析。矩是随机变量最 常用的数字特征。
设X是随机变量,对于任何正整数k, k阶原点矩:mk = E(Xk)
k阶中心矩:ck = E[(X - E(X)) k]
矩的统计意义:
均值:μ = E(X)
Khinchine大数定理(Khinchine’s SLLN I):设{Xn}是独立同分布的随 机变量序列,,则 Khinchine大数定理说明:样本均值是对总体均值最好的近似。
3. 中心极限定理
大数定理研究了n 趋于无穷时,随机变量序列{Xn}的样本均值的收 敛性质。中心极限定理则讨论n 趋于无穷时,随机变量序列{Xn}样本均 值的分布。
设{xi}是随机变量X的n个样本观测值,则描述性统计量如下表所示 样本数据的描述性统计量
描述性统计量 表达式 样本均值
估计的数字特征 随机变量X的期望E(X)
统计意义 样本数据的平均水平
样本方差
随机变量X的方差Var(X) 偏离样本均值的程度
样本标准差
样本偏度
随机变量X的偏度
样本数据的对称性
样本峰度
H0:样本数据的总体服从正态分布 下,JB统计量服从χ2 (2)分布。
因此,JB检验的步骤: (1)根据样本数据计算样本偏度S和样本峰度K,并计算JB统计 量; (2)对于给定的显著性水平α,例如,1%,5%,或10%,查χ2 (2)
分布的临界值; (3)如果JB > (),则拒绝零假设H0,即,样本数据的总体不服
随机变量X的峰度
样本数据的峰尾特征
1.4 正态分布检验
在许多情况下,需要利用随机变量的样本数据对其未知分布进行假 设检验,检验其分布是否为已知的常见分布。因为最常用的分布是正态 分布,所以,常常检验样本数据是否服从正态分布,即,正态分布检 验。正态分布检验有两类,一类是基于分布数字特征的检验,如JB检 验;另一类是基于经验分布的非参数检验,如KS检验。
H0:样本数据的总体服从正态分布 但是,对于有限样本,经验分布函数是阶梯函数,所以,KS统计量 并且,Kolmogorov-Smirnov证明,当n → ∞时, 即,是统计量的渐近分布。
从正态分布;否则,接受零假设H0,即,样本数据的总体服从正态分 布。
1.4.2 KS检验
1. 经验分布函数 设{xi}是随机变量X的n个样本观测值,将样本观测值从小到大排 列,记为{x(i)}, 定义为样本数据的经验分布函数。
2. KS检验 KS检验的思想是利用正态分布函数与样本数据经验分布函数离差 推断样本数据的总体是否服从正态分布。为此,Kolmogorov-Smirnov构 造KS统计量 检验零假设
1.2.2 假设检验的错误
由于假设检验是应用小概率推断原理进行推理的,所以,假设检验 可能犯两类错误
第 I类错误:在零假设正确的情况下,而拒绝零假设的错 误。
第II类错误:在零假设错误的情况下,而接受零假设的错 误。 显然,在各种情况下,假设检验犯第 I类错误和第II类错误的概率如下 表所示。
假设检验犯错误的概率
(2)连续情况
P(Y |X)=
3. 条件矩
(1)条件期望
在离散情况下,
E(Y|X =x)=
在连续情况下,
E(Y|X =x)=
显然,条件期望是随机变量,并且,EX[E(Y|X =x)]= E(X) (2)条件方差
Var(Y|X =x)=E[(Y-E(Y|X =x))2| X =x]
由定义,
Var(Y|X)= E(Y2| X ) - E(Y| X ) 2
1.2.1 假设检验的步骤 (1)确定零假设和备择假设 注意:①零假设和备择假设相互独立;
②选择零假设的原则:如果零假设是错误的,造成的损失是 可以接受的;
例如,在诊断病人是否患有癌症时,零假设应该是“病人患有癌
症”;备择假设是“病人没有患癌症”。因为,如果病人没有患癌症,而 且,错误地推断为零假设“病人患有癌症”,则造成的损失仅仅为“病人 花费一些金钱”。但是,如果零假设是“病人没有患癌症”,则错误地推 断零假设造成的损失就不仅仅是“金钱”,而是“病人的生命”。
1阶原点矩 随机变量取值的平均水平
方差:σ2 = Var(X) = E[(X-μ)2] 2阶中心矩 随机变量取值偏离均值的平
均水平
偏度:S = E[(X-μ)3/ σ3] 3阶矩 随机变量分布是否对称,S>0左
偏,S>0右偏
峰度:K = E[(X-μ)4/ σ4] 4阶矩 随机变量分布的峰尾特征,K>3高
0, 则称随机变量序列{Xn}依概率收敛于随机变量X,记为,XnX,或者, plim n→∞Xn = X. (2) 分布收敛(convergence in distribution)
设F和Fn分别是随机变量X和Xn的分布函数,对于所有的 z∈R,如 果F在z处连续,并且 则称随机变量序列{Xn}依分布收敛于随机变量X,记为,XnX,或 者,FnF. (3) 几乎处处收敛或有概率1收敛(almost sure convergence) 对于随机变量序列{Xn},如果
则称随机变量序列{Xn}有概率1收敛于随机变量X,记为,XnX. (4) 均方收敛(mean square convergence)
如果, 则称随机变量序列{Xn}均方收敛于随机变量X,记为,XnX. (5) 各种收敛的关系
有概率1收敛 依概率收敛 依分布收敛
均方收敛
2. 大数定理
大数定ห้องสมุดไป่ตู้研究n 趋于无穷时,随机变量序列{Xn}的样本均值的渐近 行为。当样本均值依概率收敛时,称为弱大数定理;如果样本均值以概 率1收敛时,称为强大数定理。
两边对X求期望 E[Var(Y|X)] = E[E(Y2| X ) - E(Y| X )2]
E[Var(Y|X)] = E (Y2) – E[E(Y| X )2]
(1)
又因为, E[E (Y|X)]= E (Y)
Var[E(Y|X)] = E{(E (Y|X) – E[E (Y|X)])2}= E[E (Y|X)2] – (E (Y))2 (2)
零假设正确
零假设错误
拒绝零假设
α(犯第I类错误的概 率,size)
1-β
(检验的功
效,power)
接受零假设
1-α
β (犯第II类错误的概 率)
检验功效:在零假设错误时,检验拒绝零假设的概率1-β. 功效曲线:在零假设的各种错误情况下,检验功效的曲线。 例如,如果数据的生成过程是
,~ i.i.d. N(0, 1),ρ =1 零假设是ρ =1,备择假设是ρ < 1 当ρ ∈时,零假设错误,这时,各种ρ值所对应检验功效的曲线, 就是该检验的功效曲线。 良好的假设检验应该是犯第 I类错误的概率<α,并且,在零假设错 误的情况下,具有较高的检验功效。
1.3 描述性统计
在研究随机问题时,如果已知随机变量的分布,人们就可以应用概 率论的知识掌握该随机变量的变化规律。但是,实际问题并不是这样。 一般只能获得随机变量的样本数据,而未知它的总体信息。这时,必须 运用统计学的知识估计随机变量的数字特征和分布性质。描述性统计就 是基于随机变量的样本数据估计它的总体数字特征的统计学方法。
(1)+(2)得 E[Var(Y|X)]+ Var[E(Y|X)]= E (Y2) –(E (Y))2= Var(Y)
即, Var(Y) = E[Var(Y|X)]+ Var[E(Y|X)]
条件期望的两个性质
(1) Et(Xt+2)= Et[Et+1(Xt+2)] (迭代预期) (2) Et(Yt Xt+1)= Yt[Et(Xt+1)]
第一章 概率与统计基础
1.1 概率基础
1.1.1 概率定义
1. σ代数 设Ω是一个集合,如果Ω的子集构成的族F满足下述条件
(1)Ω∈F; (2)如果A ∈F,则 = Ω - A∈F; (3)如果Ai ∈F,i = 1,2,…,n,则∪Ai∈F 那么称F是σ代数。 2. 事件域 设Ω是随机试验可能结果(样本点)的集合(样本空间),一些样 本点的集合称为随机事件,如果所有事件构成一个σ代数,则称该σ代数 为事件域,记为 F。 3. 概率 设P是定义在事件域F上的一个集合函数,如果 (1) 对于任意的A ∈F,P(A)≥0; (2) P(Ω) = 1; (3) 如果Ai ∈F,i = 1,2,…,n,且两两不相容,则 P(∪Ai)=∑P(Ai) 则称P是概率,并称(Ω,F,P)为概率空间。
Lindeberg-Levy中心极限定理(LL CLT):设{Xn}是独立同分布的随机 变量序列,如果,,则 或者
显然,与Komolgorov大数定理SLLN I相比,尽管有i.i.d.的假设,但 是,Lindeberg-Levy中心极限定理仍然要求二阶矩存在。
1.2 假设检验
假设检验的原理:在一次随机试验中小概率事件发生即可作出拒绝 原假设的统计推断,概率反证法。
1.1.2 随机变量与分布函数
1. 随机变量 设ξ(ω) 是定义于概率空间(Ω,F,P)上的单值实函数,如果对于实 直线上的任何波雷尔集B,有 {ω:ξ(ω) ∈B}∈F,则称ξ是概率空间 (Ω,F,P)上的随机变量。 2. 分布函数 设ξ是概率空间(Ω,F,P)上的随机变量,函数
F(x) = P{ξ(ω)< x},-∞< x <∞ 被称为随机变量ξ的分布函数,或者,累积分布函数。
4. 新息
如果Xt =Et-1(Xt) + εt ,则称εt是Xt的新息,它是Xt中在t-1期不能预测 的“干扰”。
并且,
Et-1(εt) = 0; Cov(Xt-1, εt) = 0
1.1.5 极限定理
1. 随机变量序列的几种收敛
(1) 概率收敛(convergence in probability) 对于随机变量序列{Xn},如果存在随机变量X,使得对任意的 ε >
1.4.1 JB检验
JB检验的思想是推断样本数据的样本偏度和样本峰度是否分别等于 正态分布的偏度0和峰度3。为此,Jarque-Bera构造的检验统计量是:
JB = 显然,如果样本数据来源于正态总体,JB统计量应该接近于0;否 则,样本数据的总体就不服从正态分布。并且,Jarque-Bera证明,在零 假设
3. 概率密度函数
对于连续随机变量ξ,如果存在可积函数f(x),使得 F(x) = 则称f(x)是随机变量ξ的概率密度函数。
4. 正态分布 如果随机变量ξ的概率密度函数是 则随机变量ξ服从正态分布,记为,ξ ~ N(u,σ2 ) 如果随机变量ξ服从正态分布N(u,σ2 ),即,ξ ~ N(u,σ2 ),则随机 变量 服从标准正态分布N(0,1 ).
③零假设是不容易被推翻的,即,零假设成立的事件是小概 率事件;
(2)构造统计量 构造统计量,并在零假设成立的情况下,确定它的分布。 (3)选择置信水平α,例如,1%,5%,或10% (4)统计推断,即,对于一次随机试验的具体样本,在选择的置信 水平下,依据上述统计量的分布推断是否拒绝零假设。如果一次随机试 验小概率事件发生,则拒绝零假设;否则,接受零假设。
峰厚尾,
扁峰分布。
1.1.4 条件概率和分布
1 条件概率
设 (Ω,F,P)是概率空间,B∈F,P(B)> 0,那么对于任何事件
A∈F,记
P(A|B)=
并称P(A|B)为在事件B发生的条件下事件A发生的条件概率。
2. 条件分布
(1)离散情况
如果已知X =x,Y =y的条件概率定义为
P(Y =y|X =x)=
1.1.3 矩
在难以获得随机变量分布的情况下,为了了解随机变量分布情况, 一般用随机变量的数字特征来对该随机变量进行分析。矩是随机变量最 常用的数字特征。
设X是随机变量,对于任何正整数k, k阶原点矩:mk = E(Xk)
k阶中心矩:ck = E[(X - E(X)) k]
矩的统计意义:
均值:μ = E(X)
Khinchine大数定理(Khinchine’s SLLN I):设{Xn}是独立同分布的随 机变量序列,,则 Khinchine大数定理说明:样本均值是对总体均值最好的近似。
3. 中心极限定理
大数定理研究了n 趋于无穷时,随机变量序列{Xn}的样本均值的收 敛性质。中心极限定理则讨论n 趋于无穷时,随机变量序列{Xn}样本均 值的分布。
设{xi}是随机变量X的n个样本观测值,则描述性统计量如下表所示 样本数据的描述性统计量
描述性统计量 表达式 样本均值
估计的数字特征 随机变量X的期望E(X)
统计意义 样本数据的平均水平
样本方差
随机变量X的方差Var(X) 偏离样本均值的程度
样本标准差
样本偏度
随机变量X的偏度
样本数据的对称性
样本峰度
H0:样本数据的总体服从正态分布 下,JB统计量服从χ2 (2)分布。
因此,JB检验的步骤: (1)根据样本数据计算样本偏度S和样本峰度K,并计算JB统计 量; (2)对于给定的显著性水平α,例如,1%,5%,或10%,查χ2 (2)
分布的临界值; (3)如果JB > (),则拒绝零假设H0,即,样本数据的总体不服
随机变量X的峰度
样本数据的峰尾特征
1.4 正态分布检验
在许多情况下,需要利用随机变量的样本数据对其未知分布进行假 设检验,检验其分布是否为已知的常见分布。因为最常用的分布是正态 分布,所以,常常检验样本数据是否服从正态分布,即,正态分布检 验。正态分布检验有两类,一类是基于分布数字特征的检验,如JB检 验;另一类是基于经验分布的非参数检验,如KS检验。
H0:样本数据的总体服从正态分布 但是,对于有限样本,经验分布函数是阶梯函数,所以,KS统计量 并且,Kolmogorov-Smirnov证明,当n → ∞时, 即,是统计量的渐近分布。
从正态分布;否则,接受零假设H0,即,样本数据的总体服从正态分 布。
1.4.2 KS检验
1. 经验分布函数 设{xi}是随机变量X的n个样本观测值,将样本观测值从小到大排 列,记为{x(i)}, 定义为样本数据的经验分布函数。
2. KS检验 KS检验的思想是利用正态分布函数与样本数据经验分布函数离差 推断样本数据的总体是否服从正态分布。为此,Kolmogorov-Smirnov构 造KS统计量 检验零假设
1.2.2 假设检验的错误
由于假设检验是应用小概率推断原理进行推理的,所以,假设检验 可能犯两类错误
第 I类错误:在零假设正确的情况下,而拒绝零假设的错 误。
第II类错误:在零假设错误的情况下,而接受零假设的错 误。 显然,在各种情况下,假设检验犯第 I类错误和第II类错误的概率如下 表所示。
假设检验犯错误的概率
(2)连续情况
P(Y |X)=
3. 条件矩
(1)条件期望
在离散情况下,
E(Y|X =x)=
在连续情况下,
E(Y|X =x)=
显然,条件期望是随机变量,并且,EX[E(Y|X =x)]= E(X) (2)条件方差
Var(Y|X =x)=E[(Y-E(Y|X =x))2| X =x]
由定义,
Var(Y|X)= E(Y2| X ) - E(Y| X ) 2
1.2.1 假设检验的步骤 (1)确定零假设和备择假设 注意:①零假设和备择假设相互独立;
②选择零假设的原则:如果零假设是错误的,造成的损失是 可以接受的;
例如,在诊断病人是否患有癌症时,零假设应该是“病人患有癌
症”;备择假设是“病人没有患癌症”。因为,如果病人没有患癌症,而 且,错误地推断为零假设“病人患有癌症”,则造成的损失仅仅为“病人 花费一些金钱”。但是,如果零假设是“病人没有患癌症”,则错误地推 断零假设造成的损失就不仅仅是“金钱”,而是“病人的生命”。
1阶原点矩 随机变量取值的平均水平
方差:σ2 = Var(X) = E[(X-μ)2] 2阶中心矩 随机变量取值偏离均值的平
均水平
偏度:S = E[(X-μ)3/ σ3] 3阶矩 随机变量分布是否对称,S>0左
偏,S>0右偏
峰度:K = E[(X-μ)4/ σ4] 4阶矩 随机变量分布的峰尾特征,K>3高
0, 则称随机变量序列{Xn}依概率收敛于随机变量X,记为,XnX,或者, plim n→∞Xn = X. (2) 分布收敛(convergence in distribution)
设F和Fn分别是随机变量X和Xn的分布函数,对于所有的 z∈R,如 果F在z处连续,并且 则称随机变量序列{Xn}依分布收敛于随机变量X,记为,XnX,或 者,FnF. (3) 几乎处处收敛或有概率1收敛(almost sure convergence) 对于随机变量序列{Xn},如果
则称随机变量序列{Xn}有概率1收敛于随机变量X,记为,XnX. (4) 均方收敛(mean square convergence)
如果, 则称随机变量序列{Xn}均方收敛于随机变量X,记为,XnX. (5) 各种收敛的关系
有概率1收敛 依概率收敛 依分布收敛
均方收敛
2. 大数定理
大数定ห้องสมุดไป่ตู้研究n 趋于无穷时,随机变量序列{Xn}的样本均值的渐近 行为。当样本均值依概率收敛时,称为弱大数定理;如果样本均值以概 率1收敛时,称为强大数定理。
两边对X求期望 E[Var(Y|X)] = E[E(Y2| X ) - E(Y| X )2]
E[Var(Y|X)] = E (Y2) – E[E(Y| X )2]
(1)
又因为, E[E (Y|X)]= E (Y)
Var[E(Y|X)] = E{(E (Y|X) – E[E (Y|X)])2}= E[E (Y|X)2] – (E (Y))2 (2)
零假设正确
零假设错误
拒绝零假设
α(犯第I类错误的概 率,size)
1-β
(检验的功
效,power)
接受零假设
1-α
β (犯第II类错误的概 率)
检验功效:在零假设错误时,检验拒绝零假设的概率1-β. 功效曲线:在零假设的各种错误情况下,检验功效的曲线。 例如,如果数据的生成过程是
,~ i.i.d. N(0, 1),ρ =1 零假设是ρ =1,备择假设是ρ < 1 当ρ ∈时,零假设错误,这时,各种ρ值所对应检验功效的曲线, 就是该检验的功效曲线。 良好的假设检验应该是犯第 I类错误的概率<α,并且,在零假设错 误的情况下,具有较高的检验功效。
1.3 描述性统计
在研究随机问题时,如果已知随机变量的分布,人们就可以应用概 率论的知识掌握该随机变量的变化规律。但是,实际问题并不是这样。 一般只能获得随机变量的样本数据,而未知它的总体信息。这时,必须 运用统计学的知识估计随机变量的数字特征和分布性质。描述性统计就 是基于随机变量的样本数据估计它的总体数字特征的统计学方法。
(1)+(2)得 E[Var(Y|X)]+ Var[E(Y|X)]= E (Y2) –(E (Y))2= Var(Y)
即, Var(Y) = E[Var(Y|X)]+ Var[E(Y|X)]
条件期望的两个性质
(1) Et(Xt+2)= Et[Et+1(Xt+2)] (迭代预期) (2) Et(Yt Xt+1)= Yt[Et(Xt+1)]
第一章 概率与统计基础
1.1 概率基础
1.1.1 概率定义
1. σ代数 设Ω是一个集合,如果Ω的子集构成的族F满足下述条件
(1)Ω∈F; (2)如果A ∈F,则 = Ω - A∈F; (3)如果Ai ∈F,i = 1,2,…,n,则∪Ai∈F 那么称F是σ代数。 2. 事件域 设Ω是随机试验可能结果(样本点)的集合(样本空间),一些样 本点的集合称为随机事件,如果所有事件构成一个σ代数,则称该σ代数 为事件域,记为 F。 3. 概率 设P是定义在事件域F上的一个集合函数,如果 (1) 对于任意的A ∈F,P(A)≥0; (2) P(Ω) = 1; (3) 如果Ai ∈F,i = 1,2,…,n,且两两不相容,则 P(∪Ai)=∑P(Ai) 则称P是概率,并称(Ω,F,P)为概率空间。
Lindeberg-Levy中心极限定理(LL CLT):设{Xn}是独立同分布的随机 变量序列,如果,,则 或者
显然,与Komolgorov大数定理SLLN I相比,尽管有i.i.d.的假设,但 是,Lindeberg-Levy中心极限定理仍然要求二阶矩存在。
1.2 假设检验
假设检验的原理:在一次随机试验中小概率事件发生即可作出拒绝 原假设的统计推断,概率反证法。
1.1.2 随机变量与分布函数
1. 随机变量 设ξ(ω) 是定义于概率空间(Ω,F,P)上的单值实函数,如果对于实 直线上的任何波雷尔集B,有 {ω:ξ(ω) ∈B}∈F,则称ξ是概率空间 (Ω,F,P)上的随机变量。 2. 分布函数 设ξ是概率空间(Ω,F,P)上的随机变量,函数
F(x) = P{ξ(ω)< x},-∞< x <∞ 被称为随机变量ξ的分布函数,或者,累积分布函数。
4. 新息
如果Xt =Et-1(Xt) + εt ,则称εt是Xt的新息,它是Xt中在t-1期不能预测 的“干扰”。
并且,
Et-1(εt) = 0; Cov(Xt-1, εt) = 0
1.1.5 极限定理
1. 随机变量序列的几种收敛
(1) 概率收敛(convergence in probability) 对于随机变量序列{Xn},如果存在随机变量X,使得对任意的 ε >