河北经贸大学《计量经济学》专题二:一些重要的概率分布.
计量经济学试题
河北经贸大学2005--2006年度 第一学期试题《计量经济学》试题(A )系别 班级 学号(最后两位) 姓名核分人签名一、单项选择(2分×15=30分)1.下面属于截面数据的是( )A .1991-2003年各年某地区20个乡镇的平均工业产值B .1991-2003年各县某地区20个乡镇的各镇工业产值C .某年某地区20个乡镇工业产值合计数D .某年某地区20个乡镇各镇的工业产值 2.相关关系是指( )A .变量间的非独立关系B .变量间的独立关系C .变量间不确定的依存关系D .变量间的函数关系3.设样本回归模型01ˆˆi i i Y X e ββ=++,则普通最小二乘法确定的ˆi β的公式中,错误的是( )A .12()()ˆ()i i iX X Y Y XX β--=-∑∑ B .122ˆ()i i i i i i n X Y X Y n X X β-=-∑∑∑∑∑C .122ˆi i i n X Y nXY X nX β-=-∑∑ D .∑∑=21ˆii i xyx β4.用普通最小二乘法估计经典线性模型01i i i Y X ββμ=++,则样本回归线通过点( )A .(,)X YB .ˆ(,)X YC .ˆ(,)X Y D . (,)X Y5.已知某一直线回归方程的判定系数为0.81,则解释变量与被解释变量间的线性相关系数可能为( ) A .0.81 B .0.9 C .0.8 D .0.4056.对于01122ˆˆˆˆi i i k ki i Y X X X e ββββ=+++++ ,如原模型满足线性模型的基本假定,则在零假设j β=下,统计量ˆˆ()jjs ββ(其ˆ()js β是ˆjβ的标准误差)服从( )A .()t n k -B .(1)t n k --C .(1,)F k n k --D .(,1)F k n k --7.对于01122ˆˆˆˆi i i k ki i Y X X X e ββββ=+++++ ,统计量22ˆ()/ˆ()/1ii i Y Y kY Y n k ----∑∑服从( )A .(1)t n k --B .(1,1)F n k n ---C .(1,)F k n k --D .(,1)F k n k --8.当存在异方差现象是,估计模型参数的适当方法是( ) A .加权最小二乘法 B .工具变量法 C .广义差分法 D .使用非样本先验信息9.根据20个观测值估计的结果,一元线性回归模型的. 2.3DW=。
计量经济学之概率论和统计学知识复习PPT学习教案
会计学
1
Ch2:概率统计复习
概率论复习 连续随机变量:在连续的实数区间取值,用概率密度函数描述概率分布。 连续随机变量的取值均假设为一切实数,只取部分实数时,将不取值部分 对应的概率密度设为0。如候车时间范围为[0,5)时,变量的取值情况。 重要特例:正态分布(Normal distribution) 取值:(-∞,+∞) 概率密度:
(2)极大似然估计:
样本似然函数
(i)离散总体
n
L(1,1,,n;θ) P(i )
(ii)连续总体
i1
n
L(x1, x2,, xn;θ) f (xi , θ)
i1
对数似然函数 l (x1, x2,, xn;θ) ln L(x1, x2,, xn;θ)
第15页/共18页
Ch2:概率统计复习 统计学复习
(5)一个非参数检验的例子:正态分布检验(J-B检验)
JB
n 6
ˆ2
ቤተ መጻሕፍቲ ባይዱ
(ˆ
3)2 4
第17页/共18页
第16页/共18页
Ch2:概率统计复习
统计学复习
假设检验: 为什么进行假设检验?样本中的随机性(噪音)对判断的干扰
(1)假设检验的原理:小概率事件原理 (2)原假设和备择假设:双边检验和单边检验 (3)假设检验的关键:构造检验统计量,给定显著水平,计算小概率
事件(拒绝域)。 (4)假设检验方法的评价标准:两类错误和检验功效(Power)
随机向量: (1)联合分布
联合分布函数:
Ch2:概率统计复习 概率论复习
联合密度函数 (2)矩
数学期望向量:
方差-协方差矩阵:
概率论与数理统计几种重要的分布
例1、X服从poisson分布,EX=5,查表求P(X=2),P(X=5), P(X=20)。
精选2021版课件
22
例2、检查了100个零件上的疵点数,结果如表。用poisson分 布公式计算疵点数的分布,并与实际检查结果比较。
疵点数 0 1 2 3 4 5 6
例 8、X 设 ~f(x) 0 2,x,0 其 x 它 1,现X 进 对n次 行独,用 立 Y 表 观 示 观测值 0.1的 不次 ,求 大 Y 的 数 于 分 . 布
解 p : P (X 0 .1 )0 .1f(x )d x 20 .1xd 0 .x 01
0
因 Y~ 此 B (n ,0 .0)1
2、数字特征
EXp, DX 精选20p21版q.课件
2
二、二项分布
例 1、一批产品的 0.9,合 重格 复率 抽为 取 ,每三 次次 一 , 件 连续 3次,求3次中取到的合 X的 格分 品 . 布 件数
如果在一 ,事 次 A 件 成 试功 验的 中 p(概 0p率 1),为 则n 在 重贝努里A 试 成验 功中 的 X 的 事 次 分 件 数 :布
k 11 1k1 1 n k k! n n n
ln i m C n kpk(1p)nk kk !精e 选 2 021版课件
21
定理说明,对于成功率为p的n重贝努利试验,只要n充分
大,而p充分小,则其成功的次数X近似服从参数 np
的泊松分布。 l n i P ( X m m ) l n i C n m m p m q n m l n i ( n m m ) ! m e p n p m m ! e .
定:使 义概 P (X 率 k)取最k,大 记k0 值 作 ,称 k0为 的二 的最.可能值
几个重要的分布
在前面的章节中我们讲到随机变量可以用其概率密度函数的一些数字特征(或矩)来描述,比如期望值和方差。
但是,由于随机变量种类繁多,因此假设知道其概率密度函数实际上是较高的要求。
但在实际中,一些随机变量经常发生,因此统计学家能够确定其概率密度函数并归纳出其性质。
这里,我们主要关注的是一些基本的概率密度函数。
但是,在任何一本标准的统计学教科书上,你都会发现统计学家还对其他的一些概率密度函数作了仔细的研究。
本章主要讨论的4种概率分布是:(1) 正态分布;(2) 2分布;(3) t 分布;(4) F 分布。
我们将考察上述各概率密度的主要特征、性质及其用途。
读者必须掌握本章的全部内容,因为,这些概率分布是经济计量理论和实践的核心内容。
3.1 正态分布对于连续型随机变量而言,正态分布(normal distribution )是最重要的一种概率分布,稍具统计知识的读者都会熟悉其“钟型”形状(见图2 -2)。
经验表明:对于其值依赖于众多微小因素且每一因素均产生微小的或正或负影响的连续型随机变量来说,正态分布是一个相当好的描述模型。
比如考虑体重这一随机变量,它就近似服从正态分布,因为遗传、骨骼结构、饮食、锻炼、新陈代谢等都对人的体重有影响,但又没有一种因素起到压到一切的主导作用。
与此相类似,人的身高、考试分数等都近似地服从正态分布。
为了简便,通常用:X ~N (u ,2)(3 -1)1表示随机变量X 服从正态分布。
符号~表示随机变量服从什么样的分布,N 表示正态分布,括号内的参数u ,2称为正态分布的(总体)均值(或期望)和方差。
需要指出的是:X 是一个连续型随机变量,可取区间(-∞,+∞)内的任意一值。
第3章■一些重要的概率分布1 正态变量的概率密度函数:其中,e x p {}表示以e 为底的指数形式,e=2.718 28,π=3.141 59。
µ和2分别是正态分布的参数,均值和方差。
下载图3-1 正态曲线下的区域正态分布的性质正态分布曲线(见图2 -2)以均值u为中心,对称分布。
计量经济学第三讲
2 2
计量经济学,浙江财经学院经贸学院,柴志贤
5
4.标准正态分布 4.标准正态分布
X −µ
若 X ~ N(µ , δ ) 并且 Z =
2
,则 Z ~ N(0,1) ,也 也 就是说由随机变量X的线性变换 的线性变换Z服从标准正 就是说由随机变量 的线性变换 服从标准正 态分布。 态分布。
第三章 一些重要的概率分布
计量经济学,浙江财经学院经贸学院,柴志贤
1
本章主要内容
正态分布( distribution) 正态分布(normal distribution) χ2分布 t分布(学生分布) 分布(学生分布) F分布
计量经济学,浙江财经学院经贸学院,柴志贤 2
一、正态分布(normal distribution) 正态分布( )
1.原理: 1.原理:对于其值依赖于众多微小 原理
原因且每一因素均产生或正或负影 响的连续型随机变量来说,正态分 布是一个相当好的模型。
计量经济学,浙江财曲线
X ~ N(µ , δ 2 ) 表示随机变量服从以 为均值 , 表示随机变量服从以µ为均值 为均值,
为方差的正态分布。 以 δ2 为方差的正态分布 。 正态分布的概率 密度函数为: 密度函数为: f ( X ) = δ 12π exp − 1 ( Xδ− µ )2 2
计量经济学,浙江财经学院经贸学院,柴志贤 9
(4)中心极限定理:如果X1、X2、 中心极限定理:如果X 是来自于均值为µ, X3 … Xn是来自于均值为 ,方差为 的任一总体的随机样本, δ2的任一总体的随机样本,随着样 本容量无限增大, 本容量无限增大,则其样本均值 X 趋 于正态分布,均值为µ,方差为δ /n。 于正态分布,均值为 ,方差为δ2/n。
概率论中几种常用重要分布
概率论中几种常用的重要的分布摘要:本文主要探讨了概率论中的几种常用分布,的来源和他们中间的关系。
其在实际中的应用。
关键词1 一维随机变量分布随机变量的分布是概率论的主要内容之一,一维随机变量部分要介绍六中常用分布,即( 0 -1) 分布、二项分布、泊松分布、均匀分布、指数分布和正态分布. 下面我们将对这六种分布逐一地进行讨论.随机事件是按试验结果而定出现与否的事件。
它是一种“定性”类型的概念。
为了进一步研究有关随机试验的问题,还需引进一种“定量”类型的概念,即,根据试验结果而定取什么值(实值或向量值)的变数。
称这种变数为随机变数。
本章内将讨论取实值的这种变数—— 一维随机变数。
定义1.1 设X 为一个随机变数,令 ()([(,)])([]),()F x P X x P Xx x=∈-∞=-∞+∞.这样规定的函数()F x 的定义域是整个实轴、函数值在区间[0,1]上。
它是一个普通的函数。
成这个函数为随机函数X 的分布函数。
有的随机函数X 可能取的值只有有限多个或可数多个。
更确切地说:存在着有限多个值或可数多个值12,,...,a a 使得 12([{,,...}])1P X a a ∈=称这样的随机变数为离散型随机变数。
称它的分布为离散型分布。
【例1】下列诸随机变数都是离散型随机变数。
(1)X 可能取的值只有一个,确切地说,存在着一个常数a ,使([])1P X a ==。
称这种随机变数的分布为退化分布。
一个退化分布可以用一个常数a 来确定。
(2)X 可能取的值只有两个。
确切地说,存在着两个常数a ,b ,使([{,}])1P X a b ∈=.称这种随机变数的分布为两点分布。
如果([])P X b p ==,那么,([])1P X a p ===-。
因此,一个两点分布可以用两个不同的常数,a b 及一个在区间(0,1)内的值p 来确定。
特殊地,当,a b 依次为0,1时,称这两点分布为零-壹分布。
河北经贸大学《计量经济学》专题三:统计推断.
在研究中,我们想尽可能减小这两种错误。但 是,对于任一给定的样本,我们不可能同时做 到犯这两种错误的概率都很小。其解决方法为: 先固定犯第一类错误的概率在一很低水平上, 再考虑如何减小犯第二类错误的概率。
犯第一类错误的概率通常用符号表示,称为显 著水平;犯第二类错误的概率通常用符号表示。 则: 第一类错误= =犯弃真错误的概率; 第二类错误= =犯取伪错误的概率。 不犯第二类错误的概率=(1- )。 当H0为假时,拒绝H0,称为检验的功效。
10.63 12.36
P/E值
P/E总体均值的95%的置信区间
4.2 第一类错误和第二类错误
H0:x =13
2.5%
95%
2.5% P/E值
10.63
12.36
13
P/E总体均值的95%的置信区间
第一类错误:
亦称弃真错误。在上述P/E例子中,我们以 95%的置信度拒绝了零假设: x =13,那么 是否就意味着上表中所给出的样本就不是来 自均值为13的正态总体呢?或许事实的确如 此。但是由于不等式给出的置信区间的置信 度是95%,而非100%,故x 有2.5%的可能性 取值为13。如果真是这样,则拒绝H0: x =13,就可能犯错误,这种情况下,我们说 犯了第一类错误(也称弃真错误)。
注意:点估计是一个随机变量,因为其值随样本 的不同而不同,那么,某一特殊的估计值的可信 度有多大呢?为了更好地估计总体特征,引入区 间估计。
区间估计:区间估计的主要思想源于估计量抽样 分布(概率分布)的概念。我们知道,如果随机 变量X~N(x,x² ),则,
或
X ~ N , n (X ) Z ~ N (0,1) n
f(X*)
第一章 绪论(三) 一些重要的概率分布
σ
-3σ
-2σ
-σ
µ
2σ
3σ
1.2 正态分布的性质:
⑴ 正态分布曲线以均值µ为中心,对称分布。 ⑵ 正态分布的概率密度函数呈中间高、两边 低,在均值µ处达到最高,向两边逐渐降低, 即随机变量在远离均值处取值的概率逐渐变 小。 ⑶ 正态曲线下的面积约有68%位于µ± σ两 值之间;约有95%面积位于µ±2σ之间;约有 99.7%的面积位于µ± 3σ之间。这些区域可用 作概率的度量。
t分布与正态分布: 当k增大时,t分布的方差接近于标准正态分布方 差值1。 例如:当k=10时,t分布的方差为10/8=1.25; 当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正 态分布。 注意:对于t分布,不要求其样本容量很大, k=30时,t分布与正态分布已很近似。
t分布表举例:
查t分布表,自由度为(n-1)=15-1=14 当自由度为14时,查表得,t值大于等于 2.977的概率为0.005,大于等于4.140的概 率为0.0005,所以,t值大于等于3.873的 概率介于0.0005~0.005之间。 练习1: 上例中其他条件不变,现假定15天 内出售面包的平均数量为72条,求获得 此数量的概率。
χ²分布的几何图形:
f(χ²) 概 率 密 度 K=5 K=10 K=2
0 χ² 的
χ²
3.2 χ²分布的性质
⑴与正态分布不同, χ²分布只取正值(它是平 方和的分布),并且取值范围从0到无限大。 ⑵ 与正态分布不同, χ²分布是斜分布,其遍度 取决于自由度的大小,自由度越小,越向右偏, 但是随着自由度的增大,逐渐呈对称,接近于 正态分布。 ⑶ χ²分布的期望值为k,方差为2k。k为χ²分布 的自由度。即χ²分布的方差是其均值的2倍。 ⑷ 若E1、E2分别为自由度为k1,k2的两个相互独 立的 χ²变量,则其和(Z1+Z2)也是一个χ²变量, 其自由度为(k1+k2)。
2.计量经济学第二讲-计量经济分析的统计学基础
数学概率和统计概率:
数学概率:不靠试验而从理论上求得的概率。 统计概率:从多次试验得到的概率。
统计概率与数学概率相近的是大数法则。
Friday, 7 March 2008 CUFE
一、概率的概念
1.
随机试验和事件:
随机试验是导致至少两种可能结果的过程,并且 在此过程中将出现何种结果是不确定的。 样本空间或总体:一个随机试验的所有可能结果 的集合。 样本点:样本空间的每个成员。 事件:样本空间的子集。 互不相容或互斥事件:两个事件中一个事件的发 生排除另一个事件的发生。 完备事件:若干个事件包罗了一个试验的所有可 能的结果。
CUFE
Friday, 7 March 2008
一、概率的概念
3.
事件的概率:
概率的古典定义【拉普拉斯(1749~1827)】: 设一试验有n个互不相容的等可能的结果(每个结果称 为基本事件),每次试验必有一基本事件发生。m为事件A中 包含的基本事件个数。则称比值m/n为事件A的概率,记作
P(A) =
Friday, 7 March 2008 CUFE
二、随机变量与概率分布
2.
随机变量的概率分布和概率密度函数:
一个随机变量的概率分布:是该随机变量取给定值或属于 一给定值集的概率所确定的函数。概率分布反映的是随机 变量所有可能取值的概率的分配方式。一旦与所有可能结 果相联系的概率被确定,则概率分布即完全被确定。 [“We can describe a random variable by examining the process which generates its values. This process, called a probability distribution, lists all possible outcomes and the probability that each will occur.” Pindyck, R.S. et. Al. (1991, p.19)]
常用的概率分布类型及其特征
常用的概率分布类型与其特征3.1 二点分布和均匀分布1、两点分布许多随机事件只有两个结果.如抽检产品的结果合格或不合格;产品或者可靠的工作,或者失效.描述这类随机事件变量只有两个取值,一般取0和1.它服从的分布称两点分布.其概率分布为:其中 Pk=P〔X=Xk〕,表示X取Xk值的概率:0≤P≤1.X的期望 E〔X〕=PX的方差 D〔X〕=P〔1—P〕2、均匀分布如果连续随机变量X的概率密度函数f〔x〕在有限的区间[a,b]上等于一个常数,则X服从的分布为均匀分布.其概率分布为:X的期望 E〔X〕=〔a+b〕/2X的方差 D〔X〕=〔b-a〕2/123.2 抽样检验中应用的分布3.2.1 超几何分布假设有一批产品,总数为N,其中不合格数为d,从这批产品中随机地抽出n 件作为被检样品,样品中的不合格数X服从的分布称超几何分布.X的分布概率为:X=0,1,……X的期望 E〔X〕=nd/NX的方差 D〔X〕=〔〔nd/N〕〔〔N-d〕/N〕〔〔N-n〕/N〕〕〔1/2〕3.2.2 二项分布超几何分布的概率公式可以写成阶乘的形式,共有9个阶乘,因而计算起来十分繁琐.二项分布就可以看成是超几何分布的一个简化.假设有一批产品,不合格品率为P,从这批产品中随机地抽出n件作为被检样品,其中不合格品数X服从的分布为二项分布.X的概率分布为:0<p<1x=0,1,……,nX的期望 E〔X〕=npX的方差 D〔X〕=np〔1-p〕3.2.3 泊松分布泊松分布比二项分布更重要.我们从产品受冲击〔指瞬时高电压、高环境应力、高负载应力等〕而失效的事实引入泊松分布.假设产品只有经过一定的冲击次数后,产品才失效,又设这些冲击满足三个条件:〔1〕、两个不相重叠的时间间隔内产品所受冲击次数相互独立;〔2〕、在充分小的时间间隔内发生两次或更多次冲击的机会可忽略不计;〔3〕、在单位时间内发生冲击的平均次数λ〔λ>0〕不随时间变化,即在时间间隔Δt内平均发生λΔt次冲击,它和Δt 的起点无关.则在[0,t]时间内发生冲击的次数X服从泊松分布,其分布概率为:X的期望 E〔X〕=λtX的方差 D〔X〕=λt假设仪表受到n次冲击即发生故障,则仪表在[0,t]时间内的可靠度为:其中:x =0,1,2,……,λ>0,t>0.3.2.4 x2分布本分布是可靠性工程中最常用的分布之一,虽然其概率密度形式较复杂,但可由标准正态分布推出.设有v个相互独立的随机变量X1,X2,…… Xv,它们服从于标准正态分布N 〔0,1〕.记x2 =X12 + X22 +…Xv2 ,x2读作"卡方"则x2服从的分布称为x2分布.它的概率密度函数为:该式称为随机变量x2服从自由度为V的x分布.式中:V—为自由度,是个自然数x2分布最重要的性质是:当m为整数时:3.3 产品的寿命分布3.3.1 指数分布指数分布是电子产品在可靠性工程学中最重要的分布.通常情况下,电子产品在剔除了早期故障后,到发生元器件或材料的老化变质之前的随机失效阶段其寿命服从指数分布规律.指数分布是唯一的失效率不随时间变化而变化的连续随机变量的概率分布.容易推出:指数分布有如下三个特点:1.平均寿命和失效率互为倒数;MTBF=1/λ2.特征寿命就是平均寿命;3.指数分布具有无记忆性.〔即产品以前的工作时间对以后的可能工作时间没有影响〕3.3.2 威布尔分布从上面的描述可知,指数分布只适用于浴盆曲线的底部,但任何产品都有早期故障,也总有耗损失效期.在可靠性工程学中用威布尔分布来描述产品在整个寿命期的分布情况.将指数分布中的〔-λt〕替换为〔-〔t/η〕m〕,就得到威布尔分布.容易得到:3.3.3 正态分布与对数正态分布正态分布又称为常态分布或高斯分布.它的概率密度函数为:式中:-∞<x<∞分布函数记为:对数正态分布是指:若寿命T的对数lnT服从正态分布N〔u,σ〕,则T服从对数正态分布.它的概率密度函数为:式中:t,σ为正数,μ和σ分别称为对数正态分布的"对数均值"和"对数标准差".3.4 为进行统计推断所构造的分布3.4.1 t分布〔学生氏分布〕t—分布常用于区间估计、正态总体的假设检验以与机械概率设计之中.服从t—分布的随机变量记住t.它是服从标准正态分布N〔0,1〕的随机变量U和服从自由度为v的x2分布的随机变量x2〔v〕的函数.它的概率密度函数f〔t〕为:3.4.2 F—分布F分布主要用于两个总体的假设检验与方差分析.服从F分布的随机变量F是两个相互独立的x2分布随机变量x2〔v1〕和x2〔v2〕的函数:式中:F只能取正值.F分布的概率密度函数为:另外还有β—分布等.中位秩是β—分布的中位数,一般用下式求出:中位秩值≈〔i-0.3〕/<n+0.4> 式中:n为样本总数.。
模式识别与机器学习(二):常用的概率分布(共轭分布等)
模式识别与机器学习(二):常用的概率分布(共轭分布等)第二章主要介绍几个重要的概率分布及其特性。
1. 二值变量的概率分布假设一个二元随机变量,用参数表示的概率为:。
(1)伯努利分布(Bernoulli distribution)概率分布函数:期望:方差:log似然函数为:其中,表示变量x的观测值。
得到的最大似然估计值为:(2)二项分布(Binomial distribution)概率分布函数:,期望:方差:注:对于小的数据集,如果对二项分布采用极大似然估计,会得到过拟合(over-fitting)的估计结果。
可以采用贝叶斯方法,引入共轭先验分布(conjugate prior distribution)来解决这个问题。
共轭先验是指,选取一个与似然函数共轭的先验分布,使得后验分布与先验分布有同样的函数形式。
其中,二项分布的共轭先验是Beta分布。
(3)Beta分布概率分布函数:期望:方差:采用贝叶斯方法,将Beta先验乘以二项分布似然函数,得到后验分布如下:2. 多项式变量的概率分布多项式变量可以取多种结果中的一种,而二值变量只能取两种结果中的一种。
假设变量x可以取K=6种结果,若x的某一次观测值为第三种结果(),则可以将x表示为。
另外,用参数表示的概率:(1)多项式分布(Multinomial distribution)概率函数为:(其中,表示数据集中出现第k种结果的次数;)(2)狄利克雷分布(Dirichlet distribution)狄利克雷分布是多项式分布的共轭先验分布。
概率分布函数如下:采用贝叶斯方法,得到后验分布如下:3. 高斯分布一元概率分布函数:多元概率分布函数:3.1 条件高斯分布(Conditional Gaussian distribution)假设x是一个服从高斯分布的D维向量,为了讨论条件高斯分布,将x分成两个独立的子集:这两个子集对应的期望为:对应的方差为:经推导,条件概率分布的期望和方差分别为:3.2 边缘概率分布(Marginal Gaussian distribution)以为例,其期望和方差分别为:3.3 高斯变量的贝叶斯理论本节的主要内容是:已知高斯边缘概率和高斯条件概率(其均值是变量x的线性函数,且其方差与x无关),如何求得边缘概率和条件概率。
一些重要的概率分布
E(W)=2E(X)+2E(Y)=500
Var(W)=4Var(X)+4Var(Y)=580 因此,W服从均值为500,方差为580的正态分布,即
W~N(500,580) 一些重要的概率分布
1.3 标准正态分布
由于期望和方差的不同,正态分布之间会存在一定 的区别(见下图),如何将其简单化,从而引入标 准正态分布。
(n1)S22
~2(n1)
其中,²为总体方差,S²为样本方差,
样本容量为n。
一些重要的概率分布
§4、 t分布
_
回忆:若样本均值 X~N(,2 n),则
变量Z服从标准正态分布。
_
即: Z X ~N(0,1) n
假定已知和²的估计量S²,则可以 用样本标准差(S)代替总体标准差 (),得到一个新的变量t。
一些重要的概率分布
t分布与正态分布:
当k增大时,t分布的方差接近于标准正态分布方差 值1。
例如:当k=10时,t分布的方差为10/8=1.25;
当k=30时,t分布的方差为30/28=1.07;
当k=100时,t分布的方差为100/98=1.02;
结论:随着自由度的逐渐增大,t分布近似于正态分 布。
一些重要的概率分布
⑷ 正态分布可由两个参数,²来描 述,即一旦知道,²的值,就可以根 据附录表查到随机变量X落于某一区 间的概率值。
⑸ 两个(或多个)正态分布随机变量 的线性组合仍服从正态分布。该性质 很重要,解释如下:
⑹ 正态分布的偏度为0,峰度为3。
一些重要的概率分布
令:
X
~
N(X
,
2 X
一些重要的概率分布
《统计学原理》第6章补充1-几种重要的分布
2.区间估计
❖ 定义:给出一个区间(置 信区间)并预测真正的 参数以一定的概率存在 与这一区间的方法称为 区间估计.
❖ :显著性水平; ❖1- :置信水平
这一区间能覆盖真值的概率 称为置信系数.
P ˆ1 ˆ2 1-
0 1
3.估计量的评价标准
❖ 1.无偏性:对于一个估计量,屡次变更数据反
x 2
2 2
2
x
其中, 为随机变量X的均值, 2 为随机变量X的方差.
对具有均值为 ,方差为 2 的正态概率分布,记为 N . , 2
于是有正态分布随机变量 X ~ N , 2
当 0, 1 时,我们称随机变量X遵从标准正态分布,记为:
X ~ N 0,1
2. 2分布
如果从标准正态分布N(0,1)的总体中得
限分布形式.
如果t~t(n),则 t 2 ~ F 1, n
如果 F ~ F n1, n2 ,则
1 F
~
F n2 , n1
F分布在回归方程的显著性检验中具有重要 作用.
5.自由度
❖ 定义:是指可以自由取值的数据的个数,或者指 不受任何约束,可以自由变动的变量的个数.
❖ 在回归分析中,回归方程的显著性检验用到残 差平方和.确定残差平方和的自由度的一般方 法是:
到的n个随机变量分别为 X1, X 2 ,, X n
时,则由
X
2 i
得到的分布叫做自由度为n
的 分布,记为 2
X ~ 2 n
2分布的数学期望和方差分别为
EX n, DX 2n
2分布与N(0,1)分布之间有如下关系:
设 X1, X 2,, X n
是相独立的随机变量,
并 X i ~ N 0,1,i 1,2,,则n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t分布与正态分布:
当k增大时,t分布的方差接近于标准正态分布方 差值1。 例如:当k=10时,t分布的方差为10/8=1.25;
当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正 态分布。 注意:对于t分布,不要求其样本容量很大, k=30时,t分布与正态分布已很近似。
2.1 样本均值的概率密度
例:已知正态分布的均值为10,方差为4,即 N(10,4)。现在从这个正态总体中抽取20个随机样 本,每个样本包括20个观察值,对抽取的每一个样 本,得到其样本均值,因此,共有20个样本均值。
来自N(10,4)的20个样本均值
9.641 10.321 9.740 9.765 10.134 10.480 9.739 10.334 10.040 9.504 9.937 10.410 求和=201.05 10.249 11.386 10.184 10.57 9.174 8.621 10.250 10.57
2.3 中心极限定理
引言:从正态总体中抽样,其样本均值
服从正态分布,那么,如果从其他总体 中抽样,情况如何呢?
中心极限定理:如果X1,X2,…,Xn是
来自(均值为,方差为² )任一总体的 随机样本,随着样本容量的无限增大, 其样本均值趋于正态分布,其均值为, 方差为² /n。
§3、 ² 分布
X 20 X 20 Z ~ N (0,1) 0.4 4 25
_
_
Z服从标准正态分布,求:
21 20 P( X 21) P( Z ) P( Z 2.5) 0.4
_
查标准正态概率密度表得:
P( Z 2.5) 0.0026
即每消耗一加仑汽油所行驶的平均距离
大于21英里的概率为0.0026。
⑷
正态分布可由两个参数,² 来描 述,即一旦知道,² 的值,就可以根 据附录表查到随机变量X落于某一区 间的概率值。 两个(或多个)正态分布随机变量 的线性组合仍服从正态分布。该性质 很重要,解释如下:
正态分布的偏度为0,峰度为3。
⑸
⑹
2 X ~ N ( X , X ) 令: 2 Y ~ N ( Y , Y )
可以证明: 样本方差与总体方差的比值 与自由度(n-1)的积服从自由度为(n-1)的
² 分布。公式表示为:
S (n 1) ~ (n 1)
2 2 2
其中,² 为总体方差,S² 为样本方差,
样本容量为n。
§4、 t分布
回忆:若样本均值 X ~ N ( ,
一些重要的概率分布
§1、正态分布
§2、样本均值的抽样分布或概率分布
§3、 x² 分布
§4、 t分布
§5、 F分布 §6、 x² 分布、 t分布、 F分布与正态分布
的关系
§1、正态分布
1.1
什么是正态分布?
对于连续型随机变量而言,正态分布是最
重要的一种概率分布,其形状似“钟型”。
经验表明:对于其值依赖于众多微小因素
Z ~ N(0,1 )
任一给定均值和方差的正态变量都可转化为标准正 态变量,将其标准化可以大大简化计算。
例:变量X表示面包房每日出售的面包量,假 定它服从均值为70、方差为9的正态分布,即 X~(70,9),求任给一天,出售面包数量大于75 条的概率。 首先,定义变量Z,Z=(75-70)/3≈1.67 求:P(Z>1.67) 查正态分布表得: P(0≦Z≦1.67)=0.4525 则:P(Z>1.67)=0.5-0.4525=0.0475 即每天出售面包的数量超过75条的概率为 0.0475。
k=120(正态) K=20 K=5
0 不同自由度下的分布
t分布的性质
⑴ t分布与正态分布相类似,具有对称性。 ⑵ t分布的均值与标准正态分布均值相同, 为0,但方差为k/(n-2)。由此,在求t分布的 方差时定义自由度必须大于2。 标准正态分布的方差等于1,因此,t分布方 差总大于标准分布的方差,也就是说,t分布 比正态分布略“胖”些。
3.1
何谓² 分布?
² 分布是统计学中常用的一种概率分布,它与正
态分布很相似。 统计理论证明:标准正态变量的平方服从自由度 为1的² 分布,用符号表示为,
Z x
2
2
(1)
其中,Z是标准正态变量,即Z~N(0,1); x² 的下 标(1)表示自由度。自由度是指平方和中独立观察 值的个数。因为我们考虑的是一个标准正态变量 的平方,故自由度为1。
根据上述公式,得:
E(W)=2E(X)+2E(Y)=500
Var(W)=4Var(X)+4Var(Y)=580
因此,W服从均值为500,方差为580的正态分布,即
W~N(500,580)
1.3 标准正态分布
由于期望和方差的不同,正态分布之间会存在一定 的区别(见下图),如何将其简单化,从而引入标
来自N(10,4)总体的20个样本均值的分布
样本均值
理论依据:
若X1,X2,X3,…,Xn是来自于均值为, 方差为² 的正态总体的一随机样本。则样本 均值 也服从正态分布,其均值为,方差 为² /n,即:
X ~ N ( ,
_
2
n)
也就是说,样本均值 的抽样(或概率) 分布,同样服从正态分布。
假定X和Y相互独立,设a、b为常数, 考虑线性组合:W=aX+bY 则有:
2 W ~ N ( w , w )
其中, w a x b y
2 2 2 2 2 w a x b y
例:令X表示在曼哈顿非商业区一花商每日出售玫瑰花数 量,Y表示在曼哈顿商业区一花商每日出售玫瑰花的数量, 假定X和Y均服从正态分布,且相互独立。已知: X~N(100,64),Y~N(150,81),求两天内两花商出售玫瑰花 数量的期望和方差。 W=2X+2Y
t分布表的使用:
例:自由度为10,P(t>1.812)=P(t<-1.812)=0.05 P(︱t︱>0)=P(t>1.812)+P(t<-1.812)=0.1
0.05
0.05
-1.812
0
1.812
t分布表举例:
例:变量X表示面包房每日出售的面包量, 在15天内,出售面包的样本方差为16。假 定真实的出售量为70条,求任意15天内出 售面包平均数量为74条的概率。 分析:本例中已知样本方差S² =16,则S=4, 总体均值(真实的出售量)=70,运用t变量 公式得: 74 70 t 3.873 4 15
按照上述步骤,首先运用t变量公式,求出 t变量。
72 70 t 1.936 4 / 15
查t分布表,当自由度为14时,t值大于等于 1.761的概率为0.05,大于等于2.145的概率为 0.025,因此,t值取1.936的概率介于0.025与 0.05之间。
查t分布表的注意事项:
⑴ 自由度为(n-1),而不是n。
_ 2
n) ,则
变量Z服从标准正态分布。
X 即: Z ~ N (0,1) n
_
假定已知和² 的估计量S² ,则可以 用样本标准差(S)代替总体标准差 (),得到一个新的变量t。
X t S n
_பைடு நூலகம்
根据统计理论得知:变量t服从自由度为 (n-1)的t分布。 注意:在这里,自由度为(n-1),而不是n。 结论:从正态总体中抽取随机样本,若该 正态总体的均值为,但方差² 用其估计 量S² 来代替,则其样本均值服从t分布。 通常用符号tk表示,其中k表示自由度。
正态曲线下的区域示意图
68%(近似) 95%(近似) 99.7%(近似)
-3
-2
-
2
3
1.2 正态分布的性质:
⑴ 正态分布曲线以均值为中心,对称分布。 ⑵ 正态分布的概率密度函数呈中间高、两边 低,在均值处达到最高,向两边逐渐降低, 即随机变量在远离均值处取值的概率逐渐变 小。 ⑶ 正态曲线下的面积约有68%位于± 两 值之间;约有95%面积位于±2之间;约有 99.7%的面积位于± 3之间。这些区域可用 作概率的度量。
且每一因素均产生微小的或正或负影响的 连续型随机变量来说,正态分布是一个相 当好的描述模型。如身高、体重、考试成 绩等。
为了方便,通常用:
X ~ N ( , 2 )
表示随机变量X服从正态分布。 符号~表示随机变量服从什么样的分布; N表示正态分布; ,² 为正态分布的(总体)均值(或期望)和 方差。 X是一个连续型随机变量,可在区间(-∞,+∞) 内任意取值。
现在令Z1,Z2,…,Zk为k个独立的标准正态变 量(即每一个变量都是均值为0,方差为1的正 态变量),现在对所有的变量Zs平方,则它们 的平方和服从自由度为k的X² 分布,即
Z Z Z Z ~ x
2 2 2 2 i 1 2 k
2
(k )
公式里的自由度为k,因为在所有变量的平方 和中,有k个独立的观察值。
2.2 样本均值概率分布的标准正态变量:
X Z n
将样本均值的概率密度转化为标准正态 分布后,可以从标准正态分布表中计算 某一给定样本均值大于或小于给定的总
_
体均值的概率。
例:令X代表某一型号汽车每消耗一加仑汽油所 行驶的距离(英里)。已知X~(20,4)。则对于由 一个25辆汽车组成的随机样本,求:每消耗一 加仑汽油所行驶的平均距离大于21英里的概率。 分析:由于X服从均值为20,方差为4的正态分 布,则样本均值也服从正态分布,其均值为20, 方差为4/25。那么,