古典线性回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率(Probability)对于一个随机事件A,用一个数P (A)来表示该事件发生的可能性大小,这个数P(A) 就称为随机事件A的概率,因此,概率度量了随机事 件发生的可能性的大小。 概率的定义 定义在事件域F上的一个集合函数P称为概率,如果 它满足如下三个条件: (i)P(A)≥0,对一切 F (ii)P(Ω)=1; P A A F (iii)若 ,i=1,2…,且两两互不相容,则 P( A ) 性质(iii)称为可列可加性(conformable addition) 或完全可加性。

某工厂用机器生产商品,当机器运转正常时,产品 合格率为98%,当机器发生故障时,产品合格率为 55%。每天开工的时候,机器运转正常的规律为95%。 已知某日早上第一件产品为合格品,则机器调整良 好的概率是多少? A:机器运转正常。B:合格品

P( A | B) P( AB) P( B | A) P( A) P( B | A) P( A) P( B) P( B) P( B | A) P( A) P( B | A) P( A)

由这个定义,其取值一定在-1和1之间。如果X和Y是相互独 立的,那么ρXY =0。如果Y=aX+b,这里a,b是不等于0的常数, 那么|ρXY|=1,此时,我们说X和Y是完全相关的。X和Y的值越 接近线性关系,|ρXY|值接近1。

相关系数=0能证明两个变量 不相关吗? 什么情况下等于1,什么情 况下等于-1?
3000
1500
2000
2500

a=5250,b=-800
回归的本质就是寻找y的平均值(在x的条 件下)
3
3.5 s w
4 Fitted values
4.5

所有问题都可以用OLS吗? 当然是可以的,但是用OLS总是最好的选择吗?
1)无偏估计 定义 一般地,如果T(X)是未知参数θ的一个估计量, E T ( X ) , 对一切 且满足下面的关系式, 则称T(X)是θ的无偏估计。
1)两个事件的独立性 定义 对事件A及B,若 P(AB)=P(A)P(B) 则称它们是统计独立的,简称独立的。 当A,B两个随机事件独立时,P(A|B)与P(A)什 么关系?P(B|A)与P(B)什么关系? 推论1 若事件独立,且P(B)>0,则 P(A|B)=P(A) 推论2 若A,B独立,则A,B的所有函数都独立。

所有的经济学观测数据都是随机变 量,都是随机的!
随机变量的分布函数

离散型随机变量:有些随机变量,它全部可能取 到的不同的数值是有限个或者可列无限多个,这 种变量称为离散型随机变量。 连续型随机变量:有些随机变量,它的全部可能 取值充满一个区间,无法一一列举,这种变量称 为连续型随机变量。举例?

dL 0 da 2*(2000 a b *3.5) 2(1500 a b*4.5) 2(3000 a 3b) 2(2500 a 4 b) 0
dL 0 ds 3.5*(2000 a b *3.5) 4.5(1500 a b*4.5) 3(3000 a 3b) 4(2500 a 4 b) 0
g ( x) f ( x) E[ g ( X )] x g ( x) f ( x)dx

当X是离散型时 当X是连续时
E[Y ] g ( x1 , x2 ,, xn ) f ( x1 , x2 ,, xn )dx1dx2 dxn
我们可以用同样的方法定义多元随机变量的函数的 数学期望。假设随机变量X1,X2,…Xn的联合概率密 f ( x , x ,, x ) , Y g ( X 1 , X 2 ,, X n ) ,那么 度函数为
为什么要求平方 的期望?

可见,方差是协方差的特例
证明?
var[a0 a1 X 1 an X n ] ai2 var(X i ) 2 ai a j cov(X i , X j )
i j
特别地,有
var(a0 a1 X 1 ) a12 var(X 1 )
协方差用于衡量两个变量的相关性存在一个缺点: 与度量单位有关,设想两个变量都扩大n倍,协方差 会如何变? 为了弥补上述缺陷,引入相关系数的概念:

离散型随机变量的分布函数
要掌握一个离散型随机变量X的统计规律,必须 且只需知道X的所有可能取的值及每一个可能的概 率。 P{X=xk}=pk,k=1,2…… 比如(0-1)分布:随机变量X只可能取0,1两个数 值,它的分布律是: P{X=k}=pk(1-p)1-k, k=0,1

连续型随机变量的分布函数
E( X i ) i , var(X i ) i2 , cov(X i , X j ) ij
2)有效估计 定义 对两个无偏估计量ˆ1和ˆ2,若 ˆ1 的方差小于 ˆ2 的 ˆ )<Var(ˆ ) ,则称 ˆ ˆ 更有效。 Var( 方差,即 2 1比 2 1 判别方式:在多数情形中,比较基于两个估计量的协 方差矩阵,若 是非负定矩阵,则 ˆ1比ˆ2 更有 效。


连续型随机变量的概率密度

对于随机变量X的分布函数F(x),存在非负函数 f(x),使得对于任意实数x有
F (x)




x
f (t )dt
称f(x)为X的概率密度函数,简称概率密度。 f(x)具有以下性质:
f(x)≥0
P(x1 X x 2) F(x 2) F(x1) f ( x)dx
这个VAR的意思是协方差矩 阵,因为有多个解释变量, 估计量 ˆ 必然是一个向量。 1 求向量的方差有协方差矩阵
随机向量的协方差矩阵

X X 2 X n
对于随机向量而言,我们可以相似地定义它的期 望和协方差矩阵。用X表示随机变量组成的向量, 即 X 1


i
i 1
iห้องสมุดไป่ตู้
i 1
i
推论1:对任何事件A有 ; P( A) 1 P( A) 推论2:不可能事件的概率为0,即 P( ) 0 推论3: P( A B) P( A) P( B) P( AB) 2、条件概率(Conditional Probability) P( AB) P ( A / B ) 如果P(B)>0,记 P( B) ,称P(A|B)为在事 件B发生的条件下事件A发生的条件概率。
贝叶斯公式在概率论和数理统计中有着多方面的应 用,假定A1,A2,…是导致试验结果的“原因”,P (Ai)称为先验概率,它反映了各种“原因”发生的 可能性大小,一般是以往经验的总结,在这次试验 前已经知道,现在若试验产生了事件B,这个信息将 有助于探讨事件发生的“原因”,条件概率P(Ai|B) 称为后验概率,它反映了试验之后对各种“原因” 发生的可能性大小的新知识。 贝叶斯公式说明人类在判断事情的时候很难彻底根 除“先入为主”
一个直观的想法是:找到b1,b2,b3……bk,使得 Yi-(b1*Xi1+b2*Xi2+……bk*Xik)(i=1,……n)尽量的小 i有n个,怎样体现“尽量的小”? e1^2+e2^2+e3^2+……ek^2最小。为什么要平方? 用这种方法来估计未知参数就叫普通最小二乘法 (OLS)ordinary least square

1、随机变量(Random Variable) 在作随机实验时,人们常常不是关心实验结果本身, 而是对实验结果联系的某个数感兴趣。所以我们将 随机实验的结果与实数对应起来,将随机实验的结 果数量化,引入随机变量的概念。 比如:抛硬币随机实验,一共抛10次,统计出现正 你还能举出哪些随机变量的实例? 面的次数Z与反面次数F, Z与F是两个变量且其数值 是随机的,服从一定的概率分布,这种取值是随机 的变量就可以理解为是随机变量。 比如用Y表示某天的缺勤人数,用W记某地区一天 的降雨量,用Z表示某工厂一天的耗电量,用N表示 某医院一天的挂号人数……
那么x的期望值为??????nxijjiiiiixxxxecovvar2????????????????????????nnxexexexe??2121?我们定义一个随机向量x的协方差矩阵covariancematrix如下cov??xexxexex?????????????????????????????22211222221122112211211nnnnnnnnnnxxxxxxxxxxxxxxxe?????????covcovvarxxxxx?????????????varcovcovcovvarcovcovcovvar1122121211nnnnnxxxxxxxxxxxxxxx?????????????????????22122222111221nnnnn???????这个矩阵有什么特征

设某一随机变量X为连续型随机变量,那么它取某 一特定的数值k的概率等于多少?P(X=k)=? >0,<0,=0,=k/x

由于自然界误差的存在以及连续型随机变量取值连 续的特点,我们对连续型随机变量取某一点的概率 不感兴趣,理论上也可证明,任何的连续型随机变 量P(X=k)=0
我们只对连续型随机变量的值落在某个区间的概率 感兴趣:P{x1<X<x2}. 因为P{x1<X≤x2}=P{X<x2}P{X<x1}。所以,我们只需要知道P{X<x2}和P{X<x1}就 可以了。 定义:设X是一个随机变量,x是任意实数,函数 F(x)=P{X≤x}称为X的分布函数。 P{x1<X≤x2}怎么用分布函数来表示?
全概率公式与贝叶斯(Bayes)公式

设事件A1,A2,…,An……是样本空间Ω的一个分割, 即AiAj=φ,i≠j,而且: A。
i 1 i
P( B) P( Ai B) P( Ai ) P( B | Ai )
i 1 i 1



由于
P( Ai B) P( B) P( Ai | B) P( Ai ) P( B | Ai )
假设我们现在要用k个解释变量去解释y,而且也取 到了样本容量为n的数据,这 n个样本也满足iid。并 几个方程,需要计算几个未知数? 且假设解释变量与被解释变量之间为简单的线性关 系

假设样本容量有n,一共有k个解释变量。那么我们 要估计的系统是:

Y1=b1X11+b2X12+……bkX1k+e1 Y2=b1X21+b2X22+……bkX2k+e2 …… Yn=b1Xn1+b2Xn2+……bkXnk+en


f ( x)dx 1
x2
F ( x) f ( x)
x1

假设某随机变量X的概率密度函数的曲线如下图 所示,求该曲线与坐标轴围成的阴影部分面积
f(x)
x1
x2
随机变量的独立性
独立和不相关哪个概念更强?

假设两个射击运动员的成绩如下: 甲:8,8,8,8,8 乙:8,6,7,9,10 哪一个更优秀?

P( AB) P( A) P( B / A) P( B) P( A / B)

推广后的乘法原理:
P( A1 A2 An ) P( A1 ) P( A2 / A1 ) P( A3 | A1 A2 )P( An | A1 A2 An1 )
1 2 n
利用这个定义我们可以得到下列结果 (1)如果a0,a1…,an是常数,那么 E[a0 a1 X 1 an X n ] a0 a1 E[ X 1 ] an E[ X n ]



(2)如果X1,X2…,Xn是相互独立的随机变量,那 么 证明?
E[ X 1 X 2 X n ] E[ X 1 ]E[ X 2 ]E[ X n ]

期望符号
有时候我们对随机变量的兴趣只在于其平均值以及 对平均值的偏离程度 一个简单的例子:某人投篮得0分的概率是1/4,得2 分的概率是2/4,得3分的概率是1/4,求他平均一次 投篮的得分。 随机变量的概率密度 函数 K1*p1+k2*p2+k3*p3

常用的连续概率分布
作业:证明自由度为k的t分布,平 方之后服从F分布。


例:教育回报的例子。W=a+b*s+e。有如下4个 样本点数据:
w 2000
1500 3000 2500
s 3.5
4.5 3 4
用最小二乘法估计a,b就是找a,b的数值使得哪个 式子最小? L=(2000-a-b*3.5)^2+(1500-a-b*4.5)^2+(3000-a3*b)^2+(2500-a-4*b)^2 怎么求?
相关文档
最新文档