最新02一元线性回归模型
2一元线性回归模型
E( y | x) 0 1x
总体回归函数(population regression function PRF)E( y | x) 0 1x ,是x的一个线性函数。
这样y就分成两部分, 0 1x 称为的系统部分;u称为非 系统部分。
样本回归函数
样本回归函数(sample regression function, SRF)
同方差性和异方差性
同方差性和异方差性
正(负)序列相关及零相关
最小二乘法的基本假定
假定6:ui和Xi的协方差为零。 cov(ui , Xi ) E[ui Eui ][ Xi EXi ] E[ui (Xi EXi )] E(ui Xi ) 0
假定7:观测次数n必须大于待估计的参数个数。 假定8:X值要有变异性。 假定9:正确地设定了回归模型。
可得 Y ˆ0 ˆ1X 。
(2)估计的Y(= Yˆi )均值等于实测的Y的均值,因为 Yˆi ˆ0 ˆ1Xi (Y ˆ1X ) ˆ1Xi Y ˆ1(Xi X )
等式两边对样本值求和再除以样本容量n得:Yˆ Y
(3)残差 uˆi 的均值为零。因为由最小二乘法得
2 (Yi ˆ0 ˆ1Xi ) 0
不会!
其均值的变异,称为解释平方和(Explained Sum of
Squares, ESS )。
uˆi2 (Yi Yˆi )2 为残差或未被解释的围绕回归线的Y值的
变异,称为残差平方和(Residual Sum of Squares,
RSS ).
TSS=ESS+RSS 这说明总变异由两部分组成:
定义 r2 ESS (Yˆi Y )2
TSS
(Yi Y )2
于是
r2
计量经济学第二章--一元线性回归模型
2 、同方差假定:每一个随机误差项的方差为常数,即:
经 济
Var(Yi ) Var(i ) 2 (常数)
学
该假定表明:给定X对应的每个条件
分布都是同方差的,每个Y值以相同
的分布方式在它的期望值E(Y)附近波
动
10
3、无自相关假定:任意两个随机误差项之间不相关,用数学
形式表示为:
Cov(i, j ) E (i E(i ))( j E( j )) 0
)
xiYi Y xi2
xi
xi 0
bˆ1
xiYi xi2
(bˆi
x12
x1Y1 x22
xn2
x12
x2Y2 x22
xn2
...
x12
xnYn x22
xn2
)
19
令
ki
xi xi2
则
bˆi
kiYi
(1) k i
(
xi xi2
)
xi xi2
0
计 量 经 ki的性质 济 学
2 n
2k1k21 2
2kn1kn n1 n
)
量
经
k12
E
(12
)
k22
E
(
2 2
)
kn2
E
(
2 n
)
2k1k2
E
(1
2
)
2kn
1kn
E
(
n1
n
)
济
学 由古典线性回归模型的假定可知,对每一个随机变量,有
E(i2) 2, E(i j ) 0(当i j时)
Var(bˆ1)
k12 E (12
计量经济学第2章 一元线性回归模型
15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)
02第二章一元线性回归模型
④相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量 的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
2. 回归分析的基本概念
• 回归分析(regression analysis)是研究一个变量 关于另一个(些)变量的具体依赖关系的计 算方法和理论。
• 相应的函数:
E(Y|Xi)f(Xi)
称为(双变量)总体回归函数(population regression function, PRF)。
• 含义:回归函数(PRF)说明被解释变量Y的平 均状态(总体条件期望)随解释变量X变化的 规律。
• 函数形式:可以是线性或非线性的。
• 例2.1中,将居民消费支出看成是其可支配收入 的线性函数时:
第二章 经典单方程计量经济学模型: 一元线性回归模型
• 回归分析概述 • 一元线性回归模型的参数估计 • 一元线性回归模型检验 • 一元线性回归模型预测 • 实例
§2.1 回归分析概述
一、变量间的关系及回归分析的基本概念 二、总体回归函数(PRF) 三、随机扰动项 四、样本回归函数(SRF)
一、变量间的关系及回归分析的基本概念
Yi 01Xii i=1,2,…,n
Y为被解释变量,X为解释变量,0与1为待估 参数, 为随机干扰项
• 回归分析的主要目的是要通过样本回归函数(模型) SRF尽可能准确地估计总体回归函数(模型)PRF。
• 问题:寻求一种规则和方法使其得到的SRF的参数B1和 B2更可能“接近”总体回归函数中的参数B1和B2的真 实值
E (Y |X i)01 X i 总体回归方程
一元线性回归的模型
一元线性回归的模型
一元线性回归模型表示如下:
yt = β0 + β1 xt +ut(1)上式表示变量yt 和xt之间的真实关系。
其中yt 称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,β0称作常数项(截距项),β1称作回归系数。
在模型(1) 中,xt是影响yt变化的重要解释变量。
β0和β1也称作回归参数。
这两个量通常是未知的,需要估计。
t表示序数。
当t表示时间序数时,xt和yt称为时间序列数据。
当t表示非时间序数时,xt和yt称为截面数据。
ut则包括了除xt以外的影响yt变化的众多微小因素。
ut的变化是不可控的。
上述模型可以分为两部分。
(1)β0 +β1 xt是非随机部分;(2)ut是随机部分。
02一元线性回归模型
xi xi2 Yi
o
Wi Yi
1
n
X
xi
xi 2
Yi
证: βˆ1
xi yi xi2
xi (Yi Y ) xi2
xiYi Y xi
xi2
xi2
令ki
xi
xi2
,因xi
(Xi
X)
0 ,故有
使偏导数为零
(
e2 i
)
o
2(Yi
o
1 Xi)
0
(
e2 i
)
1
2(Yi
o
1 Xi) Xi
0
得正规方程
Yi = nβo + β 1 Xi XiYi = β o Xi + β 1 Xi2
解得
1
X iYi nXY
14
800
1000
1200
1400
1600
x
y
Fitted values
OLS估计结果:Yˆi 10.7662 0.0051X i (第2版教材第17页)
(第3版教材第15页)
2.3 最小二乘估计量的统计性质
一、线性性
线性特性是指估计式 β^o 和 β 1^是Yi 的线性函数。
1 Ki Yi
如此以来,高的越来越高,矮的越来越矮。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男子的平均身高,即“回归”—— 见1889年F.Gallton的论文《普用回归定律》。
一元线性回归模型的参数估计
斜率(β1)
表示 x 每变化一个单位,y 平均变化的数量。
一元线性回归模型的假设
线性关系
因变量 y 和自变量 x 之间存在线性关系。
误差项独立
误差项 ε 之间相互独 立,且与 x 独立。
误差项的正态性
误差项 ε 的分布是正 态的。
误差项的无偏性
误差项 ε 的期望值为 0,即 E(ε) = 0。
有限的方差
回归分析的分类
一元回归分析
研究一个自变量和一个因变量之间的关系。
多元回归分析
研究多个自变量和一个因变量之间的关系。
线性回归模型
线性回归模型是一种常用的回归分析方法,它假设自变量和因变量之间存在线性关系,即可以用一条 直线来描述它们之间的关系。
在一元线性回归模型中,自变量和因变量之间的关系可以表示为一条直线,即 y = ax + b,其中 a 是斜 率,b 是截距。
确定样本数据
收集用于估计参数的样本数据。
构建估计量
根据模型和样本数据构建用于估计参数的统计量。
计算估计值
通过计算统计量的值得到参数的估计值。
评估估计质量
通过统计检验和图形方法评估估计的质量和可靠性。
05 模型的评估与检验
模型的拟合度评估
决定系数(R^2)
衡量模型解释变量变异程度的指标,值越接 近1表示模型拟合度越好。
数据整理
将数据整理成适合进行统计分析 的格式,如表格或图形,以便后 续分析。
建立一元线性回归模型
确定自变量和因变量
根据研究问题选择合适的自变量和因变量,确 保它们之间存在一定的关联性。
散点图分析
绘制散点图,观察自变量和因变量之间的关系, 初步判断是否适合建立一元线性回归模型。
2 一元线性回归模型
4、回归分析
(1)“回归”一词的古典意义 英国生物学家F.高尔顿(Francis 遗传学研究中首先提出的。
Galton)在
(2)“回归”一词的现代意义: 回归分析是研究一个被解释变量(或因变量)对一 个或多个解释变量(或自变量)数量依赖关系的数 学分析方法。 目的:通过解释变量的已知值或设定值,去估计被 解释变量的平均值,或分析解释变量变动对被解释 变量产生的影响。
相关关系:非确定现象随机变量间的关系。
函数关系:
圆面积 f , 半径 半径2
欧姆定律(电流C=V/k, V为电压)
相关关系: 农作物产量 f 气温, 降雨量, 阳光, 施肥量
高档消费品的销售量与城镇居民收入之间的关 系 储蓄额与居民收入之间的关系 广告支出与商品销售额 工业增加值与能源消耗量 数学成绩与统计学成绩 „„
问:能否从该样本估计总体回归函数PRF?
可支配收入X 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 消费支出Y 888 1121 1340 1650 2179 2210 2398 2650 3021 3288
回答:of course
该样本的散点图: 样本散点图近 似于一条直线,画 一条直线以尽可能 地拟合该散点图, 由于样本取自总体, 该线可以近似地代 表总体回归线。该 线称为样本回归线
上例
ui Yi -E(Y Xi ) Yi 0 1X i 总体回归函数 Yi 0 1X i ui 个别值表现形式
引入随机扰动项的主要原因: 1、作为未知影响因素的代表
2、作为无法取得数据的已知因素的代表 3、作为众多细小影响因素的综合代表 4、模型的设定误差 5、变量的观测误差 6、变量的内在随机性
一元线性回归模型ppt课件
差e的原因.
例1.(多选)在如图所示的四个散点图,适合用一元线性回
归模型拟合其中两个变量的是( AC ).
例2.在一元线性回归模型中,下列关于Y=bx+a+e的说法正确的是( C )
A.Y=bx+a+e是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这
Y bx a e
(1)
2
E (e ) 0,D(e ) .
追问3.对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
对于父亲身高为的某一名男大学生,他的身高 并不一定为
bxi+a ,它仅是该子总体的一个观测值,这个观测值与均值有一个误
差项ei=yi -(+a).
相关程度较高.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm 174
170
173
169182172180172168
166
182
173
164
180
儿子身高/cm 176
176
170
170
185
176
178
174
170
168
178
172
165
182
问题2.根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以
参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量,其值虽不能由变
量x的值确定,但却能表示为bx+a与e的和,前一部分由x所确定,后一部分是随
第二章一元线性回归模型
;
(c)比较绝对值 t1 与 tα 2 的大小。若 t1 > tα ,则拒绝原假设,判 定 β1 ≠ 0 ,解释变量 x 解释功效显著;若 t1 < tα ,则接受原假设,
2
判定
, x β1 = 0 不是有效的解释变量。
§2.3 显著性检验
(三)一元线性回归模型示例 例2.1 y=JYL,x=DSCYCZZZL,
ˆ β1 = β1 + ∑
xi − x u 2 i ∑(xi − x)
ˆ Eβ0 = β0
ˆ Eβ1 = β1
OLS估计的统计性质 §2.2 OLS估计的统计性质
在一切线性无偏估计中, ˆ ˆ 3. 在一切线性无偏估计中, β0 , β1独具最小方差
1 x2 ˆ var(β0 ) =σ 2 ( + ) 2 n ∑(xi − x)
0 ≤ R2 ≤ 1
2 R2 = rxy
计算公式
ˆ β12 ∑(xi − x)2 2 R = ∑( yi − y)2
OLS估计的统计性质 §2.2 OLS估计的统计性质
(一)线性回归模型的基本假定:
假定1. 解释变量是确定性变量,不具有随机性 假定2. (零均值假定) 假定3. (同方差假定)
Eui = 0 , i = 1 ,2 ,L, n
y = β0 + β1x + u
yi = β0 + β1xi + ui
{yi , xi }
i =1 ,2 ,L, n
i =1 ,2 ,L, n
§2.1 普通最小平方估计
(一)普通最小平方估计(OLS) 普通最小平方估计 待定回归函数 残差 残差平方和 驻点条件
ˆ ˆ ˆ y = β0 + β1x
02一元线性回归模型
一元线性回归模型1.一元线性回归模型有一元线性回归模型(统计模型)如下,y t = 0 + 1 x t + u t上式表示变量y t 和x t之间的真实关系。
其中y t 称被解释变量(因变量),x t称解释变量(自变量),u t称随机误差项,0称常数项,1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t) = 0 + 1 x t,(2)随机部分,u t。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
随机误差项u t中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。
回归模型存在两个特点。
(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。
(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。
通常线性回归函数E(y t) = 0 + 1 x t是观察不到的,利用样本得到的只是对E(y t) = 0 + 1 x t 的估计,即对0和1的估计。
在对回归函数进行估计之前应该对随机误差项u t做出如下假定。
(1) u t 是一个随机变量,u t 的取值服从概率分布。
第2章一元线性回归模型2
• 因此,解释变量X对被解释变量Y具有影 响
2020/6/18
案例分析
• 工资 • 被解释变量:工资(1976年每小时美元数
) • 解释变量:教育(年数) • 计量模型:
• wage = 0 + 1 educ +
• t=10.17 • 问题:如何对待稻草人假设?
2020/6/18
2020/6/18
复习
第2章(1)思考题: • 1、回归分析中的变量有何特点? • 2、被解释变量的两个组成部分的含义是什么
? • 3、刻划被解释变量的两个参数分别是什么? • 4、样本回归模型与总体回归模型有何区别? • 5、最小二乘估计法的核心思想是什么? • 6、回归模型参数的估计量是什么?
t
ˆ 1 se (ˆ 1 )
(3)给定显著性水平a,查t分布表,得临界值c=t a/2(n-2)
(4) 比较,判断
若
若
2020/6/18
|t|> t a/2(n-2),则拒绝H0 ,接受H1 ; |t| t a/2(n-2),则拒绝H1 ,接受H0 ;
简易判断法则
• 当n > 30时,t分布近似于正态分布 • 给定显著性水平为5%,临界值c约为2 • 如果t的绝对值大于2,就可以拒绝稻草
解释变量的显著性
Y i 01X ii
• 如果1等于零,则X对Y没有影响
• 1的估计值不等于零
• 但是
• 1真的不等于零吗?
• 问题: • 如何说服我们相信你高考的数学成绩不 是零分? 2020/6/18
1、假设检验概述
•假设检验采用的逻辑推理方法是反证法。
先假定原假设正确,然后根据样本信息,观察由 此假设而导致的结果是否合理,从而判断是否接受 原假设。
高中数学(新人教A版)选择性必修二:一元线性回归模型、一元线性回归模型参数的最小二乘估计【精品课件】
0.177 9
0.094 9
-1.071 1
^
e=
^
y-y
残差图如图所示.
由图可知,残差比较均匀地分布在横轴的两边,说明选用的模型比较合适.
(4)计算得R2≈0.985 5.说明拟合效果较好.
反思感悟(1)解答本类题目应先通过散点图、样本相关系数来分析两个变
量是否线性相关,再利用求经验回归方程的公式求解经验回归方程,并利用
归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘
^ ^
法,求得的b, a叫做 b,a 的最小二乘估计.
n
^
∑ (x i -x)(y i -y)
b = i=1n
2
∑ (x i -x)
其中
,
i=1
^
^
a = y-bx.
回归直线过样本点的中心(x, y)
2.残差与残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到
2
∑ 2 -
=1
^
^
, = −Biblioteka )解 (1)散点图如图:
(2)由(1)中散点图可知 y 与 x 线性相关.
4
因为 ∑ xiyi=6×2+8×3+10×5+12×6=158,
=1
6+8+10+12
2+3+5+6
x=
=9,y =
=4,
4
4
4
∑ 2 =62+82+102+122=344,
2.67
由z=ln ae0+xln b及最小二乘法,得
ln b≈0.047 7,ln ae0≈2.378,
一元线性回归模型及参数估计
步骤:收集数据、建立模型、 计算参数、评估模型
优点:简单易行,适用于线 性回归模型
最大似然估计法
定义:最大似然 估计法是一种基 于概率的参数估 计方法,通过最 大化样本数据的 似然函数来估计
参数。
原理:利用已知 样本数据和概率 分布函数,计算 出样本数据出现 的概率,然后选 择使得概率最大 的参数值作为估
参数估计的性质
无偏性
定义:参数估计量是 无偏估计时,其期望 值等于参数的真实值。
性质:无偏性是线性 回归模型参数估计的 最基本性质之一,是 评价估计量优劣的重 要标准。
证明:可以通过数学 推导证明无偏性,具 体过程可以参考相关 教材或论文。
应用:在回归分析中, 无偏性可以保证估计 的参数具有最小误差, 从而提高预测的准确 性和可靠性。
计值。
优点:简单易行, 适用于多种分布 类型的数据,具
有一致性。
局限:对样本数 据的要求较高, 当样本数据量较 小或分布不均时, 估计结果可能不
准确。
最小绝对误差准则
定义:最小化预测值与实际值之间的绝对误差
优点:对异常值不敏感,能够更好地处理数据中的噪声和异常值
缺点:可能导致模型过于复杂,过拟合数据 应用场景:适用于预测连续变量,尤其是当因变量和自变量之间的关系是 非线性的情况
行处理。
处理方法:包括 删除不必要的自 变量、合并相关 性较高的自变量、 使用其他模型等
方法。
模型预测与决策应用
预测未来趋势
利用一元线性回 归模型预测未来 趋势
模型参数估计的 方法和步骤
预测结果的解读 与决策应用
模型预测的局限 性及改进方法
制定决策依据
利用回归方程进行 预测
ห้องสมุดไป่ตู้
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
02一元线性回归模型经济学参考书目:1、高鸿业,《西方经济学:微观部分(第三版)--21世纪经济学系列教材》,《西方经济学:宏观部分(第三版)--21世纪经济学系列教材》,中国人民大学出版社,2005年1月。
《西方经济学学习与教学手册(21世纪经济学系列教材)》,中国人民大学出版社,2005年6月。
2、高鸿业、刘凤良,《20世纪西方经济学的发展》,商务印书馆,2004年4月3、尹伯成,《西方经济学简明教程(第5版)》,世纪出版集团、上海人民出版社,2006年3月。
4、伍柏麟、尹伯成,《经济学基础教程--复旦博学·经济学系列》,复旦大学出版社,2002年3月。
5、姚开建、梁小明,《西方经济学名著导读--经济学经典著作读丛书》,中国经济出版社,2005年1月。
6、梁小民,《西方经济学教程(修订版)》,中国统计出版社,2005年12月。
7、方福前,《当代西方经济学主要流派》,中国人民大学出版社,2004年12月。
8、王志伟,《现代西方经济学主要思潮及流派》,高等教育出版社,2004年9月。
数学参考书目:9、赵萍,《经济数学基础及应用---线性代数及概率论》,哈尔滨工业大学出版社,2006年10月。
10、李尚志,《线性代数》,高等教育出版社,2006年5月。
11、卢刚,《线性代数》,北京大学出版社,2006年。
12、陈维新,《线性代数(第2版)》,北京科学出版社,2006年。
13、冉兆平,《微积分》,上海财经大学出版社,2006年。
14、田长生,《概率统计与微积分》,北京科学出版社,2006年。
15、李林曙,《微积分》,中国人民大学出版社,2006年。
16、王雪标、王拉娣、聂高辉,《微积分》,高等教育出版社,2006年。
17、马恩林,《概率论与数理统计》,人民教育出版社,2006年。
18、吴赣昌,《概率论与数理统计》,中国人民大学出版社,2006年。
19、葛余博等著,《概率论与数理统计通用辅导讲义》,清华大学出版社,2006年。
统计学参考书目:20、邢哲,《统计学原理》,中国金融出版社,2006年8月。
21、李荣平,《统计学》,天津大学出版社,2006年。
22、吴梅村,《数理统计学基本原理和方法》,西南财经大学出版社,2006年。
23、曾五一,《统计学》,中国金融出版社,2006年。
24、(美)A.M.穆德、F.A.格雷比尔著、史定华译,《统计学导论》,北京科学出版社,1978年。
补充材料一、随机变量及其数字特征随机变量及其分布的研究是以事件及其概率的研究为基础展开的。
它是统计推断的理论基础。
随机变量定义:按一定的概率取不同实数值的变量称为随机变量,用x, y 等表示。
如(1)天津站每日的客流人数。
(2)某商场日销售电视机台数。
(3)某储蓄所的日存款余额。
(4)某地区居民的日用水量。
(5)高速公路上单位时间内通过的机动车数量。
(6)流水线上生产的罐装啤酒的净重值。
若随机变量x可能取的值为有限个或可列个,则称x为离散型随机变量。
若随机变量x可能取的值是整个数轴,或数轴上的某个区间,则称x为连续型随机变量。
连续型随机变量的概率分布是通过随机变量在一切可能区域内取值的概率定义的。
最常用和最简便的形式是通过概率密度函数表示。
对于随机变量x,若存在非负可积函数f (x),(- ∞ < x < ∞),使对任意实数a, b, (a < b)有P{a≤x≤b} = ⎰badx x f) (则称x为连续型随机变量。
f (x)为x的概率密度函数(简称概率密度或密度)。
由上式知f (x)在[a, b]区间上的积分等于随机变量x在[a, b]区间取值的概率。
研究经济问题为什么还要学习随机变量?因为许多经济问题都符合随机变量的要求。
通过随机变量把经济问题上升到统计理论高度进行研究,有利于找到经济变量变化的一般规律。
1.1随机变量的数学期望对于离散型随机变量x,若有概率分布P{x = x i} = p i, (i= 1, 2, …, )则称∑ix i p i为x的数学期望,简称为期望或均值。
记作E(x)。
对于连续型随机变量x,若密度函数为f (x),则称⎰b adxx xf) (为x的数学期望。
记作E(x)。
期望属于位置特征。
用来描述随机变量取值的集中位置。
体现了随机变量取值的平均大小。
期望就是随机变量取一切可能值的加权平均。
其中的权数就是概率值。
数学期望的性质如下:(1) 常量的期望就是这个常量本身。
E(k) = k(2) 常量与随机变量和的期望等于这个随机变量的期望与这个常量的和。
E(x + k) = E(x) + k(3) 常量与随机变量乘积的期望等于这个常量与随机变量期望的乘积。
E(k x) = k E(x)(4) 随机变量的线性函数的期望等于这个随机变量期望的同一线性函数。
E(k x + c) = k E(x) + c(5) 两个随机变量和(或差)的期望等于这两个随机变量期望的和(或差)。
E(x±y) = E(x) ± E(y)(6) 两个相互独立随机变量乘积的期望等于这两个随机变量期望的乘积。
E(x y) = E(x) E(y)例:5个学生的英语考试分数是80, 70, 85, 90, 82。
则平均考试分数E(x) =590 85828070++++= 81.41.2随机变量的方差、标准差随机变量x对其均值的离差平方的数学期望,E[x - E(x) ]2称作随机变量x的方差。
记作Var(x)。
)(xVar则称作x的标准差。
方差和标准差用来描述随机变量的离散特征。
它们反映了随机变量取值离散程度的大小。
对于离散型随机变量x,方差的定义是Var(x) = ∑(x i - E(x) )2p ii其中p i表示x取x i值时的概率。
对于连续型随机变量x,方差的定义是Var(x) = ⎰∞[x - E(x) ]2f (x) dx∞-其中f (x) 是x的概率密度函数。
注意:(1)Var(x)的量纲是x的量纲的平方。
(2))Var的量纲与x的量(x纲相同。
随机变量方差的性质:(1) 常量的方差为零。
Var(k) = 0(2) 随机变量与常量之和的方差等于这个随机变量的方差。
Var(x + k) = Var(x)其中x为随机变量,k为常量。
(3) 常量与随机变量乘积的方差等于这个常量的平方与随机变量方差的乘积。
Var(k x) = k2 Var(x)其中k为常量。
证明:由方差定义Var(k x) = E[k x - E(k x) ]2 = E[k x - k E(x) ]2 = k2 E[x - E(x) ]2 = k2 Var(x)(4) 随机变量的方差等于这个随机变量平方的期望减其期望的平方。
Var (x) = E(x2) – [E(x)]2证明:由方差定义Var(x) = E[x - E(x) ]2 = E[x2– 2 x E(x) + [E(x)]2] = E(x2) – 2 E(x) E(x) + (E(x))2= E(x2) – (E(x))2(5) 两个相互独立随机变量之和(或差)的方差等于这两个随机变量方差的和。
Var (x y) = Var (x) + Var (y)下面证明随机变量之差情形。
证明:由方差定义Var (x - y) = E[(x - y) – E (x - y) ]2 = E[x - y– E(x) - E (y) ]2= E[(x– E(x) ) - (y - E (y) ) ]2= E[(x– E(x))2 + (y - E (y))2– 2 (x– E(x)) (y - E(y)) ]= Var (x) + Var (y) – 2 E[(x– E(x)) (y - E(y))]其中E (x – E(x)) (y - E(y)) 是随机变量x与y的协方差。
因为x与y相互独立,所以E[ (x– E(x)) (y - E(y))] = 0(见下面第3小节,随机变量的协方差)。
上式的结果是Var (x - y) = Var (x) + Var (y)注意:两个相互独立随机变量差的方差不等于这两个随机变量方差的差。
(6) 由性质(5)有如下结论:若两个随机变量是相互非独立的,其和与差的方差公式是,Var (x + y) = Var (x) + Var (y) + 2 Cov(x, y)Var (x - y) = Var (x) + Var (y) - 2 Cov(x, y)其中Cov(x, y) 表示x与y的协方差(协方差概念见下)。
1.3 随机变量的协方差协方差定义:随机变量x, y分别对其均值的离差乘积的数学期望E [(x - E(x)) (y - E(y))]称作随机变量x , y 的协方差,记作Cov(x, y)。
其中E(x ), E(y )分别表示x , y 的期望。
协方差用来描述两个随机变量关系的紧密程度。
对于离散型随机变量x , y ,协方差定义为Cov(x, y) = ∑∑ij(x i - E(x )) (y j - E(y )) p (x i , y j )其中p (x i , y j ) = P(x = x i , y = y j ) 表示x = x i , y = y j 条件下的概率。
上式是协偏差[ x i - E(x ) ][y j - E(y )]的加权平均。
对于连续型随机变量x , y ,协方差定义为Cov(x , y ) = ⎰⎰∞∞-∞∞-(x - E(x ) ) (y - E(y ) ) p (x , y ) dx dy其中p (x , y )是x , y 的概率密度函数。
当x , y 相互独立时,Cov(x , y ) = 0。
协方差的大小与x , y 的量纲有关。
一般来说,改变x , y 的量纲,则x , y 协方差的值也要改变。
因此协方差所提供的主要信息是正值、负值还是零。
注意:虽然两个变量相互独立,意味着协方差为零,但反过来不一定成立,即协方差为零,该两个变量未必独立(但肯定不存在线性相关)。
二、正态分布2.1 正态分布与标准正态分布正态分布定义:若连续型随机变量x 的概率密度函数为 f (x ) =σπ21exp(-222)(σμ-x )其中μ, σ为常量,σ > 0,则称x 服从正态分布。
记作x ~ N(μ, σ2 )。
μ, σ分别是x 的数学期望和标准差。
可以证明E(x ) = ⎰∞∞-x f (x ) dx =⎰∞∞-xσπ21exp(-222)(σμ-x ) dx = μVar (x ) = ⎰∞∞-(x - μ)2f (x ) dx = ⎰∞∞-(x - μ)2σπ21exp(-222)(σμ-x ) dx = σ 2)(x Var = σ三种不同参数的正态分布曲线见图1。