基本统计分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则称具有异方差性。
X
X
异方差 同方差
异方差(Heteroscedasticity )
异方差性的影响
参数的OLS估计量的不 再具有有效性
E(Y)
Y
通常使用的显著性检验 方法失去效力
X
异方差
异方差(Heteroscedasticity )
异方差性的诊断
图示检验法
e2 e2
图(a)显示与变量之间没 有可观察到的系统模式,表明 模型不存在异方差。
箱线图使用五个数值直观描述变量的分布于离散 状况,显示数据的中位数、分位数和离群值。
箱式图
箱式图 boxplot
将两个或两个以上数值型变量的对应值在坐标系 中用点表示出来,根据点的分布规律判断变量间 的相关性及规律。
散点图
散点图 scatterplot
根据变量累积概率和理论分布累积概率绘制的散 点图,用来直接观测数据分布是否符合指定理论 分布。
OLS原理
我们希望:
Y
ˆ ˆx ˆi y 0 1 i
最大可能的接近 ˆi y yi
也就是说:
2 ˆ ( y y ) i i 尽可能的小
(或者说满足 i 2最小)
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS原理
因为:
Y
ˆ ˆx ˆi y 0 1 i
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS估计的性质
在给定经典回归模型的假定 条件下OLS估计是最优线性无偏 的估计量。 它是线性的; 它是无偏的; 它是有效估计量;
Y
ˆ ˆx ˆi y 0 1 i
样本散点图
X
经典回归模型的估计
一元线性回归模型的估计 多元线性回归模型的估计
ei 2 a0 a1 x1i a2 x2i a3 x1i 2 a4 x2i 2
x
( a) (b)
x
a5 x1i x2i i
H0 : a1 a2 a3 a4 a5 0
e
2
e2
计算统计量nR2
x
( c)
x
(d)
2 nR2 ~( 5)
异方差(Heteroscedasticity )
第 四 步 : 模 型 检 验
第 一 步 : 建 立 模 型
样本
经典回归模型的估计
一元线性回归模型的估计
y 0 1 xi i
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
普通最小二乘法 (Ordinary Least Squares)
描述统计
描述统计就是组织、描述、 总结所收到的一组数据的特 征。 描述统计帮助我们更好的 了解所得数据的信息,是 进行数据分析的一个基本 环节。
集中趋势 描述统计
均值 中位数 众数
离散程度
极小值 极大值 标准差 方差
分布形状
偏度 峰度
Excel做描述统计分析
SPSS做描述统计分析
eviews做描述统计分析
P-P图
P-P图 P-P plot
第一看数据点与直线的重合程度
第二看数据点在水平线周围的波动程度
P-P图 P-P plot
与P-P图原理和作用相似,只是由分位数绘制而 成
Q-Q图
Q-Q图 Q-Qplot
统计图形
主要内容
描述统计
截面数据回归
描述统计
描述统计 (Descriptive statistics)
Excel绘图步骤——以条形图为例
条形图 Bar charts
创意条图
条图 bar
SPSS绘图步骤——以条形图为例
组数据特征值 平行变量特征值 个案值
条形图 Bar charts
简单条图
条形图 Bar charts
分组条图
条形图 Bar charts
分段条图
条形图 Bar charts
饼图
2008年全国各地区城镇居民家庭平均每人全年可支 案例: 样本数据为 配收入和平均每人全年消费性支出,如表1所示。(case2)
表1 2008年各地区城镇居民家庭平均每人全年可支配收入和消费性支出
异方差(Heteroscedasticity )
(一)参数估计
异方差(Heteroscedasticity )
E( y xi ) 0 1xi
第 一 步 : 建 立 模 型
ˆ ˆx ˆi y 0 1 i
样本
回归分析的步骤 总体
第 三 步 : 模 型 估 计 第 二 步 : 数 据
E( y xi ) 0 1xi
第 五 步 : 应 用
ˆ ˆx ˆi y 0 1 i
样本回归线对数据的拟合程度。
度量方法 判定系数R 2
修正判定系数R 2
0
完美的拟合
X
1
普通最小二乘法 (Ordinary Least Squares)
模型检验
k xki i
方程的显著性检验:
E( y xi ) 0 1x1i
总体
1 =2
检验方法
k 0?
F检验 ESS / k F= RSS / n k 1
ˆ )最小的 k
ˆ , ˆ, 满足 i 2最小,即求令多元函数Q( 0 1 ˆ , , ˆ 取值 0 k
满足经典回归模型假定下,多元模型的OLS估计 也是最优线性无偏的估计量。
普通最小二乘法 (Ordinary Least Squares)
模型检验
拟合优度检验:
Y
ˆ ˆx ˆi y 0 1 i
Y
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体回归函数(PRF) Y
E( y xi ) 0 1xi
总体回归模型 y E ( y xi ) i
1 xix y 0 0 i i 1 i
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
简单饼图
饼图 pie
复合饼图
饼图 pie
创意饼图
饼图 pie
SPSS绘制饼图
饼图 pie
线图多用来显示现象随时间的连续变动趋势
线图
简单线图
线图 line
差异数据的多线图
线图 line
直方图是用以描述一组变量频数分布的图形,可 以显示数据分布是否对称或符合正态分布。
直方图
直方图 histogram
样本 ˆ ˆx ˆ y 0 1 1i
ˆ x k ki i
P值
普通最小二乘法 (Ordinary Least Squares)
模型检验
k xki i
变量的显著性检验:
E( y xi ) 0 1x1i
总体
i =0?
检验方法
t检验 ˆ i t= ˆ) se(
Y
第 一 步 : 建 立 模 型
样本
80
X
回归分析的步骤
Y
第 一 步 : 建 立 模 型
样本
X
回归分析的步骤 样本回归函数(SRF) Y
ˆ ˆx ˆi y 0 1 i
样本回归模型
i
第 一 步 : 建 立 模 型
ˆ ˆ x yi 0 1 i i
X
回归分析的步骤 总体
i
样本 ˆ ˆx ˆ y 0 1 1i
ˆ x k ki i
P值
普通最小二乘法 (Ordinary Least Squares)
报告回归分析结果
ˆi 373.04 0.29 xi y t (1.51) r 0.5186
2
案例分析: 建立一元线性回归模型,分 析农业产出的影响因素。 数据资料:2012年31个省市 农业总产值(y)和耕地面积 (x1)以及农业从业人员数 (x2)(CASE1)
选择与异方差反向变动的量,
X
如
1
i
或
i2
异方差下的估计
异方差(Heteroscedasticity )
(四)WLS估计
经典回归模型的估计 多元线性回归模型的估计
y 0 1 xi i
各 解 释 变 量 不 相 关
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
基本统计分析
统计图形
主要内容
描述统计
截面数据回归
统计图形
使 用 软 件
纯中文界面
绘图功能强大
在绘制常用的统计图表时,简单快速, 且易于进行创意绘图。 但是,excel可绘制的图形种类很有限, 较为复杂的统计图需借助专门的统计软件。
excel
使 用 软 件
绘图种类全面
图形美观
SPSS
条形图
条形图 Bar charts
2 i
ˆ ˆ x )] Q( ˆ , ˆ) [ yi ( 0 1 i 0 1
满足 i 2最小, 就是求令 ˆ , ˆ )最小的 二元函数Q( 0 1 ˆ , ˆ 取值
0 1
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS原理
家庭 消费
家庭收入
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
YFra Baidu bibliotek
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
Y
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
x
( a) (b)
x
图(b)显示与变量之间存 在线性关系, 图(c)和(d)显示与变量 之间存在复杂的关系。
x
e
2
e2
x
( c)
图(b)(c)(d)均表明 模型存在异方差。
(d)
异方差(Heteroscedasticity )
异方差性的诊断
怀特检验(White Test)
e2 e2
利用OLS估计结果做辅助回归
统计图形
主要内容
描述统计
截面数据回归
截面数据回归
经典回归模型 及 OLS
多重共线性的诊断 及解决办法
异方差性诊断 及 WLS
定性解释变 量的使用
什么是截面数据
所谓横截面数据就是给定时点对个人、家庭、企业、
城市、省份、国家等一系列其他单位采集的样本构成 的数据集。
回归分析的目的
回归分析的目的: (1)寻找某一结果发生的影响因素 (2)根据某些因素,预测结果的发生
Q 0 ˆ ˆ ˆ yi n 0 1 xi 0 2 ˆ ˆ Q x y x x i i 0 i 1 i 0 ˆ 1
Y
ˆ ˆx ˆi y 0 1 i
ˆ n xi yi xi yi 1 n xi 2 ( xi ) 2 ˆ yi ˆ xi 1 0 n n
(5.59) F 31.24
ˆi 284.09 0.37 x1i -20.81x2i y t (1.23) r 2 0.5186 (6.4) (2.48) F 31.24
经典回归模型的估计 多元线性回归模型的估计
y 0 1 xi i
各 解 释 变 量 不 相 关
(二)图示法检验
异方差(Heteroscedasticity )
(三)White检验
异方差(Heteroscedasticity )
加权最小二乘法(WLS)
Y
令 wi i 最小
2
E(Y)
ˆ ˆ X )2 w ( Y i i 0 1 i
wi 一般取 1
i
1
, 实际应用中可以
多重共线性的后果
完全多重共线性得不到OLS估计 严重的不完全多重共线性将产生 如下后果: 增大最小二乘估计量的方差;
x2
x1 x3
y 2 y 0 1 x1i x2 1x i i0 k xkii i
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
普通最小二乘法 (Ordinary Least Squares)
多元回归模型的OLS估计
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
经典回归模型 OLS
异方差性诊断 及 WLS
异方差(Heteroscedasticity )
什么是异方差
若模型中随机误差项的条件 方差不相同:
E(Y) E(Y)
Y Y
Var(i xi ) i 2 常数
正 态 性 假 定
基本假定
经典回归模型 及 OLS
多重共线性的诊断 及解决方法
异方差性诊断 及解决方法
多重共线性 (Ordinary Least Squares)
多重共线性的诊断
如果模型中某两个或多个变量出现 了相关性,则成为多重共线性 x2
x1
x3
多重共线性 (Ordinary Least Squares)
X
X
异方差 同方差
异方差(Heteroscedasticity )
异方差性的影响
参数的OLS估计量的不 再具有有效性
E(Y)
Y
通常使用的显著性检验 方法失去效力
X
异方差
异方差(Heteroscedasticity )
异方差性的诊断
图示检验法
e2 e2
图(a)显示与变量之间没 有可观察到的系统模式,表明 模型不存在异方差。
箱线图使用五个数值直观描述变量的分布于离散 状况,显示数据的中位数、分位数和离群值。
箱式图
箱式图 boxplot
将两个或两个以上数值型变量的对应值在坐标系 中用点表示出来,根据点的分布规律判断变量间 的相关性及规律。
散点图
散点图 scatterplot
根据变量累积概率和理论分布累积概率绘制的散 点图,用来直接观测数据分布是否符合指定理论 分布。
OLS原理
我们希望:
Y
ˆ ˆx ˆi y 0 1 i
最大可能的接近 ˆi y yi
也就是说:
2 ˆ ( y y ) i i 尽可能的小
(或者说满足 i 2最小)
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS原理
因为:
Y
ˆ ˆx ˆi y 0 1 i
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS估计的性质
在给定经典回归模型的假定 条件下OLS估计是最优线性无偏 的估计量。 它是线性的; 它是无偏的; 它是有效估计量;
Y
ˆ ˆx ˆi y 0 1 i
样本散点图
X
经典回归模型的估计
一元线性回归模型的估计 多元线性回归模型的估计
ei 2 a0 a1 x1i a2 x2i a3 x1i 2 a4 x2i 2
x
( a) (b)
x
a5 x1i x2i i
H0 : a1 a2 a3 a4 a5 0
e
2
e2
计算统计量nR2
x
( c)
x
(d)
2 nR2 ~( 5)
异方差(Heteroscedasticity )
第 四 步 : 模 型 检 验
第 一 步 : 建 立 模 型
样本
经典回归模型的估计
一元线性回归模型的估计
y 0 1 xi i
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
普通最小二乘法 (Ordinary Least Squares)
描述统计
描述统计就是组织、描述、 总结所收到的一组数据的特 征。 描述统计帮助我们更好的 了解所得数据的信息,是 进行数据分析的一个基本 环节。
集中趋势 描述统计
均值 中位数 众数
离散程度
极小值 极大值 标准差 方差
分布形状
偏度 峰度
Excel做描述统计分析
SPSS做描述统计分析
eviews做描述统计分析
P-P图
P-P图 P-P plot
第一看数据点与直线的重合程度
第二看数据点在水平线周围的波动程度
P-P图 P-P plot
与P-P图原理和作用相似,只是由分位数绘制而 成
Q-Q图
Q-Q图 Q-Qplot
统计图形
主要内容
描述统计
截面数据回归
描述统计
描述统计 (Descriptive statistics)
Excel绘图步骤——以条形图为例
条形图 Bar charts
创意条图
条图 bar
SPSS绘图步骤——以条形图为例
组数据特征值 平行变量特征值 个案值
条形图 Bar charts
简单条图
条形图 Bar charts
分组条图
条形图 Bar charts
分段条图
条形图 Bar charts
饼图
2008年全国各地区城镇居民家庭平均每人全年可支 案例: 样本数据为 配收入和平均每人全年消费性支出,如表1所示。(case2)
表1 2008年各地区城镇居民家庭平均每人全年可支配收入和消费性支出
异方差(Heteroscedasticity )
(一)参数估计
异方差(Heteroscedasticity )
E( y xi ) 0 1xi
第 一 步 : 建 立 模 型
ˆ ˆx ˆi y 0 1 i
样本
回归分析的步骤 总体
第 三 步 : 模 型 估 计 第 二 步 : 数 据
E( y xi ) 0 1xi
第 五 步 : 应 用
ˆ ˆx ˆi y 0 1 i
样本回归线对数据的拟合程度。
度量方法 判定系数R 2
修正判定系数R 2
0
完美的拟合
X
1
普通最小二乘法 (Ordinary Least Squares)
模型检验
k xki i
方程的显著性检验:
E( y xi ) 0 1x1i
总体
1 =2
检验方法
k 0?
F检验 ESS / k F= RSS / n k 1
ˆ )最小的 k
ˆ , ˆ, 满足 i 2最小,即求令多元函数Q( 0 1 ˆ , , ˆ 取值 0 k
满足经典回归模型假定下,多元模型的OLS估计 也是最优线性无偏的估计量。
普通最小二乘法 (Ordinary Least Squares)
模型检验
拟合优度检验:
Y
ˆ ˆx ˆi y 0 1 i
Y
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体回归函数(PRF) Y
E( y xi ) 0 1xi
总体回归模型 y E ( y xi ) i
1 xix y 0 0 i i 1 i
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
简单饼图
饼图 pie
复合饼图
饼图 pie
创意饼图
饼图 pie
SPSS绘制饼图
饼图 pie
线图多用来显示现象随时间的连续变动趋势
线图
简单线图
线图 line
差异数据的多线图
线图 line
直方图是用以描述一组变量频数分布的图形,可 以显示数据分布是否对称或符合正态分布。
直方图
直方图 histogram
样本 ˆ ˆx ˆ y 0 1 1i
ˆ x k ki i
P值
普通最小二乘法 (Ordinary Least Squares)
模型检验
k xki i
变量的显著性检验:
E( y xi ) 0 1x1i
总体
i =0?
检验方法
t检验 ˆ i t= ˆ) se(
Y
第 一 步 : 建 立 模 型
样本
80
X
回归分析的步骤
Y
第 一 步 : 建 立 模 型
样本
X
回归分析的步骤 样本回归函数(SRF) Y
ˆ ˆx ˆi y 0 1 i
样本回归模型
i
第 一 步 : 建 立 模 型
ˆ ˆ x yi 0 1 i i
X
回归分析的步骤 总体
i
样本 ˆ ˆx ˆ y 0 1 1i
ˆ x k ki i
P值
普通最小二乘法 (Ordinary Least Squares)
报告回归分析结果
ˆi 373.04 0.29 xi y t (1.51) r 0.5186
2
案例分析: 建立一元线性回归模型,分 析农业产出的影响因素。 数据资料:2012年31个省市 农业总产值(y)和耕地面积 (x1)以及农业从业人员数 (x2)(CASE1)
选择与异方差反向变动的量,
X
如
1
i
或
i2
异方差下的估计
异方差(Heteroscedasticity )
(四)WLS估计
经典回归模型的估计 多元线性回归模型的估计
y 0 1 xi i
各 解 释 变 量 不 相 关
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
基本统计分析
统计图形
主要内容
描述统计
截面数据回归
统计图形
使 用 软 件
纯中文界面
绘图功能强大
在绘制常用的统计图表时,简单快速, 且易于进行创意绘图。 但是,excel可绘制的图形种类很有限, 较为复杂的统计图需借助专门的统计软件。
excel
使 用 软 件
绘图种类全面
图形美观
SPSS
条形图
条形图 Bar charts
2 i
ˆ ˆ x )] Q( ˆ , ˆ) [ yi ( 0 1 i 0 1
满足 i 2最小, 就是求令 ˆ , ˆ )最小的 二元函数Q( 0 1 ˆ , ˆ 取值
0 1
样本散点图
X
普通最小二乘法 (Ordinary Least Squares)
OLS原理
家庭 消费
家庭收入
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
YFra Baidu bibliotek
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
Y
第 一 步 : 建 立 模 型
80
X
回归分析的步骤 总体
第 一 步 : 建 立 模 型
回归分析的步骤 总体
x
( a) (b)
x
图(b)显示与变量之间存 在线性关系, 图(c)和(d)显示与变量 之间存在复杂的关系。
x
e
2
e2
x
( c)
图(b)(c)(d)均表明 模型存在异方差。
(d)
异方差(Heteroscedasticity )
异方差性的诊断
怀特检验(White Test)
e2 e2
利用OLS估计结果做辅助回归
统计图形
主要内容
描述统计
截面数据回归
截面数据回归
经典回归模型 及 OLS
多重共线性的诊断 及解决办法
异方差性诊断 及 WLS
定性解释变 量的使用
什么是截面数据
所谓横截面数据就是给定时点对个人、家庭、企业、
城市、省份、国家等一系列其他单位采集的样本构成 的数据集。
回归分析的目的
回归分析的目的: (1)寻找某一结果发生的影响因素 (2)根据某些因素,预测结果的发生
Q 0 ˆ ˆ ˆ yi n 0 1 xi 0 2 ˆ ˆ Q x y x x i i 0 i 1 i 0 ˆ 1
Y
ˆ ˆx ˆi y 0 1 i
ˆ n xi yi xi yi 1 n xi 2 ( xi ) 2 ˆ yi ˆ xi 1 0 n n
(5.59) F 31.24
ˆi 284.09 0.37 x1i -20.81x2i y t (1.23) r 2 0.5186 (6.4) (2.48) F 31.24
经典回归模型的估计 多元线性回归模型的估计
y 0 1 xi i
各 解 释 变 量 不 相 关
(二)图示法检验
异方差(Heteroscedasticity )
(三)White检验
异方差(Heteroscedasticity )
加权最小二乘法(WLS)
Y
令 wi i 最小
2
E(Y)
ˆ ˆ X )2 w ( Y i i 0 1 i
wi 一般取 1
i
1
, 实际应用中可以
多重共线性的后果
完全多重共线性得不到OLS估计 严重的不完全多重共线性将产生 如下后果: 增大最小二乘估计量的方差;
x2
x1 x3
y 2 y 0 1 x1i x2 1x i i0 k xkii i
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
普通最小二乘法 (Ordinary Least Squares)
多元回归模型的OLS估计
零 均 值
同 方 差
无 自 相 关
动解 项释 不变 相量 关与 扰
正 态 性 假 定
基本假定
经典回归模型 OLS
异方差性诊断 及 WLS
异方差(Heteroscedasticity )
什么是异方差
若模型中随机误差项的条件 方差不相同:
E(Y) E(Y)
Y Y
Var(i xi ) i 2 常数
正 态 性 假 定
基本假定
经典回归模型 及 OLS
多重共线性的诊断 及解决方法
异方差性诊断 及解决方法
多重共线性 (Ordinary Least Squares)
多重共线性的诊断
如果模型中某两个或多个变量出现 了相关性,则成为多重共线性 x2
x1
x3
多重共线性 (Ordinary Least Squares)