城市与交通数据及信息分析方法大作业
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
城市与交通数据及信息分析方法(Ⅰ)课程作业
姓名:朱晓东 学号:1532441
1. Nominal、Ordinal、Interval 类型的数据特点,并请各举一例。 答:
Nominal、Ordinal、Interval 分别指的是定类、定序、定距。 Nominal 表示定类型的数据,即仅对数据进行简单的分类; Ordinal 表示定序型数据,即数据值具有有序性,可以进行排序、比较大小但不能加减 乘除。 Interval 表示定距型数据,即为数字型变量,可以加减不能乘除。 例子: Nominal:性别、出行方式(公交、步行、小汽车、非机动车) Ordinal:事故的严重程度、服务水平 Interval:速度、流量、温度
(3)检验科学假设,在一定的显著性水平下,是拒绝原假设还是接受原假设。
7. 利用 Ordinary Least Squares 开展线性回归模型统计推断的假定包括? 答:
Ordinary Least Squares 的基本原则:最优拟合直线应该是各点到直线的距离的和最小, 也可以表述成平方和最小。有如下假设:
方程应用到其他同类事件中,可以进行预测,所谓回归,就是向某个理想的状态或平衡状态 的趋向发展,通过回归可以找出哪些影响因素,对结果的影响规律。所以回归分析的目的总 的来说,主要有:
(1)预测,预测目标变量,求解目标变量(因变量)和说明变量(自变量)之间的关 系方程;
(2)因子分析,因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影 响,因此,需要求出各个自变量的影响程度。可以确定出感兴趣的关键变量;
t 1
T
xt2 ( yt 0 1 xt1 ... k xtk ) 0
t 1
再由式子: 最后可以解出:
T
xtk ( yt 0 1 xt1 ... k xtk ) 0
t 1
X '( y X ) 0 or( X ' X ) X ' y
12. 请根据以下 SAS 代码及 Output 写出预估方程。 proc genmod data= temp; class cars (param = ref) age (param = ref); model c = cars age / p dist = Poisson link
run;
= log offset = lnn;
Var( | X ) Var[(X ' X )1X 'u | X ] ( X ' X )1 X '[Var(u)]X ( X ' X )1 ( X ' X )1 X '( 2I n) X ( X ' X )1 2 ( X ' X )1 X ' X ( X ' X )1 2 ( X ' X )1
11. 请列出矩阵形式的基于最小二乘法(Ordinary Least Square)多元线性回归 系数估计和方差估计的推导过程。假设:。
答:
最小二乘法中对 的估计,要求 的估计值,其实是要使得 SSE 取到最小,
即: min SSE
其中:
T
T
k
2
T
2
SSE t2 (yt j xtj ) (yt xt ) (Y X )'(Y X )
3) 带漂移的随机步游:
Y Y u
t
t 1
t
其中, 为漂移参数, Yt (Yt Yt1) t ,Yt 根据 为正或负而上、下飘
移,也是差分平稳过程。
9. 我们使用 SAS 软件中的 PROC REG 进行回归分析,对于多层次的 categorical variables 如何处理?比如,对于 EDUCATION 这个变量,包含 4 层:High School,College, Master, PhD,我们如何处理?
5. 请说明下列 SAS 语句主要的功能。 答:
Proc Means 计算一个数据集中某一个或者几个数值变量的大部分的统计值。也可以按照一个变量的 值进行分组计算统计值(class 语句),也可以按照任意个变量(一般两到三个)的组合进行 分组计算统计值(types 语句)。使用 output 语句可以很方便的将结果输出到一个数据集中。 Proc Gplot 作图,可以制作散点图和气泡图。气泡图可以理解为一个三维图,有横轴 x 纵轴 y,横 轴纵轴确定的点上画个圆,圆的大小代表 z 值的大小。制作散点图时可以把点连起来,也可 以在一个图上画好几条线。SYMBOL 语句控制着散点图中“点”的样式(value 语句)、连线 的方式,插值的方式。haxis 控制横轴的坐标的范围以及坐标的间隔。 Proc Print Print 过程是将数据集输出到 output 窗口,具体如下: 变量的输出格式用户可以选择; 可以在输出报表中加上变量的标题和脚注; 可输出数据集中的变量的任何子集; 可控制变量是否出现以及出现的顺序; 可以自己定制列表头; 可分租输出观测数据; 可计算所有观测值或分组观测值的总和以及其他统计量; 每页报表的宽度和长度以及每列的宽度都可以加以控制; 可以分部分输出数据。 6. 开展回归分析的目的包括。 答: 回归分析是将一系列影响因素和结果进行一个拟合,拟合出一个方程,然后通过将这个
答: (1)β2=0.065 代表在其他变量不变的情况下,教育程度每增加或减少一个单位,
log(wage)就增加或减少 0.065 倍。 (2)在保证其它变量相同的情况下,农村的收入比城市要高,其中 log 农村(wage) -log 城市(wage)=0.1839
4. 利用多元线性回归处理离散选择问题,主要的缺陷什么是? 答:
答:
在对教育程度这个变量进行多层次分类进行 logistic 回归分析时,我们一般需要进行多 分量的编码,这是一个四分变量,对此需要做虚拟编码,即是进行离差编码,可以引进三个 虚拟编码,比如下表形式:
Education
Z1
Z2
Z3
High School
1
0
0
College
0
1
0
Master
0
0
1
PhD
(2) 对于非平稳时间序列而言,每个时间序列数据都是特定的一幕,无法推广 到其它期间,而平稳随机序列恰恰弥补了非平稳随机时间序列的不足;
(3) 非平稳随机时间序列在对一个或多个非平稳随机时间序列回归时,通常会 导致谬误回归问题,一般需要变换成平稳随机时间序列,其重要性也因此凸现 出来;
(4) 从预测的角度看,非平稳随机时间序列没有太大的实际价值,通常需要获 得平稳时间序列才能对预测有较大的帮助。
( X ' X )1 X ' y
对于 的方差估计而言,
( X ' X )1 X ' y ( X ' X )1 X '( X u) ( X ' X )1( X ' X ) ( X ' X )1 X 'u ( X ' X )1 X 'u
3. log(wage) = β1 + β2edu + β3exper + β4tenure + β5married + β6black+ β7south + β8urban + ε,其中 Edu 是指教育程度()基于样本估计,(1) β2 的系数估计 值为 0.065,解释其含义;(2) urban 是一个分类变量(0 代表城市、1 代表农 村),系数估计为 0.1839,解释其含义。
0
0
0
10. Pearson correlation parameter 的表达式(针对样本)?
答:
Pearson correlation parameter 是用来度量两个变量 X 和 Y 之间的相互关系(线性相关)
的,取值范围在[-1,1]之间,通常用 表示。对于随机变量 X 和 Y 的相关性求解公式为:
(1)随机误差序列存在异方差性; (2)随机误差序列存在序列相关性; (3)解释变量之间存在多重共线性; (4)存在解释变量是随机变量且随机误差项相关的随机解释变量的问题。 其中异方差与序列相关性的不好后果包括:参数估计量非有效;变量的显著性检验失去 意义;模型的预测失效。而多重共线性不好后果包括:完全共线性下的参数估计量不存在; 近似共线下的 OLS 估计量非有效;参数估计量的含义不明确;变量的显著性失去意义;模型 的预估功能失效
1)因变量 Y 是连续变量; 2)自变量 x 和因变量 Y 之间有确定的线性关系
3)独立随机抽样 4)变量之间的关系是不确定的 5)扰动因子与自变量 x 之间相互独立且其期望为 0,即:
6)自变量 X 的扰动因子之间没有自相关性,也就是:
7)回归变量和扰动因子之间无相关性,也就是:
8)扰动因子近似服从正态分布。
答:
根据上述 SAS 代码,可以得到预估方程为:
ln( ) 1.3168 1.7643* l arg e 0.6928 * medium 1.3199 * age ln(n)
13. 请列出研究平稳随机过程的重要性。 答:
(1) 平稳随机过程可以研究不同时间段期间内的行为变化,而非平稳随机过程 中的非平稳时间序列研究特定期间的行为,不适合分析和预测未来的发展变化 情况;
t 1
t 1
j 1
t 1
要使 SSE 取得最小值,则应该满足:
SSE (
)
0
所以,求导可以得到:
T
( yt 0 1 xt1 ... k xtk ) 0
t 1
T
xt1( yt 0 1 xt1 ... k xtk ) 0
Cov X ,Y X Cov X ,Y Var X Var Y
,
Cov X ,Y
Var X Var Y
为 X 和 Y 协方差,
,
为 x、y 的方差。
Pearson correlation parameter 也可以表示为:
rxy
( X X )(Y Y ) ( X X )2 (Y Y )2
2. Cross-sectional data,Panel data,Time serBaidu Nhomakorabeaes data 三种类型数据结构各自有 什么特点?
答:
Cross-sectional data(截面数据): 横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象) 所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。横 截面数据的突出特点就是离散性高。横截面数据体现的是个体的个性,突出个体的差异,通 常横截面数据表现的是无规律的而非真正的随机变化。 Panel data (面板数据): 面板数据是将截面数据和时间序列数据综合起来的一种数据类型,该数据具有横截面和 时间序列两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一 条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。 面板分析可以利用面板数据来检查变量随时间的变化,以及多个目标变量之间的不同。 Time series data(时间序列数据): 时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在 时间顺序上的变化,寻找空间(对象)历时发展的规律。
8. 请列出以下时间序列预测方法的计算式: 答:
1) 自回归过程 AR(1):
Y Y u
t
1 t 1
t
其中 为 Yt 的均值, ut 是白噪声误差项。
2) 移动平均过程 MA(1):
Y u u u
t
0t
1 t 1
其中, Yt 是时间序列, u 为常数, ut 是白噪声误差项。
姓名:朱晓东 学号:1532441
1. Nominal、Ordinal、Interval 类型的数据特点,并请各举一例。 答:
Nominal、Ordinal、Interval 分别指的是定类、定序、定距。 Nominal 表示定类型的数据,即仅对数据进行简单的分类; Ordinal 表示定序型数据,即数据值具有有序性,可以进行排序、比较大小但不能加减 乘除。 Interval 表示定距型数据,即为数字型变量,可以加减不能乘除。 例子: Nominal:性别、出行方式(公交、步行、小汽车、非机动车) Ordinal:事故的严重程度、服务水平 Interval:速度、流量、温度
(3)检验科学假设,在一定的显著性水平下,是拒绝原假设还是接受原假设。
7. 利用 Ordinary Least Squares 开展线性回归模型统计推断的假定包括? 答:
Ordinary Least Squares 的基本原则:最优拟合直线应该是各点到直线的距离的和最小, 也可以表述成平方和最小。有如下假设:
方程应用到其他同类事件中,可以进行预测,所谓回归,就是向某个理想的状态或平衡状态 的趋向发展,通过回归可以找出哪些影响因素,对结果的影响规律。所以回归分析的目的总 的来说,主要有:
(1)预测,预测目标变量,求解目标变量(因变量)和说明变量(自变量)之间的关 系方程;
(2)因子分析,因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影 响,因此,需要求出各个自变量的影响程度。可以确定出感兴趣的关键变量;
t 1
T
xt2 ( yt 0 1 xt1 ... k xtk ) 0
t 1
再由式子: 最后可以解出:
T
xtk ( yt 0 1 xt1 ... k xtk ) 0
t 1
X '( y X ) 0 or( X ' X ) X ' y
12. 请根据以下 SAS 代码及 Output 写出预估方程。 proc genmod data= temp; class cars (param = ref) age (param = ref); model c = cars age / p dist = Poisson link
run;
= log offset = lnn;
Var( | X ) Var[(X ' X )1X 'u | X ] ( X ' X )1 X '[Var(u)]X ( X ' X )1 ( X ' X )1 X '( 2I n) X ( X ' X )1 2 ( X ' X )1 X ' X ( X ' X )1 2 ( X ' X )1
11. 请列出矩阵形式的基于最小二乘法(Ordinary Least Square)多元线性回归 系数估计和方差估计的推导过程。假设:。
答:
最小二乘法中对 的估计,要求 的估计值,其实是要使得 SSE 取到最小,
即: min SSE
其中:
T
T
k
2
T
2
SSE t2 (yt j xtj ) (yt xt ) (Y X )'(Y X )
3) 带漂移的随机步游:
Y Y u
t
t 1
t
其中, 为漂移参数, Yt (Yt Yt1) t ,Yt 根据 为正或负而上、下飘
移,也是差分平稳过程。
9. 我们使用 SAS 软件中的 PROC REG 进行回归分析,对于多层次的 categorical variables 如何处理?比如,对于 EDUCATION 这个变量,包含 4 层:High School,College, Master, PhD,我们如何处理?
5. 请说明下列 SAS 语句主要的功能。 答:
Proc Means 计算一个数据集中某一个或者几个数值变量的大部分的统计值。也可以按照一个变量的 值进行分组计算统计值(class 语句),也可以按照任意个变量(一般两到三个)的组合进行 分组计算统计值(types 语句)。使用 output 语句可以很方便的将结果输出到一个数据集中。 Proc Gplot 作图,可以制作散点图和气泡图。气泡图可以理解为一个三维图,有横轴 x 纵轴 y,横 轴纵轴确定的点上画个圆,圆的大小代表 z 值的大小。制作散点图时可以把点连起来,也可 以在一个图上画好几条线。SYMBOL 语句控制着散点图中“点”的样式(value 语句)、连线 的方式,插值的方式。haxis 控制横轴的坐标的范围以及坐标的间隔。 Proc Print Print 过程是将数据集输出到 output 窗口,具体如下: 变量的输出格式用户可以选择; 可以在输出报表中加上变量的标题和脚注; 可输出数据集中的变量的任何子集; 可控制变量是否出现以及出现的顺序; 可以自己定制列表头; 可分租输出观测数据; 可计算所有观测值或分组观测值的总和以及其他统计量; 每页报表的宽度和长度以及每列的宽度都可以加以控制; 可以分部分输出数据。 6. 开展回归分析的目的包括。 答: 回归分析是将一系列影响因素和结果进行一个拟合,拟合出一个方程,然后通过将这个
答: (1)β2=0.065 代表在其他变量不变的情况下,教育程度每增加或减少一个单位,
log(wage)就增加或减少 0.065 倍。 (2)在保证其它变量相同的情况下,农村的收入比城市要高,其中 log 农村(wage) -log 城市(wage)=0.1839
4. 利用多元线性回归处理离散选择问题,主要的缺陷什么是? 答:
答:
在对教育程度这个变量进行多层次分类进行 logistic 回归分析时,我们一般需要进行多 分量的编码,这是一个四分变量,对此需要做虚拟编码,即是进行离差编码,可以引进三个 虚拟编码,比如下表形式:
Education
Z1
Z2
Z3
High School
1
0
0
College
0
1
0
Master
0
0
1
PhD
(2) 对于非平稳时间序列而言,每个时间序列数据都是特定的一幕,无法推广 到其它期间,而平稳随机序列恰恰弥补了非平稳随机时间序列的不足;
(3) 非平稳随机时间序列在对一个或多个非平稳随机时间序列回归时,通常会 导致谬误回归问题,一般需要变换成平稳随机时间序列,其重要性也因此凸现 出来;
(4) 从预测的角度看,非平稳随机时间序列没有太大的实际价值,通常需要获 得平稳时间序列才能对预测有较大的帮助。
( X ' X )1 X ' y
对于 的方差估计而言,
( X ' X )1 X ' y ( X ' X )1 X '( X u) ( X ' X )1( X ' X ) ( X ' X )1 X 'u ( X ' X )1 X 'u
3. log(wage) = β1 + β2edu + β3exper + β4tenure + β5married + β6black+ β7south + β8urban + ε,其中 Edu 是指教育程度()基于样本估计,(1) β2 的系数估计 值为 0.065,解释其含义;(2) urban 是一个分类变量(0 代表城市、1 代表农 村),系数估计为 0.1839,解释其含义。
0
0
0
10. Pearson correlation parameter 的表达式(针对样本)?
答:
Pearson correlation parameter 是用来度量两个变量 X 和 Y 之间的相互关系(线性相关)
的,取值范围在[-1,1]之间,通常用 表示。对于随机变量 X 和 Y 的相关性求解公式为:
(1)随机误差序列存在异方差性; (2)随机误差序列存在序列相关性; (3)解释变量之间存在多重共线性; (4)存在解释变量是随机变量且随机误差项相关的随机解释变量的问题。 其中异方差与序列相关性的不好后果包括:参数估计量非有效;变量的显著性检验失去 意义;模型的预测失效。而多重共线性不好后果包括:完全共线性下的参数估计量不存在; 近似共线下的 OLS 估计量非有效;参数估计量的含义不明确;变量的显著性失去意义;模型 的预估功能失效
1)因变量 Y 是连续变量; 2)自变量 x 和因变量 Y 之间有确定的线性关系
3)独立随机抽样 4)变量之间的关系是不确定的 5)扰动因子与自变量 x 之间相互独立且其期望为 0,即:
6)自变量 X 的扰动因子之间没有自相关性,也就是:
7)回归变量和扰动因子之间无相关性,也就是:
8)扰动因子近似服从正态分布。
答:
根据上述 SAS 代码,可以得到预估方程为:
ln( ) 1.3168 1.7643* l arg e 0.6928 * medium 1.3199 * age ln(n)
13. 请列出研究平稳随机过程的重要性。 答:
(1) 平稳随机过程可以研究不同时间段期间内的行为变化,而非平稳随机过程 中的非平稳时间序列研究特定期间的行为,不适合分析和预测未来的发展变化 情况;
t 1
t 1
j 1
t 1
要使 SSE 取得最小值,则应该满足:
SSE (
)
0
所以,求导可以得到:
T
( yt 0 1 xt1 ... k xtk ) 0
t 1
T
xt1( yt 0 1 xt1 ... k xtk ) 0
Cov X ,Y X Cov X ,Y Var X Var Y
,
Cov X ,Y
Var X Var Y
为 X 和 Y 协方差,
,
为 x、y 的方差。
Pearson correlation parameter 也可以表示为:
rxy
( X X )(Y Y ) ( X X )2 (Y Y )2
2. Cross-sectional data,Panel data,Time serBaidu Nhomakorabeaes data 三种类型数据结构各自有 什么特点?
答:
Cross-sectional data(截面数据): 横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象) 所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。横 截面数据的突出特点就是离散性高。横截面数据体现的是个体的个性,突出个体的差异,通 常横截面数据表现的是无规律的而非真正的随机变化。 Panel data (面板数据): 面板数据是将截面数据和时间序列数据综合起来的一种数据类型,该数据具有横截面和 时间序列两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一 条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。 面板分析可以利用面板数据来检查变量随时间的变化,以及多个目标变量之间的不同。 Time series data(时间序列数据): 时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在 时间顺序上的变化,寻找空间(对象)历时发展的规律。
8. 请列出以下时间序列预测方法的计算式: 答:
1) 自回归过程 AR(1):
Y Y u
t
1 t 1
t
其中 为 Yt 的均值, ut 是白噪声误差项。
2) 移动平均过程 MA(1):
Y u u u
t
0t
1 t 1
其中, Yt 是时间序列, u 为常数, ut 是白噪声误差项。