SPSS检验车辆运行速度案例分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

某道路弯道处53车辆减速前观测到的车辆运行速度，试检验车辆运行速度是否服从正态分布。

这道题目的解答可以先通过绘制样本数据的直方图、P-P图和Q-Q图坐车粗略判断，然后利用非参数检验的方法中的单样本K-S检验精确实现。

一、初步判断
1.1绘制直方图
（1）操作步骤
在SPSS软件中的操作步骤如图所示。

（2）输出结果
通过观察速度的直方图及其与正态曲线的对比，直观上可以看到速度的直方图与正太去线除了最大值外，整体趋势与正态曲线较吻合，说明弯道处车辆减速前的运行速度有可能符合正态分布。

1.2绘制P-P图
（1）操作步骤
在SPSS软件中的操作步骤如图所示。

（2）结果输出
根据输出的速度的正态P-P 图，发现速度均匀分布在正态直线的附近，较多部分与正态直线重合，与直方图的结果一致，说明弯道处车辆减速前的运行速度可能服从正态分布。

二、单样本K-S 检验
2.1单样本K-S 检验的基本思想
K-S 检验能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优的检验方法，适用于探索连续型随机变量的分布。

单样本K-S 检验的原假设是：样本来自的总体与指定的理论分布无显著差异，即样本来自的总体服从指定的理论分布。

SPSS 的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。

单样本K-S 检验的基本思路是：
首先，在原假设成立的前提下，计算各样本观测值在理论分布中出现的累计概率值F(x)，；其次，计算各样本观测值的实际累计概率值S(x)；再次，计算实际累计概率值与理论累计概率值的差D(x)；最后，计算差值序列中的最大绝对值差值，即
）
（）（i i x F x S max D -= 通常，由于实际累计概率为离散值，因此D 修正为：）（）（1i i x F x S max D -=- D 统计量也称为K-S 统计量。

在小样本下，原假设成立时，D 统计量服从Kolmogorov 分布。

在大样本下，原假设成立时，D n 近似服从K(x)分布：当D 小于0时，K(x)为0；当D 大于0时，
）2-（exp ）
1-（）（22x j x K j ∑∞
-∞
==
容易理解，如果样本总体的分布与理论分粗的差异不明显，那么D 不应较大。

如果D 统计量的概率P 值小于显著性水平α，则应拒绝原假设，认为样本来自的总体与指定的分布有显著差异如果D 统计量的P 值大于显著性水平α，则不能拒绝原假设，认为，样本来自的总体与指定的分布无显著差异。

在SPSS 中，无论是大样本还是小样本，仅给出大样本下的和D n 对应的概率P 值。

2.2软件操作步骤
单样本K-S检验的操作步骤如图所示
2.3输出结果并分析
SPSS的输出结果如表所示.
单样本Kolmogorov-Smirnov 检验
速度
N 98
正态参数a,b
均值47.988 标准差11.6310
最极端差别绝对值.090 正.050 负-.090
Kolmogorov-Smirnov Z .888
渐近显著性(双侧) .409
a. 检验分布为正态分布。

b. 根据数据计算得到。

该表表明，速度的均值为47.988，标准差为11.6310。

最大绝对差值为0.090，最大正差值为0.050，最大负差值为-0.090。

本例应采用大样本下D统计量的精确概率值，输出了根号nD值0.888和概率P值0.409，如果显著性水平为0.05，由于概率P值大于显著性水平，因此不能拒绝原假设，可以认为弯道处车辆减速前的运行速度服从正态分布。

第13题
表中数据为某条公路上观测到的交通流速度与密度数据，试用一元线性回归模型分析两者的101关系。

一、一元线性回归的基本原理
1.1一元线性回归模型：
01Y ββχε=++ 2~(0,)N εδ
上述模型可分为两部分：（1）01ββχ+是非随机部分；（2）ε是随机部分。

β0和β1为回归常熟和回归系数该式被称为估计的一元线性回归方程。

1.2模型参数估计
用最小二乘法估计参数，是在关于随机误差的正态性、无偏性、同方差性、独立性这四个假设的基础上进行的。

()()2
^
201min i i i i i f x y y y b b x ⎛⎫
=-=--= ⎪⎝⎭
∑∑
为了求回归系数，0β，1β，令一阶导数为0 ，得：
01201i i i i i i
nb b x y b x b x x y ⎧+=⎪⎨+=⎪⎩∑∑∑∑∑
从中解出：
1201()()()i i i x x y y b x x b y b x
⎧--=⎪-⎨⎪
=-⎩∑∑ 二、一元线性回归分析的假设检验：
_
_
^
^
22
21
1
1
SST ()()()n
n
n
i i i i i i y y y y y y SSR SSE ====∑-=∑-+∑-=+
其中：SST 称为总体离差平方和，代表原始数据所反映的总偏差的大小。

SSR 称为回归离差平方和，它是由变量x 引起的偏差，反应x 的重要程度 SSE 称为剩余离差平方和，它是由实验误差以及其它未加控制因素引起的偏差，反映了试验误差及其它随机因素对试验结果的影响。

2.1回归方程优度检验的
21SSR SSE
R SST SST
=
=-
相关系数反映了由于使用Y 与X 之间的线性回归模型来估计y 的均值，而导致总离差平
方和减少的程度。

它与SSR 成正比，R 2 的取值在0-1之间，其值越接近1，说明方程对样本数据点的拟合度越高；反之，其越接近0说明，明模型的拟合度越低。

2.2回归方程的显著性检验
假设01:0,H β= 11:0H β≠。

在0H 成立的条件下，有：
1
2
//n SSR n F SSE =
12(1)n n n +=-
上式中，n 1 =1，n 2=n-2，F 服从自由度为（1，n-2）的F 分布。

给定显著水平α，若
12(,)F F n n α>,拒绝原假设，表明回归效果显著。

2.3回归系数的显著性检验
在0H 成立的条件下，有：
^
t (2)t n =
-
当2
(2)t t n α>-时，拒绝原假设，回归显著。

注意：注意回归方程的显著性检验与回归系数的显著性检验的的区别：回归系数的显著性检验是用于检验回归方程各个参数是否显著为0的单一检验，回归方程的显著性检验是检验所有解释变量的系数是否同时为0的联合检验，分别为t 检验FF 检验。

对于一元线性回归模型，F 检验与t 检验是等价的,而对于二元以上的多元回归模型，解释变量的整体对被解释变量的影响是显著的，并不表明每一个解释变量对它的影响都显著,因此在做完F 检验后还须进行t 检验。

2.4残差均值为零的正态性分析，
进行一元线性回归建模的前提是残差ε~N（0，δ2）。

而结实变量x 去某个特定的值是，对应的残差必然有证有负，但总体上应服从已领为君值得正态分布。

可以通过绘制残插图对该问题进行分析。

残插图是一种散点图，途中横坐标是结实变量，纵坐标为残差。

如果残差的均值为零，则残插图中的点应在纵坐标为零的横线上、下随机散落。

三、软件操作
一元线性回归的软件操作步骤如图所示。

四、输出结果
SPSS的输出结果如表所示。

该表中格列数据的含义（从第二列开始）依次是：被解释变量和解释变量的负相关系数、判定系数R2 、调整的系数R2 、回归方程的估计标准误差。

依据该表可以进行拟合优度检验。

由于判定系数R2 较接近1，因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，不能被模型解释的部分较少。

该表各项数据的含义（从第一列开始）依次为：被解释变量的表差来源，离差平方和。

自由度、方程、回归方程显著性检验中F检验统计量的观测值和概率P值。

由表可知，F 检验统计量的观测值为，369.56，对应的概率P值为0.000。

如果显著性水平取0.05，由于概率P值小于显著性水平，所以应该拒绝原假设，认为，被解释变量与及时变量的线形关系是显著的，可以建立线性模型。

该表中各列数据的含义（第二列开始）依次为：偏回归系数，偏回归系数的标准误差，标准化偏回归系数、回归系数显著性检验中t 检验统计量的观测值、对应的概率P 值。

从表中可以看出，产量和密度对应的概率P 值均为0.000。

若取显著性水平为0.05，则应拒绝原假设，认为密度与速度的线性关系显著。

该表中可以看出，残差和标准残差的均值均为0，符合残差均值为零的正态性分析。

综上，该公路上速度与密度的一元线性回归模型为：
3441533938.K .V +-=
，其中，V 表示速度，K 表示密度。

第17题
为了分析双车道公路上驾驶人超车行为及其影响因素，应用超车试验研究了超车过程中同向的车流间隙对驾驶人换车道的影响。

此次试验共采集到有效样本数据342条，表中给出了部分试验数据整理结果。

请用logistic 回归模型标定出换道行为模型。

本题可采用二元logistic 回归分析对换道行为进行标定。

一、二元Logistic 回归基本原理
当被解释变量为0/1二分类变量时，虽然无法直接采用一般线性回归模型建模，但可充分借鉴其理论模型和分析思路。

利用一般线性回归模型对被解释变量取值为1的概率进行建模，此时回归方程被解释变量的实际取值范围在0~1之间。

回归方程的一般形式为：
x P y 101ββ+==
现将P 转换为
p
p
-=
1Ω
对对两边取对数，并建立被解释变量与解释变量之间的多元分析模型，即
∑=+
=-k
i i i x p
p
1
0）1（
ln ββ
于是有
））
（-（11
1
0∑=+
+=
k
i i i x exp P ββ
该式即被解释变量预测为1类的模型。

二、软件操作
二元logistic回归模型的SPSS操作如图所示。

操作中，对换道行为进行了分类设置：超车成功=1，超车失败=2。

三、结果输出
已观测
已预测
超车
百分比校正
失败成功步骤 0
超车
失败 0 4 .0 成功 0
8
100.0 总计百分比
66.7
a. 模型中包括常量。

b. 切割值为 .5
该表显示了logistic 分析初级阶段（第0步，方程中只有常数项，其他回归系数约束为0），的混淆矩阵。

可以看待，有4人超车失败但模型预测错误，正确率为0%，有8人超车成功模型预测正确，正确率为100%。

模型总的预测正确率为66.7%。

该表为方层中只有常数项时回归系数方面的指标，由于此时模型中未包含任何解释变量，该表并没有实际意义。

该表显示了待进入方程的各解释变量的情况。

可以看到，下一波速度。

车头间距和车头时距进入方程，则Score 检验统计量的鬼厕纸和概率P 值分别依次是10.170、0.001，0.568、0.451,3.210,0.073。

如果显著性水平为0.05，则由于车头间距和车头时距的概率P 值大于显著性水平，所以不能进入方程。

已观测
已预测
超车
百分比校正
失败成功步骤 1
超车
失败 4 0 100.0 成功 0
8
100.0 总计百分比
100.0
a. 切割值为 .500
因此将车头间距和车头时距移除，再看该分类表，模型的预测率为100%。

从而车辆环岛行为模型的标定仅与行车速度有关。

从而得到换到行为的logistic 回归模型标定结果
V ..p
p
071145-7294）1（
ln =-（1）
））
0711457294（-（11
V ..exp P -+=
（2）
则式（2）为超车成功的标定模型，其中，V 为行车速度。