第二课 探索性数据分析_图表法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
速度累计频率分布曲线
• 累计频数分布曲 线
• 把累计百分比数据 描绘到二维平面上 则可以得到累计频 数分布曲线
• 由频率分布曲线可以大体上发现样本的总体分布形状
– 对称性、 – 离散特性
• 为选择分布函数提供信息; • 累计分布曲线可以发现
– 50%的分位数 – 85%位分位数 – 15%位分位数
• 散点图—用于模型拟合检验(在后面章节中介 绍)
0.5
0.8
0
0
-0.5
-0.8
拟合较好的情况
模型中考虑的变量不足情况
补充:统计初步分析应提供信息
• 样本量大小 • 均值 • 中值 • 方差 • 标准差
Thanks !
应用SPSS软件
• 应用SPSS软件可以对观测数据进行描述性分析 • 分析步骤:完全可以借助于菜单实现 • 步骤1:打开要分析的数据(略)
• 散点图——相关性分析
Y
Y
Y
完全相关
X
高度相
X
不相关
X
散点图—辅助建模
旅行时间(小时)
6.5 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 10 30 50 70 90 110 130 150 旅行距离(公里)
散点图—异常点诊断
异常 点
7 6 5 4 3 2 1 0 0 20 40 60 80 100 120 140 x Y 80
• 4)箱形图
• 箱形图数字特征:
– 中位数 – 上四分位数 – 下四分位数 – 离群值
• 图形信息:
– 分布对称性 – 偏度 – 数据离散特性
• 箱形图作法:
– 箱体:作一个长方形,长方形的上、下端分别为上、 下四分位数位置(盒子长度就是四分位间距),中间 横线是样本观测值的中位数。 – 从上、下端边向外各画一条线延长到不是离群值的最 远点(即线的端点为正常值的最大和最小值),把离 群值用“х”在离群值截断点以外标出。
交通量时变曲线图 小时流量占日流量 8% 比值(%) 6% 4% 2% 0% 1 3 5 7 9 11 13 15 17 19 21 23

间 ( h)
速度随时间变 化的趋势图, 借助于该图, 可以便利的发 现交通开始拥 堵的时段,并 判断拥堵发生 时的速度阈 值。
90 80 70 60 50 40 30 20 10 0 0:00 1:20 2:40 4:00 5:20 6:40 8:00 9:20 10:40 12:00 13:20 14:40 16:00 17:20 18:40 20:00 21:20 22:40 周三
探索性数据分析-图表法
3、 图表法
• 借助于图表,可以更直观的了解数据的分布特 点。
• 频数表、直方图、趋势图、散点图、箱型图
• 1) 频数表
速度分组(公里/小 观测频数 时) <20 0 20~30 2 30~40 3 40~50 15 50~60 38 60~70 54 70~80 50 80~90 18 90~100 9 100~120 5 >120 0 累积频数 0 2 5 20 58 112 162 180 189 194 194 累积百分比 0 1.03% 2.58% 10.31% 29.90% 57.73% 83.51% 92.78% 97.42% 100.00% 100.00%
36423 1988
40622
历年公路网总里程(公里)
5000Байду номын сангаас
0000
5000
0000
5000
0000
5000
0000 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
年份
从图中可以看出该省公路总里程是逐年发展的,从图中 可以初步的分析出该省公路发展的大体趋势,为进一步 分析提供了基础。
得到散点图
旅行时间(小时)
6.5 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 10 30 50 70 90 110 130 150 旅行距离(公里)
从散点图中,可以发现旅行距离和旅行时间基 本上呈一直线:较强的相关性。
总结以下:散点图具有以下作用
• 借助两个变量观测值的散点图可以发现两变量之间相关性 • 是否存在某种线性关系(直线、曲线) • 检查和发现异常点 • 模型拟合检验(在线性回归分析部分介绍)
fi / n hi = d
为高作长方形。
得到的图形即为频率直方图。
• 地点车速直方 图,从图中可以 直观的看出地点 车速的分布以及 地点速度的极值 和总体水平。
地点车速直方图
• 3)频率分布曲线
• 样本观测值的分布特性 可由频率分布曲线和累 计频率分布曲线刻画。 • 将直方图中每一个矩形 顶部中点用光滑的曲线 连接起来形成的曲线就 是频率分布曲线
• 8) 散点图
• 假设变量
X与 Y
变量的观测值为,xi , y i )。在 OXY 平面 (
上,描出各点,则得到这两个变量的散点图。 • 散点图的特点:直观、清晰 • 缺点:散点图不是一种量化分析手段,能作为一种分析辅 助手段,需要进一步的量化分析。
例如 表中数据为旅行距离和旅行时间
旅行距离 (公里) 130 80 65 105 91 73 61 旅行时间 (小时) 5.2 3.7 3.5 4.7 4.1 3.9 4.3 旅行距离 (公里) 123 77 96 48 100 77 68 旅行时间 (小时) 6.1 3.3 4.3 2.8 4.9 4.4 3.4 旅行距离 (公里) 52 99 86 94 73 57 旅行时间 (小时) 3.7 4.4 4.1 3.9 3.9 3.3
k = 1.87 × (n − 1)
2 5
– 分组数可由样本量确定,常取为

• (2)计算组距 • 为了使得分组区间覆盖住所有的样本观测 值,需要确定区间端点。
a = x (1) − ε

b = x (n ) + ε
ε 可根据实验数据有效数位决定)。
• 常用频数表一般是等距的。 • 组距计算如下:
单击OK按钮后,弹出如下对话框,可 以选择要计算的统计量,选择后单击 OK按钮即可。
练习
• 不用在步骤3中,不选择Descriptives,选 择exploring试一试,结果如何? • 数据:立交区合流区车辆速度\流量描述性 分析
应用spss绘制图表功能
• 绘图功能在GRAPH 模块中实现,其步骤和描述 性分析几乎雷同。
步骤2:单击菜单中“Analysis”弹出一下拉菜单 Descriptives statistics,
•步骤3:在弹出菜单中选择Descriptives
•步骤四:在列出的变量中(如下图),选择要分析的变量(单 击),并单击图中间的“箭头”,则要分析的变量选中;多次重复可 选择多个变量。选则完变量后,单击由侧OK按纽(如果重新选 择,可单击RESET按纽)
• 一个频数表由分组区间、落在各区间的频数、累计 频数和累计频率组成。制定频数表需要确定分组数 目、组距,计算出落在各个子区间内样本频数绘出 图表。制作观测数据的频数表可按以下步骤: • (1)确定分组数目
– 根据经验取值8-15较合适 – 要求落在每个区间的样本频数最好不小于5(当个别区间 内的频数小于5时,与相邻区间合并;
• 箱形图应用:
– 样本总体的分布 – 诊断异常值
• 5)P-P图
• SPSS、SAS和S-plus都提供了P-P和Q-Q散点图 的自动作图方法。这里主要介绍作图原理。
速度数据的正态- P-P散点图
• 6)Q-Q图
速度数据的正态- Q-Q散点图
• 7)时序图
• 以时间为横轴(观测值为纵轴),即把 (t , xt )描绘在平 面上并用圆滑的曲线连接起来就得到了, • 常用于时间序列数据,例如某天某条道路上流量随时间 变化数据;某周交通量变化情况等 • 可以直观上发现事物发展变化情况。
d = (b − a ) / k
• (3)列出组区间:
[ai −1 , ai )
ai = a + id
i = 1,2, L , k − 1
• (4)计算落入每个组区间上的频数,并计算 累计频数 f 和累计百分比。
i
• 把步骤(4)与(5)得到的数据编制成 表,则得到频数表。
• 2)绘制直方图。 • 以区间 [ai −1 , ai ) 为底,
90 80 70 60 50 40 30 拥挤 20 10 0 0:00 1:20 2:40 4:00 5:20 6:40 8:00 9:20
拥挤
10:40 12:00 13:20 14:40 16:00 17:20 18:40 20:00 21:20 22:40
表 某省历年公路总里程(公里)
时间 (年) 公路里程 (公 里) 时间 (年) 公路里程 (公 里) 1980 1981 3647 8 1989 4117 0 1982 3691 2 1990 4315 0 1983 3719 6 1991 4419 9 1984 3770 4 1992 4504 9 1985 3884 0 1993 4648 7 1986 3928 6 1994 4770 4 1987 3971 3 1995 4970 7
相关文档
最新文档