第三章 输入数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 输入数据的分析
3.1 3.2 3.3 3.4 3.5
概述 数据的采集与处理 数据分布的分析与假设分布族 参数的估计 拟合优度检验
1
第3章 输入数据的分析
• 本章重点
• • • • 原理 1.输入数据分析的步骤 2.为数据假设分布族的点统计法 3.分布参数的点估计法 2检验)的 4.各种拟合优度检验方法(特别是
32
假设分布族例题
某银行汽车窗口顾客到达间隔时间概率图
33
假设分布族例题
结 论
由以上三种方法试探, 最后可假设 分布族为指数分布. 下一步应该确定分布的参数.
那一条是呢?
34
3.4
参数的估计
不同均值的指数分布密度曲线
35
3.4 参数的估计
• 1.参数的点估计
• 当所观测的数据直接用来计算未知参数的数值 时,称其为参数的点估计 • 最大似然法认为所观测的一组数据产生的概 率是最大的. • 因此最大似然法通常是求出选定分布的密度 函数,然后利用求导和判断极值的方法,求 出使这组数据产生概率最大值时的分布参数
29
3.3.3 概率图法
概率图的绘制方法:
-1 i - 0.5 比较点: ( Xi, G ( n ) ) 其中, G-1 为理论分布函数的反函数 Xi是所采集的第i个数据。
i - 0.5 为第 i 个分位点 q 值 i n 用比较点绘出的线若呈直线, 则说明两个 分布拟合较好。本方法的使用条件是理论分布 的反函数已知。
36
• 2.参数点估计的理论依据是最大似然法
3.4 参数的估计
• 依据最大似然法, 常用分布的参数估计如下:
– 指数分布: – 正态分布:
1 n exp(u) u X (n) xi n i 1
2 ) X (n) 1 n x n 1 S 2 (n) 1/ 2 N ( , n n i 1 i
当x x1 , 当x k x x k 1 , k 1, 2,..., n 1, 当x x n
这是一条非减、右连续函数.
11
3.1 概
述
3.1.2 输入数据概率分析的步骤
1.按系统研究的目的和模型确定输入数据项目。 2.根据数据特性、编织采集计划、收集数据 3.分析和判断数据的分布, 假设分布族 4.分布参数的估计 5.拟合优度检验 6.确定数据的分布
绘制概率图可使用概率纸或利用计算机绘图
27
3.3.3 概率图法
y 理论分布 G(x) 1
绘制概率图的原理
分位点 qi
经验分布 F(x)
Xi
G (qi) F (qi)
-1
-1
X
28
3.3.3 概率图法
• 绘制概率图的原理
• 如果两条曲线的大部分接近或重合,则说 明这两条曲线所代表的分布相似。用同一分位 点上qi两条曲线的反函数 F-1(qi)和G-1(qi) 作为二维坐标系上的点来绘制曲线,如果接近 一条直线,证明许多点上这两个值是相同或相 似的,说明它们可能服从同一分布。
43
3.5 拟合优度检验
• 拟合优度检验的方法:
• 1. 直观评估检验 (密度函数的直观比较) 2 • 2. 检验 (密度函数的统计比较) • 3. K - S 检验 (分布函数的统计比较)
44
3.5 拟合优度检验
• 3.5.1 直观评估检验:
• 将所选分布的密度函数曲线与数据的柱状 图绘制在一起,用眼睛进行比较,直观评估.
4
3.1 概
• 理论分布:
– 连续型概率分布: – 1. 均匀分布 – 2. 正态分布 – 3. 指数分布 – 4. Gamma 分布
述
3.1.1 输入数据常见的概率分布
离散型概率分布: 1. 二项分布 2. 泊松分布
• 经验分布:
– 按实际数据构成的分布
5
6
3.1 概
理论分布--连续型分布
述
3Baidu Nhomakorabea
当输入随机变量的分布已知时,可以直接生成相
应分布的随机数作为系统的输入。然而,在实际问题
中,对输入的总体分布一无所知,常常只能通过对系
统的观察,收集到感兴趣的输入随机变量的观察数据。
在这种情况下,常常通过对这些数据的分布形式
作假定、参数估计、分布拟合优度检验等过程,确定 输入随机变量的分布。 根据概率分布用适当的方法产生合适的、足够多 的输入数据,进而才能进行模拟。
– 泊松分布:
1 n Poisson( ) X (n) x n i 1 i
37
3.4 参数的估计
例
• 按最大似然法,银行汽车服务窗口顾客到达间 隔时间(例题)的均值可用观测数据的平均值来估算. 即: =X(219)=0.399 • • 是: 到此为止, 我们才初步确定这组数据的分布
. f (x) 1 ex / 0399 0399 .
18
3.3 数据分布的分析与假设分布族
基本方法
为了确定理论分布,有一些科学的方法可利用: – 本节仅介绍连续型数据的三种分析方法:
– – –
3.3.1 点统计法 3.3.2 柱状图法 3.3.3 概率图法
19
3.3.1 点统计法
• 某些连续分布的各参数之间存在特殊的关系, 它们构成的函数可用来判断分布的类型. – 这类函数之一是方(偏)差系数:
30
3.3.3 概率图法
-1( i - 0.5 ) ) ( Xi, G n
-1( i - 0.5) G n
概率图
X
Xi Q-Q图
31
假设分布族例题
– 3. 概率图法
– 用已知数据和指数分布的分布函数, – 利用 AXUM 软件(或SPSS)绘制概率图. – 该概率图近似呈直线, 故可假设这 些数据近似呈指数分布
1. 看看数据是否符合某个理论分布。为此,可 先按科学的方法假设一个理论分布,再利用 统计检验的手段来判断其是否符合这一分布。 2. 如果找不到一个合适的理论分布,可以 利用已有的数据建立一个经验分布。
17
3.3 数据分布的分析与假设分布族
采用理论分布的优点
不仅可以表现已知数据的基本特性,更重要的是 可以表现没有采集到的所有数据的特性 现实世界中大多数管理系统内的各类随机过程都 有一定的概率分布规律 几乎可以产生无限量的数据,从而满足长时间模 拟的需要
Var(x) / E(x)
其中: Var(x) 为分布的方差 E(x) 为分布的期望值 (均值) 各种分布的方差系数见表3.3. 根据表中的 规律,当计算出方差系数后, 可估计分布类型.
20
3.3.1 点统计法
表3.3 常用连续型分布的方差系数
分布 均匀分布 U[a,b] 指数分布 正态分布 方差系数
ba 3 ( a b)
方差系数的范围
(,)
1
1
(,)
/u
21
3.3.1 点统计法
• 方差系数的计算方法
– 已知手工收集的数据为 X1,X2.X3....Xn, 则 – 均值: – 方差:
n X ( n) X / n i i 1
2 ( x) n [ X X (n)]2 / ( n 1) S i i 1
f (x)
1 ex / 0399 . 0399 .
38
3.4 参数的估计
某银行汽车服务窗口汽车到达间隔时间分布密度曲线
. f (x) 1 ex / 0399 0399 .
39
课堂练习
收集到某机械加工中心零件到达时间的200个数 据,经统计分析,得到这些数据的均值和方差分别 为
X(200)=0.356 2 (200) 0.126 0.3552 S
正态分布
7
3.1 概
理论分布--连续型分布
1
述
指数分布
8
3.1 概
理论分布--连续型分布
述
Gamma
=1
分布
=1 =2 =3
9
3.1 概
理论分布--离散型分布
述
泊松分布
10
3.1 概
述
除理论概率分布外,还有一种由已知数据建立 的经验分布。其公式如下:
0 k Fn x n 1
• •
• • • • •
顾客到达间隔时间 顾客服务时间
对于汽车转运站系统
汽车到达间隔时间 调度等待时间 装车时间 汽车故障间隔时间及处理时间
14
3.2 数据的采集与处理
2. 分析每个输入数据的特性,环境, 研究采集方法, 编制采集计划
3. 设计和绘制数据采集表格 4. 确定采集地点和时间 5. 按计划分组采集, 整理
– 方差系数:
S ( x) / X (n)
22
2
-
假设分布族例题
已知某银行系统汽车窗口顾客到达间隔时间已收 集好(如上表中所示,已经过排序),假设其分布 族 —1. 点统计法 • X(219)=0.399 2 • S(219)=0.144 • (219)= S 2 (x) / X (n) = 0.144 /0.399=0.951
6. 粗略地分析, 对不规范的数据要进行处理或重 新收集
7.采集的数据经整理后要认真存档 例:某银行汽车顾客到达间隔时间数据
15
16
3.3 数据分布的分析与假设分布族
基本原则
收集数据, 目的是分析数据的规律性(即分布)。以 找出这些数据变化的统计规律,并最终确定输入数据的 拟合概率分布。如何了解数据的规律呢?
为这些数据拟合一个分布函数,并估计其参数
40
3.4 参数的估计
参数估计值得到后, 还要对所选分布进行拟合 优度检验, 以便最后对所选分布作出结论. 这是第五节要讲的内容.
41
上一节内容的复习
–输入数据分析的步骤
• • • • • • • • • 1. 概述 2. 收集数据 3. 分析和判断数据的分布, 假设分布族 1) 点统计法 2) 柱状图法 3) 概论图法 4. 参数的估计 5. 拟合优度检验 6. 确定数据的分布
12
3.2 数据的采集与处理
对系统进行认真的调查和分析后,可初步确定 输入数据的种类和大致特性,接下来便是数据的 采集。数据的采集可以在所模拟的现实系统中进 行,也可以在所模拟系统的相近系统中进行。当
然,采集数据的环境与所模拟的系统环境越相似
越好。
13
3.2 数据的采集与处理
数据的收集和处理的内容和步骤: • 1. 按系统研究的目的和模型确定输入数据项 目 • 譬如: 对于单窗口排队系统
• 本章难点 • 1.为数据假设分布族的概率图法的原理 2 • 2.拟合优度检验中 检验和K-S检验的原理
2
3.1 概
述
• 为什么要对输入数据进行概率分析
由于模拟数据通常难以获得,我们必须寻 找一种理论上可行,实际上易于操作的方 法。科学、规范、合理地确定各种输入数 据的概率分布
数据大都属于某个随机过程,都是随机变 量。有了各种数据的概率分布才能产生合 适的足够多的输入数据,进而才能进行模拟
42
3.5 拟合优度检验
( Goodness - of - Fit Tests )
1. 拟合优度检验的目的
检验选定的分布是否与观测的数据相吻合
2. 拟合优度检验的原则
• H0假设: 观测数据 Xi 是以 F 为分布的 IID 随机变 量。 • 通过 H0 假设检验, 说明不能拒绝该假设. • 不拒绝假设, 并不等于接受假设. • IID ( independent identically distributed) • 即独立同一分布 • 只有 IID 随机变量才可能利用古典统计理论来分析
从方差系数表中可见, 由于方差系数接近于 1, 故可假设其分布族为指数分布。
23
3.3.2 柱状图法
– 用收集到的数据绘制柱状图(长条图), 然后与理论分布的密度函数相比较,选出形 状相近的理论分布
–1.绘制柱状图可采用手工方法或利用计算机绘图 (Math,Excel,SPSS) –2.直观、简便,但绘制的柱状图受所选择分区间 宽度影响
24
假设分布族例题
– 2. 柱状图法
– 按已知数据用SPSS软件绘制柱状图,该 柱状图形状与指数分布密度曲线相近故可再 次假设为指数分布
25
假设分布族例题
某银行汽车窗口顾客到达间隔时间柱状图
26
3.3.3 概率图法
– 用收集到的数据和估计的理论分布 的分布函数绘制概率图(Q—Q图),若 概率图呈直线,则该理论分布可作为假 设分布族
•
• • • • •
例: 某银行汽车服务窗口顾客到达间隔时 间所选分布 (指数分布)的检验 1.绘制柱状图 2.绘制所选分布的密度曲线 3.将两张图放在一起比较 4.观察拟合情况
45
3.5.1 直观评估检验
某银行汽车服务窗口顾客到达间隔时间柱状图
46
3.5.1 直观评估检验
某银行汽车服务窗口顾客到达间隔时间 所选指数分布的密度曲线
3.1 3.2 3.3 3.4 3.5
概述 数据的采集与处理 数据分布的分析与假设分布族 参数的估计 拟合优度检验
1
第3章 输入数据的分析
• 本章重点
• • • • 原理 1.输入数据分析的步骤 2.为数据假设分布族的点统计法 3.分布参数的点估计法 2检验)的 4.各种拟合优度检验方法(特别是
32
假设分布族例题
某银行汽车窗口顾客到达间隔时间概率图
33
假设分布族例题
结 论
由以上三种方法试探, 最后可假设 分布族为指数分布. 下一步应该确定分布的参数.
那一条是呢?
34
3.4
参数的估计
不同均值的指数分布密度曲线
35
3.4 参数的估计
• 1.参数的点估计
• 当所观测的数据直接用来计算未知参数的数值 时,称其为参数的点估计 • 最大似然法认为所观测的一组数据产生的概 率是最大的. • 因此最大似然法通常是求出选定分布的密度 函数,然后利用求导和判断极值的方法,求 出使这组数据产生概率最大值时的分布参数
29
3.3.3 概率图法
概率图的绘制方法:
-1 i - 0.5 比较点: ( Xi, G ( n ) ) 其中, G-1 为理论分布函数的反函数 Xi是所采集的第i个数据。
i - 0.5 为第 i 个分位点 q 值 i n 用比较点绘出的线若呈直线, 则说明两个 分布拟合较好。本方法的使用条件是理论分布 的反函数已知。
36
• 2.参数点估计的理论依据是最大似然法
3.4 参数的估计
• 依据最大似然法, 常用分布的参数估计如下:
– 指数分布: – 正态分布:
1 n exp(u) u X (n) xi n i 1
2 ) X (n) 1 n x n 1 S 2 (n) 1/ 2 N ( , n n i 1 i
当x x1 , 当x k x x k 1 , k 1, 2,..., n 1, 当x x n
这是一条非减、右连续函数.
11
3.1 概
述
3.1.2 输入数据概率分析的步骤
1.按系统研究的目的和模型确定输入数据项目。 2.根据数据特性、编织采集计划、收集数据 3.分析和判断数据的分布, 假设分布族 4.分布参数的估计 5.拟合优度检验 6.确定数据的分布
绘制概率图可使用概率纸或利用计算机绘图
27
3.3.3 概率图法
y 理论分布 G(x) 1
绘制概率图的原理
分位点 qi
经验分布 F(x)
Xi
G (qi) F (qi)
-1
-1
X
28
3.3.3 概率图法
• 绘制概率图的原理
• 如果两条曲线的大部分接近或重合,则说 明这两条曲线所代表的分布相似。用同一分位 点上qi两条曲线的反函数 F-1(qi)和G-1(qi) 作为二维坐标系上的点来绘制曲线,如果接近 一条直线,证明许多点上这两个值是相同或相 似的,说明它们可能服从同一分布。
43
3.5 拟合优度检验
• 拟合优度检验的方法:
• 1. 直观评估检验 (密度函数的直观比较) 2 • 2. 检验 (密度函数的统计比较) • 3. K - S 检验 (分布函数的统计比较)
44
3.5 拟合优度检验
• 3.5.1 直观评估检验:
• 将所选分布的密度函数曲线与数据的柱状 图绘制在一起,用眼睛进行比较,直观评估.
4
3.1 概
• 理论分布:
– 连续型概率分布: – 1. 均匀分布 – 2. 正态分布 – 3. 指数分布 – 4. Gamma 分布
述
3.1.1 输入数据常见的概率分布
离散型概率分布: 1. 二项分布 2. 泊松分布
• 经验分布:
– 按实际数据构成的分布
5
6
3.1 概
理论分布--连续型分布
述
3Baidu Nhomakorabea
当输入随机变量的分布已知时,可以直接生成相
应分布的随机数作为系统的输入。然而,在实际问题
中,对输入的总体分布一无所知,常常只能通过对系
统的观察,收集到感兴趣的输入随机变量的观察数据。
在这种情况下,常常通过对这些数据的分布形式
作假定、参数估计、分布拟合优度检验等过程,确定 输入随机变量的分布。 根据概率分布用适当的方法产生合适的、足够多 的输入数据,进而才能进行模拟。
– 泊松分布:
1 n Poisson( ) X (n) x n i 1 i
37
3.4 参数的估计
例
• 按最大似然法,银行汽车服务窗口顾客到达间 隔时间(例题)的均值可用观测数据的平均值来估算. 即: =X(219)=0.399 • • 是: 到此为止, 我们才初步确定这组数据的分布
. f (x) 1 ex / 0399 0399 .
18
3.3 数据分布的分析与假设分布族
基本方法
为了确定理论分布,有一些科学的方法可利用: – 本节仅介绍连续型数据的三种分析方法:
– – –
3.3.1 点统计法 3.3.2 柱状图法 3.3.3 概率图法
19
3.3.1 点统计法
• 某些连续分布的各参数之间存在特殊的关系, 它们构成的函数可用来判断分布的类型. – 这类函数之一是方(偏)差系数:
30
3.3.3 概率图法
-1( i - 0.5 ) ) ( Xi, G n
-1( i - 0.5) G n
概率图
X
Xi Q-Q图
31
假设分布族例题
– 3. 概率图法
– 用已知数据和指数分布的分布函数, – 利用 AXUM 软件(或SPSS)绘制概率图. – 该概率图近似呈直线, 故可假设这 些数据近似呈指数分布
1. 看看数据是否符合某个理论分布。为此,可 先按科学的方法假设一个理论分布,再利用 统计检验的手段来判断其是否符合这一分布。 2. 如果找不到一个合适的理论分布,可以 利用已有的数据建立一个经验分布。
17
3.3 数据分布的分析与假设分布族
采用理论分布的优点
不仅可以表现已知数据的基本特性,更重要的是 可以表现没有采集到的所有数据的特性 现实世界中大多数管理系统内的各类随机过程都 有一定的概率分布规律 几乎可以产生无限量的数据,从而满足长时间模 拟的需要
Var(x) / E(x)
其中: Var(x) 为分布的方差 E(x) 为分布的期望值 (均值) 各种分布的方差系数见表3.3. 根据表中的 规律,当计算出方差系数后, 可估计分布类型.
20
3.3.1 点统计法
表3.3 常用连续型分布的方差系数
分布 均匀分布 U[a,b] 指数分布 正态分布 方差系数
ba 3 ( a b)
方差系数的范围
(,)
1
1
(,)
/u
21
3.3.1 点统计法
• 方差系数的计算方法
– 已知手工收集的数据为 X1,X2.X3....Xn, 则 – 均值: – 方差:
n X ( n) X / n i i 1
2 ( x) n [ X X (n)]2 / ( n 1) S i i 1
f (x)
1 ex / 0399 . 0399 .
38
3.4 参数的估计
某银行汽车服务窗口汽车到达间隔时间分布密度曲线
. f (x) 1 ex / 0399 0399 .
39
课堂练习
收集到某机械加工中心零件到达时间的200个数 据,经统计分析,得到这些数据的均值和方差分别 为
X(200)=0.356 2 (200) 0.126 0.3552 S
正态分布
7
3.1 概
理论分布--连续型分布
1
述
指数分布
8
3.1 概
理论分布--连续型分布
述
Gamma
=1
分布
=1 =2 =3
9
3.1 概
理论分布--离散型分布
述
泊松分布
10
3.1 概
述
除理论概率分布外,还有一种由已知数据建立 的经验分布。其公式如下:
0 k Fn x n 1
• •
• • • • •
顾客到达间隔时间 顾客服务时间
对于汽车转运站系统
汽车到达间隔时间 调度等待时间 装车时间 汽车故障间隔时间及处理时间
14
3.2 数据的采集与处理
2. 分析每个输入数据的特性,环境, 研究采集方法, 编制采集计划
3. 设计和绘制数据采集表格 4. 确定采集地点和时间 5. 按计划分组采集, 整理
– 方差系数:
S ( x) / X (n)
22
2
-
假设分布族例题
已知某银行系统汽车窗口顾客到达间隔时间已收 集好(如上表中所示,已经过排序),假设其分布 族 —1. 点统计法 • X(219)=0.399 2 • S(219)=0.144 • (219)= S 2 (x) / X (n) = 0.144 /0.399=0.951
6. 粗略地分析, 对不规范的数据要进行处理或重 新收集
7.采集的数据经整理后要认真存档 例:某银行汽车顾客到达间隔时间数据
15
16
3.3 数据分布的分析与假设分布族
基本原则
收集数据, 目的是分析数据的规律性(即分布)。以 找出这些数据变化的统计规律,并最终确定输入数据的 拟合概率分布。如何了解数据的规律呢?
为这些数据拟合一个分布函数,并估计其参数
40
3.4 参数的估计
参数估计值得到后, 还要对所选分布进行拟合 优度检验, 以便最后对所选分布作出结论. 这是第五节要讲的内容.
41
上一节内容的复习
–输入数据分析的步骤
• • • • • • • • • 1. 概述 2. 收集数据 3. 分析和判断数据的分布, 假设分布族 1) 点统计法 2) 柱状图法 3) 概论图法 4. 参数的估计 5. 拟合优度检验 6. 确定数据的分布
12
3.2 数据的采集与处理
对系统进行认真的调查和分析后,可初步确定 输入数据的种类和大致特性,接下来便是数据的 采集。数据的采集可以在所模拟的现实系统中进 行,也可以在所模拟系统的相近系统中进行。当
然,采集数据的环境与所模拟的系统环境越相似
越好。
13
3.2 数据的采集与处理
数据的收集和处理的内容和步骤: • 1. 按系统研究的目的和模型确定输入数据项 目 • 譬如: 对于单窗口排队系统
• 本章难点 • 1.为数据假设分布族的概率图法的原理 2 • 2.拟合优度检验中 检验和K-S检验的原理
2
3.1 概
述
• 为什么要对输入数据进行概率分析
由于模拟数据通常难以获得,我们必须寻 找一种理论上可行,实际上易于操作的方 法。科学、规范、合理地确定各种输入数 据的概率分布
数据大都属于某个随机过程,都是随机变 量。有了各种数据的概率分布才能产生合 适的足够多的输入数据,进而才能进行模拟
42
3.5 拟合优度检验
( Goodness - of - Fit Tests )
1. 拟合优度检验的目的
检验选定的分布是否与观测的数据相吻合
2. 拟合优度检验的原则
• H0假设: 观测数据 Xi 是以 F 为分布的 IID 随机变 量。 • 通过 H0 假设检验, 说明不能拒绝该假设. • 不拒绝假设, 并不等于接受假设. • IID ( independent identically distributed) • 即独立同一分布 • 只有 IID 随机变量才可能利用古典统计理论来分析
从方差系数表中可见, 由于方差系数接近于 1, 故可假设其分布族为指数分布。
23
3.3.2 柱状图法
– 用收集到的数据绘制柱状图(长条图), 然后与理论分布的密度函数相比较,选出形 状相近的理论分布
–1.绘制柱状图可采用手工方法或利用计算机绘图 (Math,Excel,SPSS) –2.直观、简便,但绘制的柱状图受所选择分区间 宽度影响
24
假设分布族例题
– 2. 柱状图法
– 按已知数据用SPSS软件绘制柱状图,该 柱状图形状与指数分布密度曲线相近故可再 次假设为指数分布
25
假设分布族例题
某银行汽车窗口顾客到达间隔时间柱状图
26
3.3.3 概率图法
– 用收集到的数据和估计的理论分布 的分布函数绘制概率图(Q—Q图),若 概率图呈直线,则该理论分布可作为假 设分布族
•
• • • • •
例: 某银行汽车服务窗口顾客到达间隔时 间所选分布 (指数分布)的检验 1.绘制柱状图 2.绘制所选分布的密度曲线 3.将两张图放在一起比较 4.观察拟合情况
45
3.5.1 直观评估检验
某银行汽车服务窗口顾客到达间隔时间柱状图
46
3.5.1 直观评估检验
某银行汽车服务窗口顾客到达间隔时间 所选指数分布的密度曲线