数据的分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 组距对直方图的形态有很大的影响,组距太小,每组的 频数较少,因随机性的影响,邻近区间上的频数会很大; 组距太大,直方图所反映概率密度的形态就不灵敏.
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
如果数据来自具有概率密度 f (x)的总体的样本,直 方图可以作为对总体概率密度 f (x)的估计。直方图的形 态在顶部为折线,而一些常用的概率密度曲线都是光滑
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
(-1(
i 0.375 n 0.25
),
x( i )
),1
i
n
若样本数据近似于正态分布,在QQ图上这些点近似
地在直线 y x 附近,此直线的斜率是标准差 ,
截距是均值 。所以,理应正态QQ图可以做直观的正态
曲线。参数分布拟合就是在限定的参数分布类(如正态 分布)中通过对参数的估计,用估计得到的参数所对应
的密度曲线去拟合直方图顶部的形态。SAS系统中提供的
的参数分布类型主要有:
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
1)正态分布
i
1,
n , x(i) x x(n)
x
x(i1),1in1
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
经验分布函数 Fn (x)是非降的阶梯函数,在 x(i)处的跃度
是
1 n
k (若x(i)重复取值k次,则跃度为 n
)。经验分
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
• 对于数据分布,常用直方图进行描述.将数据取值的范 围分成若干区间, 区间的长度称为组距.考察数据落入 每一区间的频数与频率,在每个区间上画一矩形,它的 宽度是组距,它的高度可以是频数、频率或频率/组距, 在高度是频率/组距的情况,每一矩形的面积恰是数据 落入区间的频率,这种直方图可估计总体的概率密度.
f
(
x)
1
(
)
(
x
)
1
exp(
x
),
x
0,其他
5)Weibull分布
f
(x)
1
(
x
)c1
exp((
x
)c
),
x
0,其他
6)Beta分布( (a,b))
f
(x)
(x
)a1( x)b1 B(a,b) ab1
,
x
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
第一章 数据描述性分析
第二节
2020年5月8日星期五
第一章
数据的分布
一、直方图,分布函数与QQ图 二、茎叶图,箱线图及五数总括 三、正态性检验与分布检验
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
数据的分布
2020年5月8日星期五
• 数据的数字特征刻画了数据的主要特征,而要对 数据的总体情况作全面的描述,就要研究数据的 分布。对数据分布的主要描述方法是直方图与茎 叶图、数据的理论分布即总体分布。数据分析的 一个重要问题是要研究数据是否来自正态总体, 这是分布的正态性检验的问题。
检验。若正态QQ图上的点近似的在一条直线的附近,可
以认为样本数据来自正态分布总体。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
上面提到的对数正态、指数和Weibull这几类分布, 也可以做相应的QQ图,用以鉴别样本数据是否来自某一 类型的总体分布。
以上直方图的制作较适合于总体为连续型分布的场 合。对于一般总体分布,若要估计它的总体分布函数
F ( x) ,可以用经验分布函数作估计。设来自总体分布
F(x) 的样本是 x1, x2,..., xn ,其次序统计量是 x(1), x(2),
..., x(n),经验分布函数是
0, x x(1)
Fn (x)
布函数 Fn (x)是总体分布函数的相合估计。因此,当 n
充分大时
F (x) Fn (x)
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
不论是直方图还是经验分布图,要从图上鉴别样本 是否近似于某种类型的分布是困难的。QQ图可以帮助 我们鉴别样本的分布是否近似于某种类型的分布。
f (x)
1
2
exp(
(x )2 2 2
)
2)对数正态分布
f
(x)
2
1
(
x
)
exp(
(log(
x ) 2 2
)
2
),
x
0,其他
3)指数分布
f
(
x)
1
exp(
x
),
x
0,其他
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
wenku.baidu.com
2020年5月8日星期五
4) 分布(Gamma分布)
2020年5月8日星期五
关于Weibull分布的图形,见图1.4(取 0)。
图 1.4
上述分布中,正态分布是最为常用的分布,其他 几种分布也是质量控制和可靠性分析等领域中经常使
用的分布。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
现假定总体分布为正态分布 N (, 2),对于样本
x1, x2,..., xn ,其次序统计量是 x(1), x(2),..., x(n)。设(x) 是标准正态分布 N (0,1)的分布函数, -1(x) 是其反函
数。对应正态分布的QQ图是由以下的点构成的散点图:
NORTH UNIVERSITY OF CHINA
用QQ图还可以获得样本偏度和峰度的相关信息。当 样本数据不是来自正态分布总体时,QQ图的散点图形是 弯曲的,并可根据图像弯曲的某些特点判断偏度和峰度
的正负(见图1.5)。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
NORTH UNIVERSITY OF CHINA
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
如果数据来自具有概率密度 f (x)的总体的样本,直 方图可以作为对总体概率密度 f (x)的估计。直方图的形 态在顶部为折线,而一些常用的概率密度曲线都是光滑
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
(-1(
i 0.375 n 0.25
),
x( i )
),1
i
n
若样本数据近似于正态分布,在QQ图上这些点近似
地在直线 y x 附近,此直线的斜率是标准差 ,
截距是均值 。所以,理应正态QQ图可以做直观的正态
曲线。参数分布拟合就是在限定的参数分布类(如正态 分布)中通过对参数的估计,用估计得到的参数所对应
的密度曲线去拟合直方图顶部的形态。SAS系统中提供的
的参数分布类型主要有:
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
1)正态分布
i
1,
n , x(i) x x(n)
x
x(i1),1in1
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
经验分布函数 Fn (x)是非降的阶梯函数,在 x(i)处的跃度
是
1 n
k (若x(i)重复取值k次,则跃度为 n
)。经验分
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
• 对于数据分布,常用直方图进行描述.将数据取值的范 围分成若干区间, 区间的长度称为组距.考察数据落入 每一区间的频数与频率,在每个区间上画一矩形,它的 宽度是组距,它的高度可以是频数、频率或频率/组距, 在高度是频率/组距的情况,每一矩形的面积恰是数据 落入区间的频率,这种直方图可估计总体的概率密度.
f
(
x)
1
(
)
(
x
)
1
exp(
x
),
x
0,其他
5)Weibull分布
f
(x)
1
(
x
)c1
exp((
x
)c
),
x
0,其他
6)Beta分布( (a,b))
f
(x)
(x
)a1( x)b1 B(a,b) ab1
,
x
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
第一章 数据描述性分析
第二节
2020年5月8日星期五
第一章
数据的分布
一、直方图,分布函数与QQ图 二、茎叶图,箱线图及五数总括 三、正态性检验与分布检验
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
数据的分布
2020年5月8日星期五
• 数据的数字特征刻画了数据的主要特征,而要对 数据的总体情况作全面的描述,就要研究数据的 分布。对数据分布的主要描述方法是直方图与茎 叶图、数据的理论分布即总体分布。数据分析的 一个重要问题是要研究数据是否来自正态总体, 这是分布的正态性检验的问题。
检验。若正态QQ图上的点近似的在一条直线的附近,可
以认为样本数据来自正态分布总体。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
上面提到的对数正态、指数和Weibull这几类分布, 也可以做相应的QQ图,用以鉴别样本数据是否来自某一 类型的总体分布。
以上直方图的制作较适合于总体为连续型分布的场 合。对于一般总体分布,若要估计它的总体分布函数
F ( x) ,可以用经验分布函数作估计。设来自总体分布
F(x) 的样本是 x1, x2,..., xn ,其次序统计量是 x(1), x(2),
..., x(n),经验分布函数是
0, x x(1)
Fn (x)
布函数 Fn (x)是总体分布函数的相合估计。因此,当 n
充分大时
F (x) Fn (x)
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
直方图、经验分布函数与QQ图
不论是直方图还是经验分布图,要从图上鉴别样本 是否近似于某种类型的分布是困难的。QQ图可以帮助 我们鉴别样本的分布是否近似于某种类型的分布。
f (x)
1
2
exp(
(x )2 2 2
)
2)对数正态分布
f
(x)
2
1
(
x
)
exp(
(log(
x ) 2 2
)
2
),
x
0,其他
3)指数分布
f
(
x)
1
exp(
x
),
x
0,其他
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
wenku.baidu.com
2020年5月8日星期五
4) 分布(Gamma分布)
2020年5月8日星期五
关于Weibull分布的图形,见图1.4(取 0)。
图 1.4
上述分布中,正态分布是最为常用的分布,其他 几种分布也是质量控制和可靠性分析等领域中经常使
用的分布。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
现假定总体分布为正态分布 N (, 2),对于样本
x1, x2,..., xn ,其次序统计量是 x(1), x(2),..., x(n)。设(x) 是标准正态分布 N (0,1)的分布函数, -1(x) 是其反函
数。对应正态分布的QQ图是由以下的点构成的散点图:
NORTH UNIVERSITY OF CHINA
用QQ图还可以获得样本偏度和峰度的相关信息。当 样本数据不是来自正态分布总体时,QQ图的散点图形是 弯曲的,并可根据图像弯曲的某些特点判断偏度和峰度
的正负(见图1.5)。
NORTH UNIVERSITY OF CHINA
《数据分析》电子教案
第一章 数据描述性分析
2020年5月8日星期五
NORTH UNIVERSITY OF CHINA