概率分布的正态性检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Matlab相关命令
数据统计处理基本命令
– 最值:max(x), min(x)
(1)max(X):返回向量X的最大值,如果X中包含复数元素,则按模取 最大值。 (2) max(A):返回一个行向量,向量的第i个元素是矩阵A的第i列上的 最大值。 (3) [Y,U]=max(A):返回行向量Y和U,Y向量记录A的每列的最大值, U向量记录每列最大值的行号。 (4) max(A,[],dim):dim取1或2。dim取1时,该函数和max(A)完全相 同;dim取2时,该函数返回一个列向量,其第i个元素是A矩阵的第i行 上的最大值。
B4 A4 4 A1A3 6 A2 A12 3A14
带入观察值得
g1 0.1363, g2 3.0948
由拒绝域的公式,所以拒绝域为:
| u1 || g1 / 1 | 1.96 或 | u2 |(| g2 2)/ 2 | 1.96
现算得:| u1 | 0.5285 1.96 , | u2 | 0.3381 1.96
认为拟合是满意的即接收H0。
K-S检验只能做标准正态分布的检验,所 以,用该方法检验前先将数据中心化
Z =ZSCORE(X) , 然后再对Z进行检验。
三、Lilliefor正态性检验
该检验是对Kolmogorov-Smirnov检验的 修正,参数未知时,由 ˆ X ,ˆ 2 S 2可计算得 检验统计量 Dˆn 的值。
数据统计处理基本命令
– 累加和与累乘积
在MATLAB中,使用cumsum和cumprod函数能方便地求得向 量和矩阵元素的累加和与累乘积向量,函数的调用格式为:
cumsum(X):返回向量X累加和向量。 cumprod(X):返回向量X累乘积向量。 cumsum(A):返回一个矩阵,其第i列是A的第i列的累加和向量。 cumprod(A):返回一个矩阵,其第i列是A的第i列的累乘积向量。 cumsum(A,dim):当dim为1时,该函数等同于cumsum(A);当dim 为2时,返回一个矩阵,其第i行是A的第i行的累加和向量。 cumprod(A,dim):当dim为1时,该函数等同于cumprod(A);当dim 为2时,返回一个向量,其第i行是A的第i行的累乘积向量。
累积分布函数(cdf)
函数名称 normcdf chi2cdf
表 累积分布函数(cdf)
函数说明
调用格式
正态分布
P=normcdf (X, MU, SIGMA)
2 分布
P=chi2cdf (X, N)
tcdf
t 分布
fcdf
141 148 132 138 147 148 144 150 126 140 144 142 140 146 142 137 141 149 148 135 150 132 142 142 142 137 134 144
154 142 150 149 145 149 141 140 145 148 154 137 148 152 143 143 153 149 146 147 140
(四)Shapiro-Wilk(W检验)
检验统计量:W
n i1
n
ai a
2
Xi X
n
2
2
ai a
Xi X
i 1
i 1
当原假设为真时,W的值应接近于1,若值过小,
则怀疑原假设,从而拒绝域为
R={W ≤c}
在给定的α下,可求出临界值c。
步骤:
• 将数据按数值大小重新排列,使
~
N (0,1)
H0为真,当n充分大一般说来G1与v1的偏离不
应该太大,同样G2与v2的偏离也不应该太大。取显
著水平α下, H0的拒绝域为:
| u1 | z /4 或 | u2 | z /4
例1 下面给出了84个伊特拉斯坎(Etruscan)人
男子的头颅的最大宽度(mm), 现在来画这些
数据的“频率直方图”.
• 随机变量X的偏度和峰度指的是X的标准化变量的
三阶矩和四阶矩:
v1
E[(
X
E(X D(X )
) )3 ]
E( X E( X ))3 (D( X ))3/2
v2
E[(
X
E(X D(X )
) )4 ]
E(X E(X (D( X ))2
))4
• 当随机变量X服从正态分布时
v1 0, v2 3
故接收H0。 Matlab中计算命令: skewness(偏度) kurtosis(峰度)
(二)K-S检验(D检验)
用 Fn(x)表示样本量为n的随机样本观察 值的累计分布函数,且Fn(x) =i/n (i是等于或 小于x的所有观察结果的数目,i=1,2,…,n)。 F(x)表示正态分布的累计概率分布函数。
146 155 158 150 140 158 143 141 144 144 135 147 146 141 136 139 143 140 131 143 144 141 143 147 146 146 149 138 142 149 142 140 137 152 145
解:H0 : X 服从正态分布 H1 : X 不服从正态分布
【例】 绘制标准正态分布的概率密 度图. x=-4:0.1:4; y=normpdf(x,0,1); plot(x,y) title('N(0,1)的概率密度曲线图')
【例】绘制卡方分布密度函数在自 由度分别为1、5、15的图形 x=0:0.1:30; y1=chi2pdf(x,1); plot(x,y1,':') hold on
6(n 2) (n 1)(n 2)
U1 ~ N (0,1)
U2
G2 2 2
2
=3
n
6
1
2
24n(n 2)(n 3) (n 1)2(n 3)(n 5)
U2 ~ N (0,1)
H0 : X 服从正态分布 H1 : X 不服从正态分布
检验统计量:
U1
G1
1
~
N (0,1)
U2
G2 2 2
– 乘积:
(1)prod(X) ,返回向量X各元素的乘积。 (2) prod (A) , 返回一个行向量,其第i个元素是A的第i列元素的乘积。 (3) prod(A,dim) ,当dim为1时,该函数等同于prod(A);当dim为2时,返 回一个列向量,其第i个元素是A的第i行的各元素之乘积。
Matlab相关命令
若X服从正态分布,当n充分大时
G1
B3 B3/2
2
~
N (0, 6(n 2) ) (n 1)(n 2)
Bk E{( X E( X ))k}, k 2, 3, 4
G2
B4 B22
~
N(3
6 24n(n 2)(n 3) n 1, (n 1)2(n 3)(n 5))
U1
G1
1
1
0.1, n 84,1
6(n 2) 0.2579 (n 1)(n 2)
2 =3
n
6 1
2.9294, 2
24n(n 2)(n 3) (n 1)2(n 3)(n 5)
0.4892
z /4 1.96
计算样本中心距:
Ak
1 n
n i 1
X
k i
B2 A2 A12 , B3 A3 3A2 A1 2 A13
[Y,I]=sort(A,dim) 其中dim指明对A的列还是行进行排序。若dim=1,则按列排;若 dim=2时,则按行排。Y是排序后的矩阵,而I记录Y中的元素在A中位 置。
Matlab相关命令
数据统计处理基本命令
类似的用法,请自己借助matlab在线帮助功能自己了解: – 中位数:median(x) – 标准差:std(x) – 方差:var(x) – 偏度:skewness(x) – 峰度:kurtosis(x)
x(1) , x(2) , x(n)
• 计算
W
k i1
k
ai a X i X
2n
2
~ W分布
2
ai a
X i X
i 1
i 1
ai 有表可以查。
若W值小于判断界限值Wα(可通过查表求 得),按表上行写明的显著性水平α舍弃正态
性假设;若W>Wα,接受正态性假设。
正态性方法比较
• 1 建立假设组:
H0:Fn(x)=F(x) H1: Fn(x)≠ F(x) • 2 计算样本累计频率与理论分布累计概率的绝对差
异,令最大的绝对差为Dn;
Dn
max
x
F ( x) Fn ( x)
~ K分布
• 3.用样本容量n和显著水平α查出临界值Dnα ;
• 4.通过Dn与Dnα的比较做出判断,若Dn< Dnα ,则
Matlab相关命令
数据统计处理基本命令
– 相关系数
MATLAB提供了corrcoef函数,可以求出数据的相关系数矩阵。 corrcoef函数的调用格式为:
• corrcoef(X):返回从矩阵X形成的一个相关系数矩阵。此相关系数矩 阵的大小与矩阵X一样。它把矩阵X的每列作为一个变量,然后求它 们的相关系数。
• corrcoef(X,Y):在这里,X,Y是向量,它们与corrcoef([X,Y])的作用一 样。
Matlab相关命令
数据统计处理基本命令
– 排序
MATLAB中对向量X是排序函数是sort(X),函数返回一个对X中 的元 素按升序排列的新向量。
sort函数也可以对矩阵A的各列或各行重新排序,其调用格式为:
K-S单样本检验通过样本的累计分布函数Fn(x) 和理论分布函数F(x)的比较来做拟合优度检验。
检验统计量是F(x)与Fn(x)间的最大偏差Dn:
Dn max F(x) Fn (x)
若对每一个x值来说, F(x)与Fn(x)都十分接近, 则表明实际样本的分布函数与理论分布函数的拟合 程度很高。
• 5.拟合优度检验和K-S检验都采用实际频数和期望 频数的差进行检验,前者既可用于连续型总体,又 可用于离散型总体,而K-S检验只适用于连续和定量 数据。 • 6.拟合优度检验的检验结果依赖于分组,而其他 方法的检验结果与区间划分无关。 • 7.偏度和峰度检验易受异常值的影响,检验功效 就会降低。 • 8.假设检验的目的是拒绝原假设,当p值不是很大 时,应根据数据背景再作讨论。
常见的概率分布
二项式分布 卡方分布 指数分布 F分布 几何分布 正态分布 泊松分布 T分布 均匀分布 离散均匀分布
Binomial Chisquare Exponential F Geometric Normal Poisson T Uniform Discrete Uniform
bino chi2 exp f geo norm poiss t unif unid
非参数检验
正态检验法
• 偏度、峰度检验法(样本容量大于100) • K-S正态性检验 • Lilliefor正态性检验 • W检验(2<n ≤50 )
(一)偏度、峰度检验法
由于中心极限定理知道,正态分布随机变量是 较为广泛地存在,因此,当研究一个连续型总体时 候,往往先考察它是否服从正态分布。
下面来介绍“偏度、峰度检验法”。
• 1.经常使用的拟合优度检验和K-S检验的检验功效 较低,在许多计算机软件的K-S检验无论是大小样本 都用大样本近似的公式,很不精准,一般使用 Shapiro-Wilk检验和Lilliefor检验。 • 2. K-S检验法只能检验样本是否来自于一个已知样 本,而Lilliefor检验可以检验是否来自未知总体。 • 3. Shapiro-Wilk检验和Lilliefor检验都是进行大小 排序后得到的,所以易受异常值的影响。 • 4. Shapiro-Wilk检验只适用于小样本场合(3~50), 其他检验方法的检验功效一般随样本容量的增大而 增大。
概率密度函数
函数名称 normpdf chi2pdf
表 概率密度函数(pdf)
函数说明
调用格式
ห้องสมุดไป่ตู้
正态分布
Y=normpdf (X, MU, SIGMA)
2 分布
Y=chi2pdf (X, N)
tpdf
t 分布
fpdf
F 分布
Y=tpdf (X, N) Y=fpdf (X, N1, N2)
注意: Y=normpdf (X, MU, SIGMA)的 SIGMA 是指标准差 , 而非 2 .
Matlab相关命令
数据统计处理基本命令
– 求和:
(1)sum(X),返回向量X各元素的和。 (2) sum(A) ,返回一个行向量,其第i个元素是A的第i列的元素和。 (3)sum(A,dim) ,当dim为1时,该函数等同于sum(A);当dim为2时,返 回一个列向量,其第i个元素是A的第i行的各元素之和。