第九讲MATLAB基本统计分析说课讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638
699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581
1.数据的下、上截断点
计算上、下截断点的公式如下: Q 1 1 .5R , Q 3 1 .5R
其中,R为四分位极差,Q1,Q3 分别称为下四分位数与 上四分位数 .
对于0≤p<1,和样本容量为n的样本 X 1,X 2,..X .n其, 次序统计量记为: X(1),X(2),...,X(n) 于是计算样本的P分位数的公式为:
mean
变异特征 极差
MATLAB函数 range
中位数
median
方差
var
切尾平均
trimmean
标准差
std
几何平均
geomean
四分位极差 iqr
调和平均
harmmean 平均绝对偏差 mad
例4. 已知数据:
459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851
Mpxx(([nnpp)]1)x(np1)/2, ,npn不 p是 是 整 整 数 数
显然
Q 1 M 0 .2,Q 5 3 M 0 .75
例6. 判别例4中的数据有无异常值.
解:由x=sort(a(:)) 得到原数据从小到大的次序统计量,因为np为整数, 故有:
Q1=(x(25)+x(26))/2=485.5, Q3=(x(75)+x(76))/2=729, R = 243.5 于是,Q1-1.5R=120.25,Q3+1.5R=1094.25, 由此可知: 80,120,1153是异常值.
如果例5的数据全部为1,则各种平均值都应等于1, 所有的变异特征全部为零,由于有一个异常值100,于 是导致上述的一些特征受影响(不稳健),但是中位数、 切尾平均与四分位极差没有改变,它们对异常值是稳健 的.
三. 异常值的判别 在探索性数据分析时,有一种判别异常值的简单
方法,首先计算数据的下、上截断点,数据中小于下截 断点的数据为特小值,大于上截断点的数据为特大值, 二者都是异常值.
第九讲MATLAB基本统计分析
已知X的均值和标准差及概率p=P{X<x},求x的命令为:
X = NORMINV(P,MU,SIGMA) 例2. X~N(1,0.04) , p{X<x}=0.6827 求x 解:x = norminv(0.6827,1,0.2)= 1.0951
NORMSPEC([a,b],MU,SIGMA) 用于做出随机变量在区间[a,b]上的正态密度曲线 例3. 若X~N(2,4),作出 X在[-1,3]上的曲线 解: normspec([-1,3],2,2)
解:x=[1,1,1,1,1,1,100]; y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);
range(x),var(x),std(x),iqr(x),mad(x)]
计算结果为: y= 15.143 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245
621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851];
b=a(:); %将矩阵变成数列
T=[mean(b),median(b), trimmean(b,10), geomean(b), harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)]
计算结果如下:
位置特征
计算结果
算术平均 中位数 切尾平均 几何平均 调和平均
600 599.5 600.64 559.68 499.06
变异特征 极差 方差 标准差 四分位极差 平均绝对偏差
计算结果 1069 38663.03 196.629 243.5 150.86
例5. 已知数据:1,1,1,1,1,1,100;计算其数 据特征,由此你有何发现?
计算该数据特征.
解:a=[459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659
图形如右图所示
(图7来自百度文库1)
二. 数据特征
设X 1,X 2,..X .n,是取自总体X的一个简单随机样本, 在n次抽样以后得到样本的一组观测值 x1,x2,.我.x.n, 们通过对数据的分析研究可以得到总体X的有关信息, 在MATLAB中有专门的函数分析数据特征,如下表所 示.
位置特征 算术平均
MATLAB函 数
2. 位于 (-3 ,3 )以外的点
若数据服从正态分布 N(,2 ),则称位于
(-3 ,3 )以外的点 为异常点.
四. 矩统计量 在MATLAB中给出了计算矩统计量、峰度、偏度
和变异系数的函数命令,如下表所示:
699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581
1.数据的下、上截断点
计算上、下截断点的公式如下: Q 1 1 .5R , Q 3 1 .5R
其中,R为四分位极差,Q1,Q3 分别称为下四分位数与 上四分位数 .
对于0≤p<1,和样本容量为n的样本 X 1,X 2,..X .n其, 次序统计量记为: X(1),X(2),...,X(n) 于是计算样本的P分位数的公式为:
mean
变异特征 极差
MATLAB函数 range
中位数
median
方差
var
切尾平均
trimmean
标准差
std
几何平均
geomean
四分位极差 iqr
调和平均
harmmean 平均绝对偏差 mad
例4. 已知数据:
459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851
Mpxx(([nnpp)]1)x(np1)/2, ,npn不 p是 是 整 整 数 数
显然
Q 1 M 0 .2,Q 5 3 M 0 .75
例6. 判别例4中的数据有无异常值.
解:由x=sort(a(:)) 得到原数据从小到大的次序统计量,因为np为整数, 故有:
Q1=(x(25)+x(26))/2=485.5, Q3=(x(75)+x(76))/2=729, R = 243.5 于是,Q1-1.5R=120.25,Q3+1.5R=1094.25, 由此可知: 80,120,1153是异常值.
如果例5的数据全部为1,则各种平均值都应等于1, 所有的变异特征全部为零,由于有一个异常值100,于 是导致上述的一些特征受影响(不稳健),但是中位数、 切尾平均与四分位极差没有改变,它们对异常值是稳健 的.
三. 异常值的判别 在探索性数据分析时,有一种判别异常值的简单
方法,首先计算数据的下、上截断点,数据中小于下截 断点的数据为特小值,大于上截断点的数据为特大值, 二者都是异常值.
第九讲MATLAB基本统计分析
已知X的均值和标准差及概率p=P{X<x},求x的命令为:
X = NORMINV(P,MU,SIGMA) 例2. X~N(1,0.04) , p{X<x}=0.6827 求x 解:x = norminv(0.6827,1,0.2)= 1.0951
NORMSPEC([a,b],MU,SIGMA) 用于做出随机变量在区间[a,b]上的正态密度曲线 例3. 若X~N(2,4),作出 X在[-1,3]上的曲线 解: normspec([-1,3],2,2)
解:x=[1,1,1,1,1,1,100]; y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);
range(x),var(x),std(x),iqr(x),mad(x)]
计算结果为: y= 15.143 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245
621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851];
b=a(:); %将矩阵变成数列
T=[mean(b),median(b), trimmean(b,10), geomean(b), harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)]
计算结果如下:
位置特征
计算结果
算术平均 中位数 切尾平均 几何平均 调和平均
600 599.5 600.64 559.68 499.06
变异特征 极差 方差 标准差 四分位极差 平均绝对偏差
计算结果 1069 38663.03 196.629 243.5 150.86
例5. 已知数据:1,1,1,1,1,1,100;计算其数 据特征,由此你有何发现?
计算该数据特征.
解:a=[459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659
图形如右图所示
(图7来自百度文库1)
二. 数据特征
设X 1,X 2,..X .n,是取自总体X的一个简单随机样本, 在n次抽样以后得到样本的一组观测值 x1,x2,.我.x.n, 们通过对数据的分析研究可以得到总体X的有关信息, 在MATLAB中有专门的函数分析数据特征,如下表所 示.
位置特征 算术平均
MATLAB函 数
2. 位于 (-3 ,3 )以外的点
若数据服从正态分布 N(,2 ),则称位于
(-3 ,3 )以外的点 为异常点.
四. 矩统计量 在MATLAB中给出了计算矩统计量、峰度、偏度
和变异系数的函数命令,如下表所示: