Matlab统计工具箱
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
2.2
功能:可选分布的概率密度函数。
格式:Y=pdf(‘name’,X,A1,A2,A3) 说明:‘name’为特定分布的名称,如 ‘Normal’,’Gamma’等。X为分布函数的自变量X的取 值矩阵,而A1,A2,A3分别为相应的分布参数值。Y给 A1,A2,A3 Y 出结果,为概率密度值矩阵。 举例:p=pdf(‘Normal’,-2:2,0,1) 给出标准正态分布在-2到2的分布函数值。 而p=pdf(‘Poisson’,0:4,1:5)给出Poisson分布函数。
11
均值和方差
和以上其他函数不同的是均值和方差的运算没有通 用的函数,只能用各个分布的函数计算。对应于正 态分布的计算函数为normstat();
它返回两个参数的向量,分别为均值和方差。 举例:[m,n]=normstat(mu,sigma)
12
三.参数估计 参数估计
参数估计: 参数估计 某分布的数学形式已知,应用子样信息来 某分布的数学形式已知 应用子样信息来 估计其有限个参数的值
27
4.5处理缺失数据的函数
在对大量的数据样本进行处理分析时,常会遇到一些 数据无法找到或不能确定的情况。这时可用NaN标注 这个数据。而工具箱中有一些函数自动处理它们。 如 :忽视NaN, 求其他数据的最大值的nanmax. 格式:m=nanmax(X) 举例:m=magic(3); m([1 6 8])=[NaN NaN NaN] [nmax,maxidx]=nanmax(m)
26
4.4 Matlab里有关散布度量计算的函数
在Matlab里,有关散布度量计算的函数为: 1:计算样本的内四分位数间距的 iqr(X). 2:求样本数据的平均绝对偏差的 mad(X). 3:计算样本极差的 range(X). 4: 计算样本方差的 var(X,w). 5: 求样本的标准差的 std(X). 6: 求协方差矩阵的cov(X). 这些函数的详细说明可以参见Matlab的帮助文档。
连续型概率密度函数定义为:如存在非负函数p(x) ≥0, 使对任意b≥a, X 在(a,b)上取值概率为p{a<X<b}= ∫a p ( x ) dx ;则称 p(x)为随机变量X的概率密度函数。 二:累积分布 (cdf):它取决于pdf. 表达式为 x F(x)= ∫ p(υ )d.υ
−∞
b
逆累积分布(icdf):实际上是cdf的逆,它返回给定显著 概率条件下假设检验的 临界值。
18
四 描述性统计
概述: 人们希望用少数样本来体现样本总体的规律。 描述性统计就是收集、整理、加工和分析统 计数据,使之系统化、条理化,以显示出数 据资料的趋势、特征和数量关系。 根据统计量特征性质的不同,工具箱提供了 位置度量、散布度量、自助法以及在缺失数 据情况下处理方法等方面的描述性统计工具 函数。
每种分布提供5类函数:
1 概率密度 4 随机数产生器 2 (累积)分布函数 3 逆累积分布函数 5 均值和方差函数.
5
1.1.3另外 大功能 另外4大功能 另外
*参数估计 依据原始数据计算参数估计值置信区域 参数估计---依据原始数据计算参数估计值置信区域 参数估计 依据原始数据计算参数估计值置信区域. *描述性统计 方差 期望等数字特征 描述性统计---方差 期望等数字特征. 描述性统计 方差,期望等数字特征 *假设检验 提供最通用的假设检验函数 检验 检验 假设检验---提供最通用的假设检验函数 检验,z-检验 假设检验 提供最通用的假设检验函数t-检验 检验. *统计绘图 box图函数 正态概率图函数等 统计绘图--图函数,正态概率图函数等 统计绘图 图函数 正态概率图函数等.
7
三:随机数产生器 所有随机数产生方法都派生于均匀分布随机数。产生方法有:直接法、 反演法、拒绝法。
四:均值和方差 均值和方差是分布函数的简单函数。在Matlab里用“stat”结尾 的函数可计算得到给定参数的分布的均值和方差。
以下以正态分布为例说明在Matlab里的实现。 一:概率密度函数 X=[-3:0.5:3]; f=normpdf(x,0,1); (其中normpdf为正态分布的Matlab分布实现函数,可由以下介 绍的函数代替。)
19
4.1中心趋势(位置)度量
数据样本中心度量的目的在于对数据样本的数据分布 线上分布的中心予以定位,即中心位置的度量。 均值是对位置的简单和通常的估计量。但野值的存在 往往影响位置的确定。而中位数和修正的均值则受野 值的干扰很小。中位数是样本的50%分位点。而修正 的均值所蕴涵的思想则是剔除样本中最高值和最低值 来确定样本的中心位置。 几何均值和调和均值对野值都较敏感。当样本服从对 数正态分布或偏斜程度很大时,它们也都是有效的方 法。 以下介绍位置度量有关函数。
24
4.2.5:trimmean
功能:剔除极端数据的样本均值。 格式:m=trimmean(X,percent) 说明:函数计算剔除观测量中最高百分比和最低百分比数据后 的均值。 函数中percent代表百分比。 举例:X=normrnd(0,1,100,100); m=mean(X) trim=trimmean(X,10) sm=std(m) strim=std(trim) efficiency=(sm/strim).^2
10
2.4 随机数产生器
在Matlab里和pdf,cdf与icdf一样,随机数的产生也有通用函数 random. --- random 功能:产生可选分布的随机数。 格式:y=random(‘name’,A1,A2,A3,m,n) 说明:random函数产生统计工具箱中任一分布的随机数。 ‘name’为相应分布的名称。A1,A2,A3为分布参数,意义同pdf 参数。m,n确定了结果y的数量,如果分布参数A1,A2,A3为矢 量,则m,n是可选的,但应注意,它们给出的长度或矩阵行列 数必须与分布参数的长度相匹配。 举例:rn=random(‘Normal’,0,1,2,4)
17
3.2.1其他负对数似然函数 其他负对数似然函数
β分布的负对数似然函数 分布的负对数似然函数 logL=betalike(params,data)
γ分布的负对数似然函数 分布的负对数似然函数 logL=gamlike(params,data) 威布尔分布的负对数似然函数 logL=weiblike(params,data) 参数设置与正态分布的负对数似然函数 类似,不加冗述.
p= 0.8000 pci= 0.5634 0.9427
16
3.2 对数似然函数
统计工具箱提供了β分布,γ分布,正态分布 和威布尔分布的负对数似然函数值的求取函数.
正态分布的负对数似然函数
调用方法
L=normlike(params,data) Params为正态分布参 数:params(1)为µ,params(2)为σ
9
2.3
累积分布函数与逆累积分布函数
同样地,累积分布和逆累积分布对每个分布都有特定地Matlab实现函数, 这里只介绍通用的cdf,icdf.
--- cdf, icdf
功能:计算可选分布的累积分布函数和逆累积分布函数。 格式:P=cdf(‘name’,X,A1,A2,A3) X=icdf(‘name’,X,A1,A2,A3) 说明:cdf和icdf中的参数使用和pdf中的相同。只是计算结果不同。 举例:p=cdf(‘Normal’,0:5,1:6) X=icdf(‘Normal’,0.1:0.2:0.9,0,1)
k
n−k
即n次贝努里试验中出现k次成功的概率.poisson 分布, p ( λ ; k ) =
λ
k
k!
e
−λ
和 χ 分布等).
2
4
1.1.2 概率分布 连续型 概率分布—
连续型分布
如正态分布F(x)=
1 2 πσ
−∞
∫e
x
− ( y − µ )2 2σ
dy
betaห้องสมุดไป่ตู้布,uniform平均分布等.
本节主要介绍
3.1 最大似然估计 最大似然估计(Maximum likelihood estimation) 3.2 对数似然函数
13
3.1最大似然估计 最大似然估计
基本思想:
已知一组观测值,给定这组值出自的某类分布中,求 得最有可能出现这组值的一个分布.
调用方法:
[phat,pci]=mls[‘dist’,data,alpha]
4.2.3(平均值)mean
功能:样本数据的平均值。 说明:平均值定义为
1 n x j = ∑ xij n i =1
举例:x=normrnd(0,1,100,5); xbar=mean(X)
23
4.2.4:median
功能:样本数据的中值。 说明:中值即数据样本的50%中位数。 中位数对野值出现的影响较小。 举例:xodd=1:5; modd=median(xodd) meven=median(xeven)
21
4.2.2: (调和均值)harmmean 功能:样本数据的调和均值。 格式:m=harmmean(X)
n
∑
i =1
n
说明:调和均值定义为 举例:样本均值大于或等于调和均值。 X=exprnd(1,10,6); harmonic=harmmean(X) average=mean(X)
22
1 xi
2
1.1 统计工具箱的几大功能
*概率分布 概率分布 *参数估计 参数估计 *描述性统计 描述性统计 *假设检验 假设检验 *统计绘图 统计绘图
3
1.1.1概率分布 离散型 概率分布--概率分布
统计工具箱提供了20种概率分布类型,其中包括 离散型分布: 离散型 n (如binomial二项分布, b ( k ; n , p ) = p (1 − p ) k
25
4.3散布度量 散布度量可以理解为样本中的数据偏离其数值中心的 程度,也称离差。 极差,定义为样本最大观测值与最小观测值之差。 标准差和方差为常用的散布度量,对正态分布的样本 描述是最优的。但抗野值干扰能力较小。 平均绝对值偏差对野值也敏感。 四分位数间距为随机变量的上四分位数 和下四分位之 差。
20
4.2.1: 几何平均数(geomean)
功能:样本的几何均值。 格式:m=geomean(X) 说明:几何均值的定义为 m=
xi ∏ i =1
n
1 n
(1.4.1)
geomean 函数计算样本的几何均值 。X若为矢量, 它返回X中元素的几何均值;X若为矩阵,它的结果 为一个行矢量,每个元素为X对应列元素的几何均值。 举例:x=exprnd(1,10,6); geometric=geomean(X); average=mean(X);
注意:统计工具箱中的说有函数都可用 type function_name语句查看其代码,也可进行修 改,从而变为己用,加入到工具箱中.
6
二 概率分布
随机变量的统计行为取决于其概率分布,而分布函数常用连续和 离散型分布。统计工具箱提供20种分布。每种分布有五类函数。 1: 概率密度(pdf) ; 2: 累积分布函数(cdf); 3:逆累积分布函数 (icdf);4: 随机数产生器 5: 均值和方差函数; 一:离散型概率密度函数:为观察到的特定值的概率。
Matlab统计工具箱 统计工具箱
一:统计工具箱简介 统计工具箱简介 二:概率分布 概率分布 三:参数估计 参数估计 四:描述性统计 描述性统计 五:假设检验 假设检验 六:统计绘图 统计绘图
1
统计工具箱(statistics toolbox)简介 一.matlab统计工具箱 统计工具箱 简介
统计学是处理数据的艺术和科学,通过收集,分析, , , , 解释和表达数据来探索事物中蕴含的规律.随着科技水 平的迅猛发展,知识经济的时代来临,海量的数据需要人 们处理.matlab统计工具箱为人们提供了一个强有力的 统计分析工具. 统计工具箱基于matlab数值计算环境,支持范围广泛 的统计计算任务.它包括200多个处理函数(m文件)主要 应用于以下几方面:
phat为参数估计结果,pci为置信区间计算结果dist为用户给定 的分布名称,data为数据列表,(1-alpha)置信区域.
14
3.1.1 最大似然估计 最大似然估计(mls)举例 举例
15
例:
rv=binornd(20,0.75) rv= 17 [p,pci]=mle(‘binomial’,rv,0.05,20)
2.2
功能:可选分布的概率密度函数。
格式:Y=pdf(‘name’,X,A1,A2,A3) 说明:‘name’为特定分布的名称,如 ‘Normal’,’Gamma’等。X为分布函数的自变量X的取 值矩阵,而A1,A2,A3分别为相应的分布参数值。Y给 A1,A2,A3 Y 出结果,为概率密度值矩阵。 举例:p=pdf(‘Normal’,-2:2,0,1) 给出标准正态分布在-2到2的分布函数值。 而p=pdf(‘Poisson’,0:4,1:5)给出Poisson分布函数。
11
均值和方差
和以上其他函数不同的是均值和方差的运算没有通 用的函数,只能用各个分布的函数计算。对应于正 态分布的计算函数为normstat();
它返回两个参数的向量,分别为均值和方差。 举例:[m,n]=normstat(mu,sigma)
12
三.参数估计 参数估计
参数估计: 参数估计 某分布的数学形式已知,应用子样信息来 某分布的数学形式已知 应用子样信息来 估计其有限个参数的值
27
4.5处理缺失数据的函数
在对大量的数据样本进行处理分析时,常会遇到一些 数据无法找到或不能确定的情况。这时可用NaN标注 这个数据。而工具箱中有一些函数自动处理它们。 如 :忽视NaN, 求其他数据的最大值的nanmax. 格式:m=nanmax(X) 举例:m=magic(3); m([1 6 8])=[NaN NaN NaN] [nmax,maxidx]=nanmax(m)
26
4.4 Matlab里有关散布度量计算的函数
在Matlab里,有关散布度量计算的函数为: 1:计算样本的内四分位数间距的 iqr(X). 2:求样本数据的平均绝对偏差的 mad(X). 3:计算样本极差的 range(X). 4: 计算样本方差的 var(X,w). 5: 求样本的标准差的 std(X). 6: 求协方差矩阵的cov(X). 这些函数的详细说明可以参见Matlab的帮助文档。
连续型概率密度函数定义为:如存在非负函数p(x) ≥0, 使对任意b≥a, X 在(a,b)上取值概率为p{a<X<b}= ∫a p ( x ) dx ;则称 p(x)为随机变量X的概率密度函数。 二:累积分布 (cdf):它取决于pdf. 表达式为 x F(x)= ∫ p(υ )d.υ
−∞
b
逆累积分布(icdf):实际上是cdf的逆,它返回给定显著 概率条件下假设检验的 临界值。
18
四 描述性统计
概述: 人们希望用少数样本来体现样本总体的规律。 描述性统计就是收集、整理、加工和分析统 计数据,使之系统化、条理化,以显示出数 据资料的趋势、特征和数量关系。 根据统计量特征性质的不同,工具箱提供了 位置度量、散布度量、自助法以及在缺失数 据情况下处理方法等方面的描述性统计工具 函数。
每种分布提供5类函数:
1 概率密度 4 随机数产生器 2 (累积)分布函数 3 逆累积分布函数 5 均值和方差函数.
5
1.1.3另外 大功能 另外4大功能 另外
*参数估计 依据原始数据计算参数估计值置信区域 参数估计---依据原始数据计算参数估计值置信区域 参数估计 依据原始数据计算参数估计值置信区域. *描述性统计 方差 期望等数字特征 描述性统计---方差 期望等数字特征. 描述性统计 方差,期望等数字特征 *假设检验 提供最通用的假设检验函数 检验 检验 假设检验---提供最通用的假设检验函数 检验,z-检验 假设检验 提供最通用的假设检验函数t-检验 检验. *统计绘图 box图函数 正态概率图函数等 统计绘图--图函数,正态概率图函数等 统计绘图 图函数 正态概率图函数等.
7
三:随机数产生器 所有随机数产生方法都派生于均匀分布随机数。产生方法有:直接法、 反演法、拒绝法。
四:均值和方差 均值和方差是分布函数的简单函数。在Matlab里用“stat”结尾 的函数可计算得到给定参数的分布的均值和方差。
以下以正态分布为例说明在Matlab里的实现。 一:概率密度函数 X=[-3:0.5:3]; f=normpdf(x,0,1); (其中normpdf为正态分布的Matlab分布实现函数,可由以下介 绍的函数代替。)
19
4.1中心趋势(位置)度量
数据样本中心度量的目的在于对数据样本的数据分布 线上分布的中心予以定位,即中心位置的度量。 均值是对位置的简单和通常的估计量。但野值的存在 往往影响位置的确定。而中位数和修正的均值则受野 值的干扰很小。中位数是样本的50%分位点。而修正 的均值所蕴涵的思想则是剔除样本中最高值和最低值 来确定样本的中心位置。 几何均值和调和均值对野值都较敏感。当样本服从对 数正态分布或偏斜程度很大时,它们也都是有效的方 法。 以下介绍位置度量有关函数。
24
4.2.5:trimmean
功能:剔除极端数据的样本均值。 格式:m=trimmean(X,percent) 说明:函数计算剔除观测量中最高百分比和最低百分比数据后 的均值。 函数中percent代表百分比。 举例:X=normrnd(0,1,100,100); m=mean(X) trim=trimmean(X,10) sm=std(m) strim=std(trim) efficiency=(sm/strim).^2
10
2.4 随机数产生器
在Matlab里和pdf,cdf与icdf一样,随机数的产生也有通用函数 random. --- random 功能:产生可选分布的随机数。 格式:y=random(‘name’,A1,A2,A3,m,n) 说明:random函数产生统计工具箱中任一分布的随机数。 ‘name’为相应分布的名称。A1,A2,A3为分布参数,意义同pdf 参数。m,n确定了结果y的数量,如果分布参数A1,A2,A3为矢 量,则m,n是可选的,但应注意,它们给出的长度或矩阵行列 数必须与分布参数的长度相匹配。 举例:rn=random(‘Normal’,0,1,2,4)
17
3.2.1其他负对数似然函数 其他负对数似然函数
β分布的负对数似然函数 分布的负对数似然函数 logL=betalike(params,data)
γ分布的负对数似然函数 分布的负对数似然函数 logL=gamlike(params,data) 威布尔分布的负对数似然函数 logL=weiblike(params,data) 参数设置与正态分布的负对数似然函数 类似,不加冗述.
p= 0.8000 pci= 0.5634 0.9427
16
3.2 对数似然函数
统计工具箱提供了β分布,γ分布,正态分布 和威布尔分布的负对数似然函数值的求取函数.
正态分布的负对数似然函数
调用方法
L=normlike(params,data) Params为正态分布参 数:params(1)为µ,params(2)为σ
9
2.3
累积分布函数与逆累积分布函数
同样地,累积分布和逆累积分布对每个分布都有特定地Matlab实现函数, 这里只介绍通用的cdf,icdf.
--- cdf, icdf
功能:计算可选分布的累积分布函数和逆累积分布函数。 格式:P=cdf(‘name’,X,A1,A2,A3) X=icdf(‘name’,X,A1,A2,A3) 说明:cdf和icdf中的参数使用和pdf中的相同。只是计算结果不同。 举例:p=cdf(‘Normal’,0:5,1:6) X=icdf(‘Normal’,0.1:0.2:0.9,0,1)
k
n−k
即n次贝努里试验中出现k次成功的概率.poisson 分布, p ( λ ; k ) =
λ
k
k!
e
−λ
和 χ 分布等).
2
4
1.1.2 概率分布 连续型 概率分布—
连续型分布
如正态分布F(x)=
1 2 πσ
−∞
∫e
x
− ( y − µ )2 2σ
dy
betaห้องสมุดไป่ตู้布,uniform平均分布等.
本节主要介绍
3.1 最大似然估计 最大似然估计(Maximum likelihood estimation) 3.2 对数似然函数
13
3.1最大似然估计 最大似然估计
基本思想:
已知一组观测值,给定这组值出自的某类分布中,求 得最有可能出现这组值的一个分布.
调用方法:
[phat,pci]=mls[‘dist’,data,alpha]
4.2.3(平均值)mean
功能:样本数据的平均值。 说明:平均值定义为
1 n x j = ∑ xij n i =1
举例:x=normrnd(0,1,100,5); xbar=mean(X)
23
4.2.4:median
功能:样本数据的中值。 说明:中值即数据样本的50%中位数。 中位数对野值出现的影响较小。 举例:xodd=1:5; modd=median(xodd) meven=median(xeven)
21
4.2.2: (调和均值)harmmean 功能:样本数据的调和均值。 格式:m=harmmean(X)
n
∑
i =1
n
说明:调和均值定义为 举例:样本均值大于或等于调和均值。 X=exprnd(1,10,6); harmonic=harmmean(X) average=mean(X)
22
1 xi
2
1.1 统计工具箱的几大功能
*概率分布 概率分布 *参数估计 参数估计 *描述性统计 描述性统计 *假设检验 假设检验 *统计绘图 统计绘图
3
1.1.1概率分布 离散型 概率分布--概率分布
统计工具箱提供了20种概率分布类型,其中包括 离散型分布: 离散型 n (如binomial二项分布, b ( k ; n , p ) = p (1 − p ) k
25
4.3散布度量 散布度量可以理解为样本中的数据偏离其数值中心的 程度,也称离差。 极差,定义为样本最大观测值与最小观测值之差。 标准差和方差为常用的散布度量,对正态分布的样本 描述是最优的。但抗野值干扰能力较小。 平均绝对值偏差对野值也敏感。 四分位数间距为随机变量的上四分位数 和下四分位之 差。
20
4.2.1: 几何平均数(geomean)
功能:样本的几何均值。 格式:m=geomean(X) 说明:几何均值的定义为 m=
xi ∏ i =1
n
1 n
(1.4.1)
geomean 函数计算样本的几何均值 。X若为矢量, 它返回X中元素的几何均值;X若为矩阵,它的结果 为一个行矢量,每个元素为X对应列元素的几何均值。 举例:x=exprnd(1,10,6); geometric=geomean(X); average=mean(X);
注意:统计工具箱中的说有函数都可用 type function_name语句查看其代码,也可进行修 改,从而变为己用,加入到工具箱中.
6
二 概率分布
随机变量的统计行为取决于其概率分布,而分布函数常用连续和 离散型分布。统计工具箱提供20种分布。每种分布有五类函数。 1: 概率密度(pdf) ; 2: 累积分布函数(cdf); 3:逆累积分布函数 (icdf);4: 随机数产生器 5: 均值和方差函数; 一:离散型概率密度函数:为观察到的特定值的概率。
Matlab统计工具箱 统计工具箱
一:统计工具箱简介 统计工具箱简介 二:概率分布 概率分布 三:参数估计 参数估计 四:描述性统计 描述性统计 五:假设检验 假设检验 六:统计绘图 统计绘图
1
统计工具箱(statistics toolbox)简介 一.matlab统计工具箱 统计工具箱 简介
统计学是处理数据的艺术和科学,通过收集,分析, , , , 解释和表达数据来探索事物中蕴含的规律.随着科技水 平的迅猛发展,知识经济的时代来临,海量的数据需要人 们处理.matlab统计工具箱为人们提供了一个强有力的 统计分析工具. 统计工具箱基于matlab数值计算环境,支持范围广泛 的统计计算任务.它包括200多个处理函数(m文件)主要 应用于以下几方面:
phat为参数估计结果,pci为置信区间计算结果dist为用户给定 的分布名称,data为数据列表,(1-alpha)置信区域.
14
3.1.1 最大似然估计 最大似然估计(mls)举例 举例
15
例:
rv=binornd(20,0.75) rv= 17 [p,pci]=mle(‘binomial’,rv,0.05,20)