SAS软件与统计应用教程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
偏度和峰度是描述数据分布形状的指标。
1. 偏度(skewness)
偏度是刻画数据对称性的指标。偏度的计算公式为:
SK
n
n ( xi x )3
(n 1)(n 2) i1 s
在SAS中:
● 关于均值对称的数据其偏度为0;
● 左侧更为分散的数据,其偏度为负,称为左偏;
● 右侧更为分散的数据,其偏度为正,称为右偏。
SAS软件与统计应用教程
STAT
2. 参数与统计量
参数(parameter):参数是用来描述总体特征的概括性
值。如总体平均值(μ)、总体方差(2)、总体比例
(π)等。 统计量(statistics):统计量是用来描述样本特征的概
括性值。如样本均值( x )、样本方差(s2)、样本比 例(P)等。
SAS软件与统计应用教程
中位数
x
(
n 1 2
)
1 2
(
x
(
n 2
)
x
(
n
1)
)
2
n为奇数 n为偶数
SAS软件与统计应用教程
STAT
3. 众数(Mode)
观测值中出现最多的数称为众数。众数用得不如均值 和中位数普遍。在属性变量分析中,常需考虑频数,因
此众数用得多些。
4. 百分位数(Percentile)
分位数也是描述数据分布和位置的统计量。0.5分位 数就是中位数,0.75分位数和0.25分位数又分别称为上、 下四分位数,并分别记为Q3和Q1。
SAS软件与统计应用教程
STAT
2. 峰度(kurtosis)
峰度描述数据向分布尾端散布的趋势。峰度的计算公
式为:
K
n(n 1)
n ( xi x )4 3(n 1)2
(n 1)(n 2)(n 3) i1 s
(n 2)(n 3)
利用峰度研究数据分布的形状是以正态分布为标准
(假定正态分布的方差与所研究分布的方差相等)比较
SAS软件与统计应用教程
STAT
2.2.1 用INSIGHT计算统计量
INSIGHT可以非常方便地计算各种统计量。
1. 实例数据
【例2-1】表2-1为两个不同地区居民家庭收入和支出情 况的抽样调查(单位:元),试分别统计收入和支出情 况。
将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc 中,4个变量名分别为:ID、R_ID、Income和Outgo, 相应的标签名为家庭编号、地区编号、家庭总收入和家 庭总支出。
Std Mean s n
1 n(n 1)
n i1
( xi
x)2
2. 校正平方和(Corrected sum of squares)
n
CSS (xi x)2
i 1
SAS软件与统计应用教程
STAT
3. 未校正平方和(Uncorrected sum of squares)
n
USS xi2
SAS软件与统计应用教程
2.1.1 统计学的基本概念
STAT
1. 总体与样本
总体(population):总体是指所研究对象的全体组成 的集合。
样 本 (sample) : 样 本 是 指 从 总 体 中 抽 取 的 部 分 对 象 (个体)组成的集合。样本中包含个体的个数称为样本 容量。容量为n的样本常用n个随机变量X1,X2,…,Xn 表示,其观测值(样本数据)则表示为x1,...,xn,为 简单起见,有时不加区别。
2. 方差(Variance或Var)
方差是由各观测值到均值距离的平方和除以观测量减
1:
s2
1 n 1
n i1
( xi
x)2
( x1
x)2
... n 1
( xn
x)2
SAS软件与统计应用教程
3. 标准差(Standard deviation或Std Dev) 方差的开方称为标准差:
STAT
s s2
两端极端数据的分布情况,若
● 近似于标准正态分布,则峰度接近于零;
● 尾部较正态分布更分散,则峰度为正,称为轻尾; ● 尾部较正态分布更集中,则峰度为负,称为厚尾。
SAS软件与统计应用教程
STAT
2.1.5 其它统计量
1. 均值的标准误(Std Error Mean或Std Mean或Std error)
i 1
4. k阶原点矩
Ak
1 n
n i1
xik , k
1,2,...
其中A1即为均值 x 。
5. k阶中心矩
Bk
1 n
n i1
( xi
x)k ,
k 2,3,...
SAS软件与统计应用教程
STAT
2.2 在SAS中计算统计量
2.2.1 用INSIGHT计算统计量 2.2.2 用“分析家”计算统计量 2.2.3 编程实现描述性统计
STAT
2.1.2 表示数据位置的统计量
如果要用简单的数字来概括一组观测数据x1,...,xn, 可以使用“位置统计量”来作为数据的总体代表,常见
的位置统计量有:均值、中位数、分位数、众数等。
1. 均值(Mean)
均值是所有观测值的平均值,是描述数据取值中心位 置的一个度量:
x
1 n
n i 1
xi
SAS软件与统计应用教程
STAT
2.1.3 表示数据分散程度的统计量
1. 极差(Range)与半极差(Interquartile range)
极差就是数据中的最大值和最小值之间的差:
极差 = max{xi} – min{xi} 上、下四分位数之差Q3 – Q1称为四分位极差或半极
差,它描述了中间半数观测值的散布情况。
标准差的量纲与原变量一致。 4. 变异系数(Coefficient of Variation或CV)
变异系数是将标准差表示为均值的百分数,是观测数 据分散性的一个度量,它在比较用不同单位测量的数据 的分散性时是有用的:
CV 100 s (%) x
SAS软件与统计应用教程
STAT
2.1.4 表示数据分布形状的统计量
x1
n
xn
SAS软件与统计应用教程
STAT
2. 中位数(Median或Med)
中位数是描述观测值数据中心位置的统计量,大体上 比中位数大(小)的数据为观测值的一半。中位数的一 个优点是它不受个别极端数据的影响,具有稳健性。中 位数的计算方法是:首先将数据从小到大排序为: x(1),...,x(n),然后计算
SAS软件与统计应用教程
STAT
第二章 SAS的描述统计功能
2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形
Biblioteka Baidu
SAS软件与统计应用教程
STAT
2.1 描述性统计的基本概念
2.1.1 统计学的基本概念 2.1.2 表示数据位置的统计量 2.1.3 表示数据分散程度的统计量 2.1.4 表示数据分布形状的统计量 2.1.5 其它统计量