连续性变量的统计描述与参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

察例数N,就得到方差: 2
2
Xi X
N
方差越大,数据分布离散程度越大。
对于样本数据而言,方差的计算公式为:
S 2
2
Xi X
n 1
将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明 数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越 大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。
X u /2S n X u /2S n
随着样本容量n的增大(通常要求n 30), 不论原来的总体是否服从正态分布, 样本 均值的抽样分布都将趋于正态分布,其
分布的数学期望为总体均值,方差为
总体方差的1/ n。这就是统计学上著名的 中心极限定理。 这一定理可以表述为:
从均值、方差为 2的总体中,抽取容量
0分布为对称分布。
偏态的方向指的应当是长尾的方向,而不是高峰的位置。
(2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的
统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰
度系数:
1 n n i1
4
Xi X / S4 3
0分布为高峰度的,
即比正态分布峰要陡峭,峰的形状也比较尖。
为n的随机样本,当n充分大时(通常要求 n 30),样本X的抽样分布近似服从均值为
、方差为 2 / n的正态分布。
spss中的相应功能
1、Spss的用于连续变量统计描述的过程,均集中在Descriptive Statistics子菜单中。
(1)Frequencies:产生原始数据的频数表,并能计算各种百分位数。
三、均数的适用范围
严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均 等级也可以使用平均数。
2 中位数
中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间 位置的那个标志。
一、中位数的定义
对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:
X1 X2 X3 Xn
四、偏度和峰度
(1)偏度(Skewness):偏度是用来描述变量取值分布形 态的统计量,指分布不对称的方向和程度。样本偏度系数:
1 n n i1
3
xi x / s3
0分布,为正偏或右偏,即长尾巴在右边,峰尖偏左;
0分布,为负偏或左偏,即长尾巴在左边,峰尖偏右;
稳健估计值的是该统计量具有稳健性,当数据存在异常值时 受影响较小,而且对大部分的分布而言都很好。
稳健估计有M估计、R估计等不同方法。
SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel 和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适 用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的 情况。如果M估计量里平均数和中位数较远,则数据中可能存在异常值。 此时,应该用M估计量替代平均数以反映集中趋势。。
三、标准正态分布(Standard Normal Distribution)
将原来的正态分布转换为标准正态分布。
X
在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分, 只需要选中主对话框左下角的Save standardized values as variables 复选框即可。
极差存在两点不足: 一是它仅仅取决于两个极端值的水平,不能反映其间的变量
分布情况,提供的信息太少。 二是它容易受个别极端值的影响,不符合稳健型的要求。
2 方差和标准差
一、方差(Variance)和标准差(Standard Deviation)的定义
将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观
1 正态分布 一、正态分布的定义 若连续性随即变量X的概率分布密度函数为
f x
1
e

X 2 2
2
2
则称随机变量X服从正态分布(Normal Distribution)
二、正态分布的特征
(1)正态分布是一条对称曲线,关于均数对称,因此均数被 称为正态分布的位置参数。
一、矩法
在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计, 此时就可以直接取相应的样本统计量作为总体参数的点估计。
二、极大似然估计法
该方法的原理是在已知总体的分布,但未知其参数值时,在 待估参数的可能取值范围内进行搜索,使似然函数值最大的 那个数值为极大似然估计值。
三、稳健估计值
众数指的是样本数据中出现频次最多的那个数。
众数适用于任何层次的变量,特别适用于单峰对称的情 况,是比较两个分布是否接近首先要考虑的参数。
在SPSS中,众数可以在Report子菜单和Tables子菜单 的全部报表过程和制表过程中计算出来。
四、调和均数
它实际上是观察值X倒数之均数的倒数。
G
1

n
n
1 1 1 1 1 1
二、方差和标准差的适用范围:
方差和标准差的适用范围应当是正态分布。
3 百分位数、四分位数与四分位数间距
分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极 端值后重新计算的类似于极差的指标。常用的分位差有四分位差、 十分位差、百分位差。
一、分位数
分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测值 分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比 它大。 四 分 位 数 ( quartile ) 、 十 分 位 数 ( decile ) 、 百 分 位 数 (percentile),他们分别是用3个点、9个点、99个点将数据4等分、 10等分和100等分后各分位点上的值。
则中位数就可以按下列方式确定:
M X n1/ 2当n为奇数时
M X n / 2 X n / 21 / 2当n为偶数时
二、中位数的适用范围
3其他集中趋势指标
一、截尾均数
由于均数较易受极端值的影响,因此可以考虑将数据排序后, 按照一定的比例去掉最两端的数据,只是用中部的数据来求 均数。如果截尾均数和原均数相差不大,则说明数据不存在 极端值,或者两侧极端值的影响正好抵消;反之,则说明数 据中有极端值,此时截尾均数更好地反映数据的集中趋势。
(2)曲线是单峰,在均值出达到最高点。 (3)正态分布曲线的高矮与标准差有关。因此标准差被称为
正态分布曲线的尺度参数。 (4)曲线无论向左或向右延伸,都越来越接近横轴,但不会
与横轴相交,以横轴为渐近线。 (5)约68%的个体的取值与平均数在距离一个标准差之内。 (6)约95%的个体取值与平均数的距离在1.96个标准差之内。 (7)99%个体的取值与平均数的距离在2.58个标准差。
1
x1 x2
xn x1 x2
xn
x
n
在SPSS中,调和均数可以在Report子菜单的4个报表过 程过程中计算出来。
3 离散趋势的描述指标
1全距(Range)
又称为极差,是一组数据中最大值(Maximun)与最小值 (Minimum)之差。
R X max X min
极差反映的是变量分布的差异范围或离散程度,在总体中, 任何两个标志值之差都不可能超过极差。
5第 章 连续性变量的统计描述与参数估计
连续变量的统计描述概述 1 统计描述中的可用工具 (1)各种初步汇总描述方法 频数、百分位数。 (2)各种统计描述指标 均值、标准差、四分位数间距。 (3)统计表 (4)统计图
5.1 连续变量的统计描述指标体系
年龄
30
20
10
Std. Dev = 10.23
Mean = 42.7
0
N = 70.00
25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0
年龄
(1)集中趋势 (Central Trend): 均数(Mean) 中位数(Median) 截尾均数(Trimmed Mean) 几何均数(Geometric Mean) 众数(Mode) 调和均数(Harmonic Mean)
(1)测量尺度相差太大; (2)数据量纲不同。 在以上情形中,就应当消除测量尺度和量纲的影响,而变异
系数(Coefficient of Variance),它是标准差和其平均数的 比率。
CV S X
5.2 连续性变量的参数估计
根据样本数据对总体的客观规律性作出合理估计的过程被称 为统计推断(Statistical Inference),它可以被分为参数估 计和假设检验两大类。
(2)离散趋势(Dispersion Trend)
全距(Range)、标准差(Std. Deviation)和方差(Variance)、百分 位数(Percentile)、四分位数,四分位间距、变异系数
(3)分布特征(Distribution Tendency)
偏度系数(Skewness)和峰度系数(Kurtosis)
0分布为低峰度的,
即形状要比正态分布的峰平坦。
0分布为正态峰。
2 参数的点估计
参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计 算出估计值。 对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三 个评选标准。 无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。 一致性是指样本容量越大,估计值离真实值的差异应当越小。 有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一 个作为估计值。
X X1 X 2 X n X i
n
n来自百度文库
Xi X 0
2 Xi X
X i a2 a X
二、均数的意义
任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一 个平衡点。 但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些 有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另 一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些 情况下可能具有一定的欺骗性。
常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。
二、几何均数
几何均数适用于原始数据分布不对称,但经过对数转 换后呈对称分布的资料。
n
G X1X2X3 Xn
G

lg
1

lg n
Xi

几何均数实际上就是对数转换后的数据lgX的算术平均数 的反对数。
三、众数(Mode)
3 参数的区间估计
一、标准误 标准误就是用来描述参数估计值可能离真实值究竟有多远的统
计量。 二、区间估计的计算 结合样本统计量和标准误可以确定一个具有较大的可信度包含
总体参数的区间,该区间称为总体参数的1-a可信区间或置 信区间(Confidence Interval)。 对于任意可信度的区间情况,总体均值在100(1-a)%可信区 间为:
控制频数 表输出范 围类型的 最大数目
(2)Descriptive过程
该过程用于一般性的统计描述,相对于Frequencies过程而 言,它不能绘制统计图。
(3)Explore 过程
该过程用于对连续性资料分布状况不清楚时的探索性分析, 它可以计算许多描述统计量,给出各种统计图,并进行简单 的参数估计。
二、四分位数
四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。 很显然,中间的分位数是中位数,因此通常所说的四分位数是指 第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。
上下四分位数的差值称为四分位数间距:
QR=Q3-Q1
4 变异系数
当需要比较两组数据离散程度大小的时候,往往直接使用标 准差来进行比较并不合适。这可以被分为两种情况:
(4)其他趋势
单峰双峰分布、极端值(Outlier)。
2集中趋势的的描述指标
1 算术平均
算术平均(Arithmetic Mean)是最常用的描述数据分布的集中
趋势的统计量。总体均数(Population Mean)用希腊字母
表示,样本均数常用 X 表示。 一、算术平均数的定义和性质
相关文档
最新文档