人民大2024社会调查教程(第八版)作者PPT第14章 统计分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量为定距(定比)变量时,需进行方差分析和F检验(或t检验),并用
eta平方系数来测量两变量的相关强度,简写成E 2;具有消减误差比例特征
ni Y i nY
2
计算公式: E
2
Y 2 nY
2
2
E2 表示eta平方系数
Y表示因变量的数值
Y表示因变量的平均数
➢ 要确定两个变量之间的因果关系,必须同时满足三个条件:
• 两变量间必须存在着不对称的相关关系 —必要不充分条件
• 两变量在发生顺序上必须有先后,即先有原因(自变量)的变化,
再有原因(因变量)的变化
• 必须确定两变量的关系不是由第三个变量的存在而呈现出的一种虚
假关系
二、双变量分析的方法
不同测量层次变量的两两组合
(如平均数、比率、方差)是否可推断总体的检验;
双样本差异的总体假设检验,就是要通过两样本统
计量的差异(如平均数之差、比率之差、方差之差)
是否在总体中也存在的检验,亦即要证明两样本的
差异是否是由于来自两个不同的总体造成的
第四节 双变量统计分析
一、双变量分析的内容
1. 两变量间的相关关系
X
Y
• 指当一个变量X发生变化时,另一个变量Y也随之发生变化;反之,当Y发生
一、描述统计及其内容
描述统计
• 与样本、总体有关,与变量多
少无关
• 主要是计算样本的统计量,不
对总体做推断
描述性研究
• 只涉及变量多少,而不涉及样
本或总体问题
• 只关于“是什么”,只做描
述不做解释,通常只涉及单个
变量
二、推断统计与抽样分布
抽样原理
二、推断统计与抽样分布
如果我们从任何一个平均数为μ,标
双变量分析方法一览表
双变量测量层次
相关测量方法
假设检验方法
定类——定类
定类——定序
λ,tau-y
X2检验
定序——定序
G,dy
Z检验或t检验
定类——定距
定序——定距
Eta
定距——定距
r,b
F检验或t检验
参见李沛良著:《社会研究的统计应用》,第206页,
北京,社会科学文献出版社,2001
二、双变量分析的方法
用来描述数据分布特征的统计量数
偏度,指的是数据分布的偏倾方向和程度
⑴ 用平均数与众数的离差求偏度系数
(又称皮尔逊偏度系数,记作SKp)
skp 表示偏度系数
Sk p
X M O x 表示样本数据的平均数
m0 表示众数值
S
s
表示标准差
Skp=0时,数据呈严格的正态分布
Skp>0时,分布呈正偏
Skp<0时,分布为负偏态
±2.58个抽样分布标准差范围内的概率为99%
在95%的置信水平条件下,总体平均数的置信区间 = X
在99%的置信水平条件下,总体平均数的置信区间 = X
1.96
2.58
S
N 1
N
δ
S
N 1
S / N 1
三、推断统计的两种基本形式
(二)假设检验
参数估计
假设检验
假设检验是以抽样分布
量变化各自独立 时,则变量之间
为不相关,又称零相关
按相关的形式
分为线性相关和非线性
相关
线性相关是当一个变量变动时,
另一变量随之发生大致的 均等变
动
非线性相关 是指一个变量变动时,
另一变量也随之变动,但这种变
动是不均等的
一、双变量分析的内容
2. 两变量间的因果关系
• 指一个变量的变化可以确定为另一变量变化的原因的关系。
Nd表示异序对数(两个数据或个案在两个变量上的相对等级不相同的对
数)
Z G
t G
NS Nd
n 1 G2
NS Nd
n 1 G2
df N S N d 2
(df表示自由度)
二、双变量分析的方法
3. 定类(或定序)-定距变量分析
当一个变量为定类变量或定序变量(定序变量作为定类变量处理),另一个
据)相同量纲(单位)的量数
绝对离散量数的局限:只有当两种离散量数的单位相同时,才能比较其大小
4. 离散系数
即标准差与算术平均数的百分比值,是一种无量纲的相对数,用CV表示
计算公式为: CV
cv 表示离散系数
S
100%
X
5. 偏度系数
可以比较不同单位数据分布的差异
程度
s 表示标准差
x 表示算术平均数
准差为σ的调查总体中,用随机方法
反复地抽取多个大小相同的样本;那
么,当样本中的个案数n增加时,样
本的抽样分布就会接近正态分布。
X2
中心极限定理
在样本容量足够大的情况下,样本的抽
样分布接近正态分布。在样本的抽样分
x X=
布中,平均数μ =μ ,标准差σ
,
通常称之为标准误。
正态抽样分布,
在统计分析中是
原理为基础,检验调查
样本中的统计特性是否
相
同
点
从样本出发去推断总体
查 得来的数据
从样本出发去推断总体
必须是通过随机抽样调
查得来的数据
用具体的样本统计量
来推断总体参数
检验样本中的事实、关
系在总体中是否也存在
必须是通过随机 抽样调
在总体中同样存在的一
种统计方法
不
同
点
三、推断统计的两种基本形式
(二)假设检验
|Skp| 越大,其偏向程度越大
⑵ 用平均数与中位数的离差求偏度系数
M 0 3Md 2 X
Sk p
X 3Md 2 X
3 X Md
S
S
三、单变量统计推断
1. 参数估计
参数估计是用样本统计量来估计总体参数,它通
常只涉及一个变量,也有涉及两个变量的。
2. 假设检验
单样本总体假设检验,就是对单个样本的统计量
理,一般包括缺损值处理、加权处理、变量
重新编码、数据重新排序,以及创造新变量
等等。
➢ 数据统计分析,就是调用统计软件中的各种
统计程序对数据进行分析,包括单变量、双
变量、多变量统计分析,以及制作统计图、
统计表等一系列工作。
数据录入和数
据清理
数据
预处理
数据
统计分析
三、统计分析的层次
第二节 描述统计与推断统 计
H 1 表示
三、推断统计的两种基本形式
(二)假设检验
假设检验的数理基础
“小概率事件在一次抽样中不
可能出现原理”
• 即小概率事件在通常情况
下是不可能出现的,如果
居然在一次抽样中出现了,
则有理由认为存在其他原
因而拒绝H0。
第三节 单变量统计分析
一、集中量数分析
集中量数分析,是指用一个具体的统计量反映一组数据向该统计量集中趋势的统计方法,
一种理想的分布
μ-σ μ μ+σ
三、推断统计的两种基本形式
(一)参数估计
• 统计量:由样本计算出来的统计值
• 参数:总体统计值
➢ 参数估计,就是运用样本统计量对总体参
数进行推断或估计的统计过程与统计方法
三、推断统计的两种基本形式
(一)参数估计
1.点值估计
• 点值估计的最大缺陷就是无法知道估计的误差到底有多大。因此,在实际研究工
二、双变量分析的方法
1. 定类-定类、定类-定序变量分析
消减误差比例(PRE)表示的就是当我们用一个变量X来解释另一个变
量Y时,能够减少多少比率的误差。能够消解误差的比率越大,表明两
个变量的关系越密切,亦即相互影响的作用力越大。取值区间为[0,1]
计算公式为:PRE
E1 E2
全部误差 相关误差
数据与该组算术平均数相减,将其差进行平方然后相加,再除以数
据的个数。
• 标准差是最重要、应用最广泛的离散量数。
(1) 用定义公式求方差和标准差
X X
2
标准差公式为:
S
方差公式为: S 2
X X
N
2
N
用定义公式求方差和标准差,首先要
求离差(X -X),将离差平方再相加,
度,以概率1-α表示,α称为显著性水平,表示该区间估计的不可靠性程度,
即估计参数位于该区间时可能犯错误的概率。
➢ 1-α则表示估计参数落入置信区间的可靠性程度或把握度。
三、推断统计的两种基本形式
(一)参数估计
2.区间估计
样本均值的抽样分布具有的特性是:总体平均数或抽样分布平均数处于样
本平均数±1.96个抽样分布标准差范围内的概率为95%;处于样本平均数
时,众数比平均数、中位数都更能表现出其优越性
二、离散量数分析
集中量数
反映的是数据整体的平均水平和典型情况
离散量数
反映数据整体的分散性、变异性等情况
所谓离散量数,就是表示一组数据变异程度或分散程度的量数
常用的离散量数是方差与标准差、全距、异众比率和偏度系数
1. 方差与标准差
• 方差是一种重要的离散量数,它的计算方法是,把一组数据中每个
第十四章 统计分析
统计分析概述
描述统计和推断统计
单变量统计分析
双变量统计分析
多变量统计分析
第一节 统计分析概述
一、统计分析及其目的
统计分析,就是运用统计
学原理和方法处理调查所
获得的数据资料,简化和
描述数据资料、揭示变量
之间的统计关系,并进而
推断总体的一整套程序和
方法。
二、统计分析的过程
➢ 数据预处理,就是对清理后数据做预备性处
x
Y
y
x
My
2n M x M Y
M
y
MY
n MY
表示对称式相关系数计算公式
y 表示非对称式相关系数计算公式
m X 表示变量Y的每个取值之下变量X的众数值
m y 表示变量X的每个取值之下变量Y的众数值
M X 表示变量X的众数值
M Y 表示变量Y的众数值
n表示全部数据或个案的数目
进行假设检验,必须首先建立两个假设,即虚无假设和备择假设(替换假设
或研究假设)
虚无假设
备择假设
含
义
假设在样本中观察到的事实或变
假设在样本中出现的情况并
量之间的关系在总体中并不存在,
不是抽样误差,在总体中也
样本中出现的这种情形是由于抽
同样存在
样误差造成的
性
质
是一个关于“不存在”的假设,
用H 0 表示
是关于“存在”的假设,用
它所表示的是一组数据集中的程度或水平。
平均数是最常用的集中量度,但它往往受极端数据的影响,使平均数反映数据整体集中趋
势的准确性变得面目全非;
当一组数据中存在极端数据、或数据中有个别数据不准确、不清楚的情况下,中位数能比
平均数更准确、更稳定地反映数据整体的集中趋势;
众数的优点是适用于所有类型的数据,另外在需要快速而又粗略地找出一组数据的代表值
变化时,X也发生变化
按相关的方向,分为
正相关和负相关
当一个变量的变化与另一个变
量向相同方向变化时,这两个
变量之间就存在着 正相关 关系,
相关系数取正值
按相关的强度,分为
完全相关、不相关和不
完全相关
当一个变量的数量 完全由另一个
变量的数量变化所确定时,它们
之间即为完全相关
当变量之间彼此互不影响 ,其数
E1
全部误差
二、双变量分析的方法
2.定序-定序变量的统计分析 ——Gamma级序相关分析方法
级序相关计算法,就是在计算公式中使用各原始数据的等级次序而不是数据本
身。G又属于对称相关测量法(不区分自变量和因变量),具有PRE特性
计算公式:G
NS Nd
NS Nd
G表示Gamma系数
NS表示同序对数(两个数据或个案在两个变量上的相对等级相同的对数)
1. 定类-定类、定类-定序变量分析
当两个变量均为定类变量,或一变量为定类、另一个变量为定序变量时,抽样分布
属于X2分布,因而进行X2检验,用λ或tau-y计算两个变量之间的相关强度与方向
X
2
fO
fe
fe
2
fO表示实际观察值频数
f e表示理论意义上的期望值频数
m m M
的公式为:
22
ffXX 2 ffXX
22
S NN NN
S
2
2
f X 2
f
X
2
f X f X
S
N N
N
N
x表示单值分组数据中的实际
数值,或组距分组资料中的
组中值
2
f表示各组的频数
作中通常选择另一种参数估计方法,即区间估计法。
三、推断统计的两种基本形式
(一)参数估计
2.区间估计
就是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一
种统计方法。
置信区间
置信水平
置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。
区间的上、下限(端点)称为临界值,所确定的概率水平称为置信水平或置信
然后除以N
1. 方差与标准差
(2) 用原始数据计算方差和标准差
用定义公式求方差和标准差,先要计算平均X和
离差(X -X)。如将定义公式稍加变换,则可
直接用原始数据计算S2和S
S2
X2
S
X2
N
N
X
N
X
N
2
2
(3) 分组数据计算方差与标准差
当处理的数据为分组资料时,计算方差和标准差
2. 全距(极差) 是一组数据中最大值与最小值之差,通常用R表示
优点
是最简单的离散量数,概念清楚,含义明确,计算简便
缺点
没有考虑中间数据,数据反映程度太粗略、不灵敏
3. 异众比率 是非众数的频数与全部个案数的比值,用VR表示
指众数所不能代表的其他数据
(即非众数数据)在总数据中
的比重
方差、标准差、全距等,都属于绝对离散量数,即它们都是带有与原观察值(数
eta平方系数来测量两变量的相关强度,简写成E 2;具有消减误差比例特征
ni Y i nY
2
计算公式: E
2
Y 2 nY
2
2
E2 表示eta平方系数
Y表示因变量的数值
Y表示因变量的平均数
➢ 要确定两个变量之间的因果关系,必须同时满足三个条件:
• 两变量间必须存在着不对称的相关关系 —必要不充分条件
• 两变量在发生顺序上必须有先后,即先有原因(自变量)的变化,
再有原因(因变量)的变化
• 必须确定两变量的关系不是由第三个变量的存在而呈现出的一种虚
假关系
二、双变量分析的方法
不同测量层次变量的两两组合
(如平均数、比率、方差)是否可推断总体的检验;
双样本差异的总体假设检验,就是要通过两样本统
计量的差异(如平均数之差、比率之差、方差之差)
是否在总体中也存在的检验,亦即要证明两样本的
差异是否是由于来自两个不同的总体造成的
第四节 双变量统计分析
一、双变量分析的内容
1. 两变量间的相关关系
X
Y
• 指当一个变量X发生变化时,另一个变量Y也随之发生变化;反之,当Y发生
一、描述统计及其内容
描述统计
• 与样本、总体有关,与变量多
少无关
• 主要是计算样本的统计量,不
对总体做推断
描述性研究
• 只涉及变量多少,而不涉及样
本或总体问题
• 只关于“是什么”,只做描
述不做解释,通常只涉及单个
变量
二、推断统计与抽样分布
抽样原理
二、推断统计与抽样分布
如果我们从任何一个平均数为μ,标
双变量分析方法一览表
双变量测量层次
相关测量方法
假设检验方法
定类——定类
定类——定序
λ,tau-y
X2检验
定序——定序
G,dy
Z检验或t检验
定类——定距
定序——定距
Eta
定距——定距
r,b
F检验或t检验
参见李沛良著:《社会研究的统计应用》,第206页,
北京,社会科学文献出版社,2001
二、双变量分析的方法
用来描述数据分布特征的统计量数
偏度,指的是数据分布的偏倾方向和程度
⑴ 用平均数与众数的离差求偏度系数
(又称皮尔逊偏度系数,记作SKp)
skp 表示偏度系数
Sk p
X M O x 表示样本数据的平均数
m0 表示众数值
S
s
表示标准差
Skp=0时,数据呈严格的正态分布
Skp>0时,分布呈正偏
Skp<0时,分布为负偏态
±2.58个抽样分布标准差范围内的概率为99%
在95%的置信水平条件下,总体平均数的置信区间 = X
在99%的置信水平条件下,总体平均数的置信区间 = X
1.96
2.58
S
N 1
N
δ
S
N 1
S / N 1
三、推断统计的两种基本形式
(二)假设检验
参数估计
假设检验
假设检验是以抽样分布
量变化各自独立 时,则变量之间
为不相关,又称零相关
按相关的形式
分为线性相关和非线性
相关
线性相关是当一个变量变动时,
另一变量随之发生大致的 均等变
动
非线性相关 是指一个变量变动时,
另一变量也随之变动,但这种变
动是不均等的
一、双变量分析的内容
2. 两变量间的因果关系
• 指一个变量的变化可以确定为另一变量变化的原因的关系。
Nd表示异序对数(两个数据或个案在两个变量上的相对等级不相同的对
数)
Z G
t G
NS Nd
n 1 G2
NS Nd
n 1 G2
df N S N d 2
(df表示自由度)
二、双变量分析的方法
3. 定类(或定序)-定距变量分析
当一个变量为定类变量或定序变量(定序变量作为定类变量处理),另一个
据)相同量纲(单位)的量数
绝对离散量数的局限:只有当两种离散量数的单位相同时,才能比较其大小
4. 离散系数
即标准差与算术平均数的百分比值,是一种无量纲的相对数,用CV表示
计算公式为: CV
cv 表示离散系数
S
100%
X
5. 偏度系数
可以比较不同单位数据分布的差异
程度
s 表示标准差
x 表示算术平均数
准差为σ的调查总体中,用随机方法
反复地抽取多个大小相同的样本;那
么,当样本中的个案数n增加时,样
本的抽样分布就会接近正态分布。
X2
中心极限定理
在样本容量足够大的情况下,样本的抽
样分布接近正态分布。在样本的抽样分
x X=
布中,平均数μ =μ ,标准差σ
,
通常称之为标准误。
正态抽样分布,
在统计分析中是
原理为基础,检验调查
样本中的统计特性是否
相
同
点
从样本出发去推断总体
查 得来的数据
从样本出发去推断总体
必须是通过随机抽样调
查得来的数据
用具体的样本统计量
来推断总体参数
检验样本中的事实、关
系在总体中是否也存在
必须是通过随机 抽样调
在总体中同样存在的一
种统计方法
不
同
点
三、推断统计的两种基本形式
(二)假设检验
|Skp| 越大,其偏向程度越大
⑵ 用平均数与中位数的离差求偏度系数
M 0 3Md 2 X
Sk p
X 3Md 2 X
3 X Md
S
S
三、单变量统计推断
1. 参数估计
参数估计是用样本统计量来估计总体参数,它通
常只涉及一个变量,也有涉及两个变量的。
2. 假设检验
单样本总体假设检验,就是对单个样本的统计量
理,一般包括缺损值处理、加权处理、变量
重新编码、数据重新排序,以及创造新变量
等等。
➢ 数据统计分析,就是调用统计软件中的各种
统计程序对数据进行分析,包括单变量、双
变量、多变量统计分析,以及制作统计图、
统计表等一系列工作。
数据录入和数
据清理
数据
预处理
数据
统计分析
三、统计分析的层次
第二节 描述统计与推断统 计
H 1 表示
三、推断统计的两种基本形式
(二)假设检验
假设检验的数理基础
“小概率事件在一次抽样中不
可能出现原理”
• 即小概率事件在通常情况
下是不可能出现的,如果
居然在一次抽样中出现了,
则有理由认为存在其他原
因而拒绝H0。
第三节 单变量统计分析
一、集中量数分析
集中量数分析,是指用一个具体的统计量反映一组数据向该统计量集中趋势的统计方法,
一种理想的分布
μ-σ μ μ+σ
三、推断统计的两种基本形式
(一)参数估计
• 统计量:由样本计算出来的统计值
• 参数:总体统计值
➢ 参数估计,就是运用样本统计量对总体参
数进行推断或估计的统计过程与统计方法
三、推断统计的两种基本形式
(一)参数估计
1.点值估计
• 点值估计的最大缺陷就是无法知道估计的误差到底有多大。因此,在实际研究工
二、双变量分析的方法
1. 定类-定类、定类-定序变量分析
消减误差比例(PRE)表示的就是当我们用一个变量X来解释另一个变
量Y时,能够减少多少比率的误差。能够消解误差的比率越大,表明两
个变量的关系越密切,亦即相互影响的作用力越大。取值区间为[0,1]
计算公式为:PRE
E1 E2
全部误差 相关误差
数据与该组算术平均数相减,将其差进行平方然后相加,再除以数
据的个数。
• 标准差是最重要、应用最广泛的离散量数。
(1) 用定义公式求方差和标准差
X X
2
标准差公式为:
S
方差公式为: S 2
X X
N
2
N
用定义公式求方差和标准差,首先要
求离差(X -X),将离差平方再相加,
度,以概率1-α表示,α称为显著性水平,表示该区间估计的不可靠性程度,
即估计参数位于该区间时可能犯错误的概率。
➢ 1-α则表示估计参数落入置信区间的可靠性程度或把握度。
三、推断统计的两种基本形式
(一)参数估计
2.区间估计
样本均值的抽样分布具有的特性是:总体平均数或抽样分布平均数处于样
本平均数±1.96个抽样分布标准差范围内的概率为95%;处于样本平均数
时,众数比平均数、中位数都更能表现出其优越性
二、离散量数分析
集中量数
反映的是数据整体的平均水平和典型情况
离散量数
反映数据整体的分散性、变异性等情况
所谓离散量数,就是表示一组数据变异程度或分散程度的量数
常用的离散量数是方差与标准差、全距、异众比率和偏度系数
1. 方差与标准差
• 方差是一种重要的离散量数,它的计算方法是,把一组数据中每个
第十四章 统计分析
统计分析概述
描述统计和推断统计
单变量统计分析
双变量统计分析
多变量统计分析
第一节 统计分析概述
一、统计分析及其目的
统计分析,就是运用统计
学原理和方法处理调查所
获得的数据资料,简化和
描述数据资料、揭示变量
之间的统计关系,并进而
推断总体的一整套程序和
方法。
二、统计分析的过程
➢ 数据预处理,就是对清理后数据做预备性处
x
Y
y
x
My
2n M x M Y
M
y
MY
n MY
表示对称式相关系数计算公式
y 表示非对称式相关系数计算公式
m X 表示变量Y的每个取值之下变量X的众数值
m y 表示变量X的每个取值之下变量Y的众数值
M X 表示变量X的众数值
M Y 表示变量Y的众数值
n表示全部数据或个案的数目
进行假设检验,必须首先建立两个假设,即虚无假设和备择假设(替换假设
或研究假设)
虚无假设
备择假设
含
义
假设在样本中观察到的事实或变
假设在样本中出现的情况并
量之间的关系在总体中并不存在,
不是抽样误差,在总体中也
样本中出现的这种情形是由于抽
同样存在
样误差造成的
性
质
是一个关于“不存在”的假设,
用H 0 表示
是关于“存在”的假设,用
它所表示的是一组数据集中的程度或水平。
平均数是最常用的集中量度,但它往往受极端数据的影响,使平均数反映数据整体集中趋
势的准确性变得面目全非;
当一组数据中存在极端数据、或数据中有个别数据不准确、不清楚的情况下,中位数能比
平均数更准确、更稳定地反映数据整体的集中趋势;
众数的优点是适用于所有类型的数据,另外在需要快速而又粗略地找出一组数据的代表值
变化时,X也发生变化
按相关的方向,分为
正相关和负相关
当一个变量的变化与另一个变
量向相同方向变化时,这两个
变量之间就存在着 正相关 关系,
相关系数取正值
按相关的强度,分为
完全相关、不相关和不
完全相关
当一个变量的数量 完全由另一个
变量的数量变化所确定时,它们
之间即为完全相关
当变量之间彼此互不影响 ,其数
E1
全部误差
二、双变量分析的方法
2.定序-定序变量的统计分析 ——Gamma级序相关分析方法
级序相关计算法,就是在计算公式中使用各原始数据的等级次序而不是数据本
身。G又属于对称相关测量法(不区分自变量和因变量),具有PRE特性
计算公式:G
NS Nd
NS Nd
G表示Gamma系数
NS表示同序对数(两个数据或个案在两个变量上的相对等级相同的对数)
1. 定类-定类、定类-定序变量分析
当两个变量均为定类变量,或一变量为定类、另一个变量为定序变量时,抽样分布
属于X2分布,因而进行X2检验,用λ或tau-y计算两个变量之间的相关强度与方向
X
2
fO
fe
fe
2
fO表示实际观察值频数
f e表示理论意义上的期望值频数
m m M
的公式为:
22
ffXX 2 ffXX
22
S NN NN
S
2
2
f X 2
f
X
2
f X f X
S
N N
N
N
x表示单值分组数据中的实际
数值,或组距分组资料中的
组中值
2
f表示各组的频数
作中通常选择另一种参数估计方法,即区间估计法。
三、推断统计的两种基本形式
(一)参数估计
2.区间估计
就是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一
种统计方法。
置信区间
置信水平
置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。
区间的上、下限(端点)称为临界值,所确定的概率水平称为置信水平或置信
然后除以N
1. 方差与标准差
(2) 用原始数据计算方差和标准差
用定义公式求方差和标准差,先要计算平均X和
离差(X -X)。如将定义公式稍加变换,则可
直接用原始数据计算S2和S
S2
X2
S
X2
N
N
X
N
X
N
2
2
(3) 分组数据计算方差与标准差
当处理的数据为分组资料时,计算方差和标准差
2. 全距(极差) 是一组数据中最大值与最小值之差,通常用R表示
优点
是最简单的离散量数,概念清楚,含义明确,计算简便
缺点
没有考虑中间数据,数据反映程度太粗略、不灵敏
3. 异众比率 是非众数的频数与全部个案数的比值,用VR表示
指众数所不能代表的其他数据
(即非众数数据)在总数据中
的比重
方差、标准差、全距等,都属于绝对离散量数,即它们都是带有与原观察值(数