定量变量的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lzhmin
• 资料的类型:
定量资料
• 统计分析方法:
数值变量资料的 统计分析方法
定性资料
分类变量资料的 统计分析方法
• 统计分析: - 描述统计
- 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标
-可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比)
-可信区间估计 - 统计检验
lzhmin
指方差开平方的值。总体标准差用方差σ表示,样本 标准差用S表示。
在实际计算中,样本标准差较总体标准差小,故英国 统计学家W.S.Gosset提出了校正方法,即N用n-1的自由 度代替。
lzhmin
频率分布表(图)的用途
➢描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布
➢揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion)
➢便于发现某些极端值或离群值 ➢便于计算统计指标和进行统计分析
PX
L
i fx
(n x%
fL)
式(2-8)
※百分位数是把数据从小到大分成100等份, 各等份分成1%的观察值,分割界限上的值。 用Px表示。中位数实际上就是50百分位数, 用P50表示。
lzhmin
众数(mode)(P18, 例2-9)
指一组数据中出现频率最多的那个数据。一组数据可 以有多个或没有众数。
lzhmin
lzhmin
计算极差,或称全距(range) 决定组数、组段和组距 列表划记 绘制频数分布图
lzhmin
lzhmin
算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean)
2 (x ) 2
N
S 2 (x x) 2
n 1
式(2-9)
式中 (n-1)称为自由度,用 df 或 v 表示。
自由度(degree of freedom):随机变量能“自由”取值的个数。
lzhmin
v n 限制条件的个数
标准差 (standard deviation)(P21,例2-13,14)
调和均数(harmonic mean)
指变量倒数的算术平均数。调和平均数又称倒数平均 数。
lzhmin
lzhmin
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
频数(frequency) 频率分布表(frequency distribution table) 频率分布图(frequency distribution chart) 集中趋势(central tendency) 离散趋势(tendency of dispersion) 正态分布(normal distribution)
lzhmin
极差或称全距(range) 指一组资料最大值和最小值之差。用R表示。
四分位数间距(quartile range) 指上四分位数QU(P75)和下四分位数QL
(P25)之差。用Q表示。 Q=P75 -P25
lzhmin
方差(variance)
指离均差平方和的均数。总体方差用σ2表示, 样本方差用S2表示。
- 适用条件:
* 明显的偏态分布资料;
* 未知分布资料。
- 计算方法
* 直接法(P17,例2-7)
- n为奇数时,M X([ N 1)/ 2]
式(2-6)
- n为偶数时,M [ X(N / 2) X([ N / 2)1] ] / 2 式(2-7)
lzhmin
* 频数表法(P18,例2-8,表2-6)
lzhmin
lzhmin
连续型定量变量的频率分布
➢连续型定量变量的取值是连续的(P11,例2-2; P12,表2-2)。 ➢可用组段的频数、频率;组段的累计频数、累计频率来表示 (P13,表2-3)。 ➢可用直方图(histogram)来表达各组段频率的分布状况 (P13,图2-2)
lzhmin
lzhmin
算术平均数(arithmetic mean)
指一组同质的数值之和除以数值个数所得的商。
总体均数用希腊字母μ表示,样本均数用 表示。
- 适用条件: 正态分布或近似正态分布资料。
- 计算方法: * 直接法(P15,例2-3)
xi x1 x2 x3 xn
n
n
式(2-1)
lzhmin
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
离散型定量变量的频率分布
➢离散型定量变量的取值是不连续的(P11,例2-1) ➢可用频数、频率;累计频数、累计频率来表示(P12,表2-1) ➢可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
指各观察值x对数值均值的反对数。用G表示。 - 适用条件:
* 偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。
ห้องสมุดไป่ตู้如抗体的平均滴度、药物的平均效价等。
- 计算方法: * 直接法(P16,例2-5)
G
n
x1x2 xn
lg 1
lg
x1 lg
x2 lg xn n
lg 1(
lg xi ) n
* 频数表法或加权法(P15,例2-4,表2-4)
fi xi fi
f1x1
f2 x2 f3x3 f1 f2 fn
fn xn
式(2-2)
※各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。
lzhmin
几何均数(geometric mean)
式(2-3, 2-4)
lzhmin
* 频数表法或加权法(P17,例2-6,表2-5)
G lg 1( fi lg xi ) f1 lg x1 f2 lg x2 fn lg xn
fi
fi
式(2-5)
lzhmin
中位数(median)和百分位数(percentile)
中位数是指一组数据中位置居中的数值。用M表示。
• 资料的类型:
定量资料
• 统计分析方法:
数值变量资料的 统计分析方法
定性资料
分类变量资料的 统计分析方法
• 统计分析: - 描述统计
- 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标
-可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比)
-可信区间估计 - 统计检验
lzhmin
指方差开平方的值。总体标准差用方差σ表示,样本 标准差用S表示。
在实际计算中,样本标准差较总体标准差小,故英国 统计学家W.S.Gosset提出了校正方法,即N用n-1的自由 度代替。
lzhmin
频率分布表(图)的用途
➢描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布
➢揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion)
➢便于发现某些极端值或离群值 ➢便于计算统计指标和进行统计分析
PX
L
i fx
(n x%
fL)
式(2-8)
※百分位数是把数据从小到大分成100等份, 各等份分成1%的观察值,分割界限上的值。 用Px表示。中位数实际上就是50百分位数, 用P50表示。
lzhmin
众数(mode)(P18, 例2-9)
指一组数据中出现频率最多的那个数据。一组数据可 以有多个或没有众数。
lzhmin
lzhmin
计算极差,或称全距(range) 决定组数、组段和组距 列表划记 绘制频数分布图
lzhmin
lzhmin
算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean)
2 (x ) 2
N
S 2 (x x) 2
n 1
式(2-9)
式中 (n-1)称为自由度,用 df 或 v 表示。
自由度(degree of freedom):随机变量能“自由”取值的个数。
lzhmin
v n 限制条件的个数
标准差 (standard deviation)(P21,例2-13,14)
调和均数(harmonic mean)
指变量倒数的算术平均数。调和平均数又称倒数平均 数。
lzhmin
lzhmin
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
频数(frequency) 频率分布表(frequency distribution table) 频率分布图(frequency distribution chart) 集中趋势(central tendency) 离散趋势(tendency of dispersion) 正态分布(normal distribution)
lzhmin
极差或称全距(range) 指一组资料最大值和最小值之差。用R表示。
四分位数间距(quartile range) 指上四分位数QU(P75)和下四分位数QL
(P25)之差。用Q表示。 Q=P75 -P25
lzhmin
方差(variance)
指离均差平方和的均数。总体方差用σ2表示, 样本方差用S2表示。
- 适用条件:
* 明显的偏态分布资料;
* 未知分布资料。
- 计算方法
* 直接法(P17,例2-7)
- n为奇数时,M X([ N 1)/ 2]
式(2-6)
- n为偶数时,M [ X(N / 2) X([ N / 2)1] ] / 2 式(2-7)
lzhmin
* 频数表法(P18,例2-8,表2-6)
lzhmin
lzhmin
连续型定量变量的频率分布
➢连续型定量变量的取值是连续的(P11,例2-2; P12,表2-2)。 ➢可用组段的频数、频率;组段的累计频数、累计频率来表示 (P13,表2-3)。 ➢可用直方图(histogram)来表达各组段频率的分布状况 (P13,图2-2)
lzhmin
lzhmin
算术平均数(arithmetic mean)
指一组同质的数值之和除以数值个数所得的商。
总体均数用希腊字母μ表示,样本均数用 表示。
- 适用条件: 正态分布或近似正态分布资料。
- 计算方法: * 直接法(P15,例2-3)
xi x1 x2 x3 xn
n
n
式(2-1)
lzhmin
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
离散型定量变量的频率分布
➢离散型定量变量的取值是不连续的(P11,例2-1) ➢可用频数、频率;累计频数、累计频率来表示(P12,表2-1) ➢可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
指各观察值x对数值均值的反对数。用G表示。 - 适用条件:
* 偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。
ห้องสมุดไป่ตู้如抗体的平均滴度、药物的平均效价等。
- 计算方法: * 直接法(P16,例2-5)
G
n
x1x2 xn
lg 1
lg
x1 lg
x2 lg xn n
lg 1(
lg xi ) n
* 频数表法或加权法(P15,例2-4,表2-4)
fi xi fi
f1x1
f2 x2 f3x3 f1 f2 fn
fn xn
式(2-2)
※各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。
lzhmin
几何均数(geometric mean)
式(2-3, 2-4)
lzhmin
* 频数表法或加权法(P17,例2-6,表2-5)
G lg 1( fi lg xi ) f1 lg x1 f2 lg x2 fn lg xn
fi
fi
式(2-5)
lzhmin
中位数(median)和百分位数(percentile)
中位数是指一组数据中位置居中的数值。用M表示。