定量变量的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lzhmin
2)累计频率分布图(cumulative histogram)
可用于描述连续型变量的累计频率分布,其横轴为变量的 组段,纵轴为各组段的累计频率(P25,图2-6)。
lzhmin lzhmin
3)箱式图(box plot)
可用于描述定量变量的平均水平和变异程度,还可显示数 据中的离群值(outlier)或极端值(extreme case)(P26, 图2-7)。
lzhmin
• 资料的类型:
定量资料 定性资料
• 统计分析方法:
数值变量资料的 统计分析方法 分类变量资料的 统计分析方法
• 统计分析: - 描述统计 - 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标 -可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比) -可信区间估计 - 统计检验
lzhmin
* 频数表法(P18,例2-8,表2-6)
i PX L ( n x% f L ) fx
式(2-8)
※百分位数是把数据从小到大分成100等份, 各等份分成1%的观察值,分割界限上的值。 用Px表示。中位数实际上就是50百分位数, 用P50表示。
lzhmin
众数(mode)(P18, 例2-9)
lzhmin
- 资料是相互独立的,目的是用直条的长短比较 数值的大小,选用直条图; - 双变量连续性资料,目的是用点的密集程度和 趋势表达两个变量的相互关系,选用散点图; - 地区性资料,目的是用不同的颜色或纹线表示 某事物在地域上的分布情况,选择统计地图。
lzhmin
2.要有图号及标题,概括统计图的主要内容。 标题一般位于图的下方,要简明扼要。 3.有纵轴和横轴为坐标的图形,一般以第一象限 为准做图,两轴的交点为起点,纵横两轴应有刻度、 数量单位和标目。
lzhmin
变异系数(coefficient of variation) (P22,例2-15) 指标准差除以算术均数,以百分数表示。 用CV表示。常用于比较度量单位不同或均数 相差悬殊的两组(或多组)资料的变异程度 (式2-16)。
S CV 100 % x
式(2-16)
lzhmin
lzhmin
lzhmin
4)线图(line graph)
用线段的升降来表示某变量随另一个变量的变化而变化的 趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或 连续性变量(P51,图3-5)。
lzhmin lzhmin
5)半对数线图(semi-logarithmic line graph)
表示某事物发展的相对速度(相对比)。纵轴为对数尺 度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示 (P53,图3-7)。
2
2 ( x )
N
2 ( x x )
S2
n 1
式(2-9)
式中 (n-1)称为自由度,用 df 或 v 表示。 自由度(degree of freedom):随机变量能“自由”取值的个数。
lzhmin
v n 限制条件的个数
标准差 (standard deviation)(P21,例2-13,14)
lzhmin
几何均数(geometric mean)
指各观察值x对数值均值的反对数。用G表示。 - 适用条件: * 偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。 如抗体的平均滴度、药物的平均效价等。 - 计算方法: * 直接法(P16,例2-5)
lg xi lg x1 lg x2 lg xn 1 G x1 x2 xn lg lg ( ) n n
lzhmin
lzhmin
频率分布表(图)的用途
描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布 揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion) 便于发现某些极端值或离群值 便于计算统计指标和进行统计分析
lzhmin
lzhmin
计算极差,或称全距(range) 决定组数、组段和组距 列表划记 绘制频数分布图
lzhmin
lzhmin
算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean)
指一组数据中出现频率最多的那个数据。一组数据可 以有多个或没有众数。
调和均数(harmonic mean)
指变量倒数的算术平均数。调和平均数又称倒数平均
数。
lzhmin
lzhmin
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
指方差开平方的值。总体标准差用方差σ表示,样本 标准差用S表示。 在实际计算中,样本标准差较总体标准差小,故英国 统计学家W.S.Gosset提出了校正方法,即N用n-1的自由 度代替。
2 ( x )
2 ( x x )
N
S
n 1
式(2-12)
※方差和标准差都表示资料变异的程度, 值越大,说明变异程度就越大。
lzhmin
频数(frequency) 频率分布表(frequency distribution table) 频率分布图(frequency distribution chart) 集中趋势(central tendency) 离散趋势(tendency of dispersion) 正态分布(normal distribution)
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
离散型定量变量的频率分布
离散型定量变量的取值是不连续的(P11,例2-1) 可用频数、频率;累计频数、累计频率来表示(P12,表2-1)
可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
lzhmin
lzhmin
连续型定量变量的频率分布
连续型定量变量的取值是连续的(P11,例2-2; P12,表2-2)。
可用组段的频数、频率;组段的累计频数、累计频率来表示
(P13,表2-3)。 可用直方图(histogram)来表达各组段频率的分布状况 (P13,图2-2)
中位数是指一组数据中位置居中的数值。用M表示。 - 适用条件: * 明显的偏态分布资料; * 未知分布资料。 - 计算方法 * 直接法(P17,例2-7) - n为奇数时,M X( 式(2-6) [ N 1) / 2] X( - n为偶数时,M [ X 式(2-7) (N / 2) [ N / 2) 1] ] / 2
lzhmin
6)散点图(scatter diagram)
用点的位置表示两变量间的数量关系和变化趋势 (P195,图10-1)。
lzhmin
7) 直条图(bar chart)
用等宽直条的长短表示统计指标数值的大小。适用于相互 独立,性质相似的各指标间比较。横轴为基线,表示分组因素 ,纵轴表示频数或频率,必须从零开始。单式条图各直条的间 隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一 个直条图,同组直条间不留间隙,组内各直条的排列顺序要一 致(P26,图2-8)。直条所表示的类别应有图例说明。
lzhmin
算术平均数(arithmetic mean) 指一组同质的数值之和除以数值个数所得的商。 总体均数用希腊字母μ表示,样本均数用 表示。 - 适用条件: 正态分布或近似正态分布资料。 - 计算方法: * 直接法(P15,例2-3)
xi x1 x2 x3 xn n n
偏度系数(coefficient of skewness,SKEW)
SKEW n 3 ( ) (n 1)(n 2) S
式ห้องสมุดไป่ตู้2-17)
理论上,总体偏度系数为0时,分布是对称的; 取正值时,分布为正偏峰;取负值时,分布为负偏 峰。
lzhmin
峰度系数(coefficient of kurtosis, KURT)
lzhmin
编制统计表应注意的事项 - 重点突出,简单明了; - 主谓分明,层次清楚。
lzhmin
统计图(statistical chart)
描述定量变量的常用统计图
1)直方图(histogram)
用各直方的面积表示各组段的 频数,用以表示连续型定量变量的 频数分布。横轴常表示被观察的对 象(变量),通常为连续型变量;纵 轴表示频数或频率。以各矩形面积 代表各组段的频数或频率,各矩形 之间不留空隙(P25,图2-5)。
n 1
式(2-3, 2-4)
lzhmin
* 频数表法或加权法(P17,例2-6,表2-5)
G lg
1
f lg x ( ) f
i i i
f1 lg x1 f 2 lg x2 f n lg xn fi
式(2-5)
lzhmin
中位数(median)和百分位数(percentile)
统计表(statistical table)
统计表的基本结构
-表号及标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、 地点。 - 标目:用简单的文字说明表格内的项目。 。横标目:位于表的左侧,说明横行数字的涵义; 。纵标目:位于表的上侧,说明纵行数字的涵义。 - 线条:只用横线,不用竖线,斜线;线条不宜过多,常用“三线表”。 - 数字:用阿拉伯数字表示,小数位数要一致,上下要对齐,表内不留空格。 。数字暂缺或未记录用“…”表示; 。无数字用“-”表示; 。数字为零用“0”表示。 - 备注:可用“*”标注后,在表的下方用文字加以说明。 lzhmin
式(2-18)
n(n 1) 4 3(n 1) 2 KURT ( ) (n 1)(n 2)(n 3) S (n 2)(n 3)
理论上,正态分布的总体峰度系数为0;取负值 时,其分布较正态分布的峰平阔;取正值时,其分 布较正态分布的峰尖峭。
lzhmin
lzhmin
统计表的种类
-简单表(simple table):主辞仅有一个标志。(P23,表2-7)
lzhmin lzhmin
-复合表(combinative table):又称组合表,主辞有两个以上的标志。 (P24,表2-8)
lzhmin lzhmin
编制统计表常存在的问题 - 内容庞杂; - 标题不确切,不精练,不完善,甚至缺标题; - 标目安排不恰当,重复; - 计算指标不能说明研究事物的本质; - 数字不准确或数字位数未对齐。
式(2-1)
lzhmin
* 频数表法或加权法(P15,例2-4,表2-4)
fx fi
i i
f1 x1 f 2 x2 f 3 x3 f n xn f1 f 2 f n
式(2-2)
※各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。
lzhmin
极差或称全距(range) 指一组资料最大值和最小值之差。用R表示。
四分位数间距(quartile range) 指上四分位数QU(P75)和下四分位数QL (P25)之差。用Q表示。 Q=P75 -P25
lzhmin
方差(variance) 指离均差平方和的均数。总体方差用σ2表示, 样本方差用S2表示。
lzhmin lzhmin
绘制统计图的基本要求
1. 按资料的性质和分析目的选用适当的图形。
- 资料是连续性的,目的是用线段升降表达事物 的动态变化趋势,选择普通线图;若指标的最大值 和最小值相差悬殊,可考虑选用半对数线图; - 资料是连续性的,但分析的目的是用线段升降 表达事物动态变化的速度,选择半对数线图; - 数值变量的频数表资料,其分析目的是用直方 的面积表达各组段的频数或频率分布情况,宜选择 直方图;
2)累计频率分布图(cumulative histogram)
可用于描述连续型变量的累计频率分布,其横轴为变量的 组段,纵轴为各组段的累计频率(P25,图2-6)。
lzhmin lzhmin
3)箱式图(box plot)
可用于描述定量变量的平均水平和变异程度,还可显示数 据中的离群值(outlier)或极端值(extreme case)(P26, 图2-7)。
lzhmin
• 资料的类型:
定量资料 定性资料
• 统计分析方法:
数值变量资料的 统计分析方法 分类变量资料的 统计分析方法
• 统计分析: - 描述统计 - 推断统计
lzhmin
- 集中趋势指标 - 离散趋势指标 -可信区间估计 - 统计检验
- 相对数(率、构 成比、相对比) -可信区间估计 - 统计检验
lzhmin
* 频数表法(P18,例2-8,表2-6)
i PX L ( n x% f L ) fx
式(2-8)
※百分位数是把数据从小到大分成100等份, 各等份分成1%的观察值,分割界限上的值。 用Px表示。中位数实际上就是50百分位数, 用P50表示。
lzhmin
众数(mode)(P18, 例2-9)
lzhmin
- 资料是相互独立的,目的是用直条的长短比较 数值的大小,选用直条图; - 双变量连续性资料,目的是用点的密集程度和 趋势表达两个变量的相互关系,选用散点图; - 地区性资料,目的是用不同的颜色或纹线表示 某事物在地域上的分布情况,选择统计地图。
lzhmin
2.要有图号及标题,概括统计图的主要内容。 标题一般位于图的下方,要简明扼要。 3.有纵轴和横轴为坐标的图形,一般以第一象限 为准做图,两轴的交点为起点,纵横两轴应有刻度、 数量单位和标目。
lzhmin
变异系数(coefficient of variation) (P22,例2-15) 指标准差除以算术均数,以百分数表示。 用CV表示。常用于比较度量单位不同或均数 相差悬殊的两组(或多组)资料的变异程度 (式2-16)。
S CV 100 % x
式(2-16)
lzhmin
lzhmin
lzhmin
4)线图(line graph)
用线段的升降来表示某变量随另一个变量的变化而变化的 趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或 连续性变量(P51,图3-5)。
lzhmin lzhmin
5)半对数线图(semi-logarithmic line graph)
表示某事物发展的相对速度(相对比)。纵轴为对数尺 度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示 (P53,图3-7)。
2
2 ( x )
N
2 ( x x )
S2
n 1
式(2-9)
式中 (n-1)称为自由度,用 df 或 v 表示。 自由度(degree of freedom):随机变量能“自由”取值的个数。
lzhmin
v n 限制条件的个数
标准差 (standard deviation)(P21,例2-13,14)
lzhmin
几何均数(geometric mean)
指各观察值x对数值均值的反对数。用G表示。 - 适用条件: * 偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。 如抗体的平均滴度、药物的平均效价等。 - 计算方法: * 直接法(P16,例2-5)
lg xi lg x1 lg x2 lg xn 1 G x1 x2 xn lg lg ( ) n n
lzhmin
lzhmin
频率分布表(图)的用途
描述变量的分布类型(P14,图2-3) - 正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布 揭示变量的分布特征 - 集中趋势(central tendency) - 离散趋势(tendency of dispersion) 便于发现某些极端值或离群值 便于计算统计指标和进行统计分析
lzhmin
lzhmin
计算极差,或称全距(range) 决定组数、组段和组距 列表划记 绘制频数分布图
lzhmin
lzhmin
算术平均数(arithmetic mean) 几何平均数(geometric mean) 中位数(median) 众数(mode) 调和均数(harmonic mean)
指一组数据中出现频率最多的那个数据。一组数据可 以有多个或没有众数。
调和均数(harmonic mean)
指变量倒数的算术平均数。调和平均数又称倒数平均
数。
lzhmin
lzhmin
例(P19,2-10):试观察A、B和C三组数据的离散状况。
A组: 24, 27, 30, 33, 36 B组: 26, 28, 30, 32, 34 C组: 26, 29, 30, 31, 34
指方差开平方的值。总体标准差用方差σ表示,样本 标准差用S表示。 在实际计算中,样本标准差较总体标准差小,故英国 统计学家W.S.Gosset提出了校正方法,即N用n-1的自由 度代替。
2 ( x )
2 ( x x )
N
S
n 1
式(2-12)
※方差和标准差都表示资料变异的程度, 值越大,说明变异程度就越大。
lzhmin
频数(frequency) 频率分布表(frequency distribution table) 频率分布图(frequency distribution chart) 集中趋势(central tendency) 离散趋势(tendency of dispersion) 正态分布(normal distribution)
-正偏态分布(skewed positively distribution):若高峰位于左侧。 -负偏态分布(skewed negatively distribution):若高峰位于右侧。
lzhmin
离散型定量变量的频率分布
离散型定量变量的取值是不连续的(P11,例2-1) 可用频数、频率;累计频数、累计频率来表示(P12,表2-1)
可用直条图(bar chart)来表达各组频率的大小(P12,图2-1)
lzhmin
lzhmin
连续型定量变量的频率分布
连续型定量变量的取值是连续的(P11,例2-2; P12,表2-2)。
可用组段的频数、频率;组段的累计频数、累计频率来表示
(P13,表2-3)。 可用直方图(histogram)来表达各组段频率的分布状况 (P13,图2-2)
中位数是指一组数据中位置居中的数值。用M表示。 - 适用条件: * 明显的偏态分布资料; * 未知分布资料。 - 计算方法 * 直接法(P17,例2-7) - n为奇数时,M X( 式(2-6) [ N 1) / 2] X( - n为偶数时,M [ X 式(2-7) (N / 2) [ N / 2) 1] ] / 2
lzhmin
6)散点图(scatter diagram)
用点的位置表示两变量间的数量关系和变化趋势 (P195,图10-1)。
lzhmin
7) 直条图(bar chart)
用等宽直条的长短表示统计指标数值的大小。适用于相互 独立,性质相似的各指标间比较。横轴为基线,表示分组因素 ,纵轴表示频数或频率,必须从零开始。单式条图各直条的间 隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一 个直条图,同组直条间不留间隙,组内各直条的排列顺序要一 致(P26,图2-8)。直条所表示的类别应有图例说明。
lzhmin
算术平均数(arithmetic mean) 指一组同质的数值之和除以数值个数所得的商。 总体均数用希腊字母μ表示,样本均数用 表示。 - 适用条件: 正态分布或近似正态分布资料。 - 计算方法: * 直接法(P15,例2-3)
xi x1 x2 x3 xn n n
偏度系数(coefficient of skewness,SKEW)
SKEW n 3 ( ) (n 1)(n 2) S
式ห้องสมุดไป่ตู้2-17)
理论上,总体偏度系数为0时,分布是对称的; 取正值时,分布为正偏峰;取负值时,分布为负偏 峰。
lzhmin
峰度系数(coefficient of kurtosis, KURT)
lzhmin
编制统计表应注意的事项 - 重点突出,简单明了; - 主谓分明,层次清楚。
lzhmin
统计图(statistical chart)
描述定量变量的常用统计图
1)直方图(histogram)
用各直方的面积表示各组段的 频数,用以表示连续型定量变量的 频数分布。横轴常表示被观察的对 象(变量),通常为连续型变量;纵 轴表示频数或频率。以各矩形面积 代表各组段的频数或频率,各矩形 之间不留空隙(P25,图2-5)。
n 1
式(2-3, 2-4)
lzhmin
* 频数表法或加权法(P17,例2-6,表2-5)
G lg
1
f lg x ( ) f
i i i
f1 lg x1 f 2 lg x2 f n lg xn fi
式(2-5)
lzhmin
中位数(median)和百分位数(percentile)
统计表(statistical table)
统计表的基本结构
-表号及标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、 地点。 - 标目:用简单的文字说明表格内的项目。 。横标目:位于表的左侧,说明横行数字的涵义; 。纵标目:位于表的上侧,说明纵行数字的涵义。 - 线条:只用横线,不用竖线,斜线;线条不宜过多,常用“三线表”。 - 数字:用阿拉伯数字表示,小数位数要一致,上下要对齐,表内不留空格。 。数字暂缺或未记录用“…”表示; 。无数字用“-”表示; 。数字为零用“0”表示。 - 备注:可用“*”标注后,在表的下方用文字加以说明。 lzhmin
式(2-18)
n(n 1) 4 3(n 1) 2 KURT ( ) (n 1)(n 2)(n 3) S (n 2)(n 3)
理论上,正态分布的总体峰度系数为0;取负值 时,其分布较正态分布的峰平阔;取正值时,其分 布较正态分布的峰尖峭。
lzhmin
lzhmin
统计表的种类
-简单表(simple table):主辞仅有一个标志。(P23,表2-7)
lzhmin lzhmin
-复合表(combinative table):又称组合表,主辞有两个以上的标志。 (P24,表2-8)
lzhmin lzhmin
编制统计表常存在的问题 - 内容庞杂; - 标题不确切,不精练,不完善,甚至缺标题; - 标目安排不恰当,重复; - 计算指标不能说明研究事物的本质; - 数字不准确或数字位数未对齐。
式(2-1)
lzhmin
* 频数表法或加权法(P15,例2-4,表2-4)
fx fi
i i
f1 x1 f 2 x2 f 3 x3 f n xn f1 f 2 f n
式(2-2)
※各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。
lzhmin
极差或称全距(range) 指一组资料最大值和最小值之差。用R表示。
四分位数间距(quartile range) 指上四分位数QU(P75)和下四分位数QL (P25)之差。用Q表示。 Q=P75 -P25
lzhmin
方差(variance) 指离均差平方和的均数。总体方差用σ2表示, 样本方差用S2表示。
lzhmin lzhmin
绘制统计图的基本要求
1. 按资料的性质和分析目的选用适当的图形。
- 资料是连续性的,目的是用线段升降表达事物 的动态变化趋势,选择普通线图;若指标的最大值 和最小值相差悬殊,可考虑选用半对数线图; - 资料是连续性的,但分析的目的是用线段升降 表达事物动态变化的速度,选择半对数线图; - 数值变量的频数表资料,其分析目的是用直方 的面积表达各组段的频数或频率分布情况,宜选择 直方图;