2017.3.16-统计学-计量资料的统计描述方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量资料的统计描述方法
怎样表达一组数据?
描述计量资料的常用指标—
A 、描述平均水平(中心位置):
均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:
标准差、四分位数间距、 变异系数、方差、全距
(一)均数mean 和标准差standard deviation
1. (算术)均数X
均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式:
应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile )
A.中位数M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件:
用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算:
12n
X X X X X n
n
+++=
=
∑
n为奇数时--
n为偶数时--
9人数据:12,13,14, 14, 15, 15, 15, 17, 19天
B.百分位数
是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是第百分50位数。
四分位数间距(quartile range)
= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
)
(天
15
5
2
1
9
=
=
=
+
X
X
M
8845
1
22
221415214.5()
M X X X X
⎛⎫
====
⎪
⎝⎭
+
如果只调查了前八位中学生,则:
+(+)(+)天
百分位数计算(频数表法):
X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距
n :总例数 f x :所在组段频数
注:有的教材X= r ;
L f ∑=C
例:求频数表的第25、第75百分位数(四分位数间距)
组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7
62~ 12 19 ∑f 25 L 25 65~
15 34 P 25在此
68~ 25 59
71~ 26 85 ∑f 75 L 75 74~
19 104 P 75在此
77~ 15 119 80~ 10 129 83~85
1 130
合 计
130
① 确定Px 所在组段:
P 25所在的组段:n X %=130×25%=32.5,
65~组最终的累积频数=34,32.5落在65~组段内;
P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90
P 75=74+3x[(130x75%-85)/19]=74.66
四分位数间距=65.90~74.66 (次/分)
3.几何均数G (geometric mean )
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。 原始数据分布不对称,经对数转换后呈对称分布的资料。 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。例如 抗体滴度。
计算:N 个数值的乘积开N 次方, 即为这N 个数的几何均数。
有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。使用分母计算!
平均抗体效价为: 1:57
众数
是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个
121
lg 1
lg (lg lg lg )lg lg n
G X G X X X
n n
X
G n
-==++
+=
=∑∑为正值
,为底的反对数表示以为底的对数;表示以
010lg 10lg 1>-X 57.566403201608040201058=⋅⋅⋅⋅⋅⋅⋅=G 1
lg [(lg5lg10lg20lg640)/8]56.57
G -=++++=
组段的组中值。适用于大样本但较粗糙。
例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时: 均数=中位数=众数
正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数
3. 标准差S
S 描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S
甲组 75 80 85 90 95 100 105 n 1=7 X 1=90
s 1=10.8 乙组
45
60
75
90
105 120 135 n 2=7
X 2=90
s 2=32.4
()数据越分散 1
2
-∑-=
n X X S ,分子越大。 或者
标准差的5应用:
描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围
S 用于正态分布资料
S =