第四章 数据特征与统计描述

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第四章数据特征与统计描述
第四章数据特征与统计描述
1/ 105
本章结构? ???第一节第二节第三节第四节频数分布表与频数分布图计量资料的常用统计指标计数资料的常用统计指标统计图表
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第一节频数分布表与频数分布图
3/ 105
一、频数分布表 (frequency table)用途:用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为该情形的频数。

资料类型计数和等级计量组段观察结果的所有分类根据观察结果重新划分频数相同类别出现的次数分组统计P44 表4-1,4-2,4-3
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 表4-3 某地150名正常成年男子红细胞数(1012/L)编号红细胞数12 3 4 5 6 73.984.54 4.74 5.13 4.43 4.81 4.98编号… 143 144 145 146 147 148红细胞数… 4.67 5.40 5.29 4.77 5.38 5.158 …3.79 …1491504.645.19
5/ 105
1. 频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。

本例极差: R=5.88-3.79=2.09(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。

组距=极差/组数,通常分10-15 个组,为方便计,组距参考极差的十分之一, 再略加调整。

本例i= R /10=2.09/10=0.209≈0.2。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ (3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。

(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

7/ 105
组段(1)3.7~频数,f (2)1组中值,X (3)3.8fX (4)= (2)×(3)3.83.9~4.1~ 4.3~411 174.04.2 4.416.046.2 74.84.5~4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9 合计2632 26 18 10 4 1 1504.64.8 5.0 5.2 5.4 5.6 5.8119.6153.6 130.0 93.6 54.0 22.4 5.8 719.8
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 三、频数分布图P47
9/ 105
二、频数表和频数分布图用途1.描述频数分布的类型* (1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (图4-2) (2)偏态分布:
---------------------------------------------------------------最新资料推荐------------------------------------------------------ ?右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。

表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布人 2 9 14 23 19 14 11 9 7 4 3 数转氨酶含量 12~ 15~ 18~ 21~ 24~27~ 30~ 33~ 36~ 39~ 42~45
11/ 105
252015人数105013.519.525.531.537.543.5.血清转氨酶(mmol/L)图2-2 115名正常成年女子血清转氨酶的频数分布
---------------------------------------------------------------最新资料推荐------------------------------------------------------ ?左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。

表4- 101名正常人的血清肌红蛋白( ?g/mL )含量分布肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 2 3 7 9 10 22 23 14 9 2 数
13/ 105
25 20人数15 10 5 0 2.5 12.5 22.5 32.5 42.5 52.5 血清肌红蛋白(μ g / m L)图 2-3 101 名正常人血清肌红蛋白的频数分布
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 2. 描述计量资料分布的集中趋势和离散趋势①集中趋势(central tendency):变量值集中位置。

本例在组段“4.7~”。

——平均水平指标②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。

离“中心”位置越远,频数越小;且围绕“中心”左右对称。

——变异水平指标
15/ 105
3.便于发现一些特大或特小的可疑值*组段 (1) 2.30~ 2.60~2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~5.30~ 5.60~5.90 合计频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 4.便于进一步做统计分析和处理
17/ 105
第二节计量资料的常用统计指标? ?描述集中趋势的特征数描述离散趋势的特征数
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)
19/ 105
一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势( central tendency )。

常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 1. 均数(mean)符号:总体 ? 样本 X 适用条件:资料呈对称分布,尤其是正态或近似正态。

计算: X 1 ? X 2 ? ? ? X n ?X 例4-2 (1)直接法 X ? ? (2)频数表法 f1 X 1 ? f 2 X 2 ? f3 X 3 ? ? ? f k X k ?fX i X? ? f1 ?
f 2 ? f3 ? ? ? f k ?fiΣ为求和符号,读成sigma,k, X , f 意义“权数” 例4-nn
21/ 105
p49,例4-3:均数=719.8/150=4.8
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 2. 几何均数(geometric mean)X G ? n X1 X 2 ? X n 1 ? lg X lg X G ? (lg X 1 ? lg X 2 ? ? ? lg X n ) ? n n lg X ?1 ? 几何均数:变量 X G ? lg n 对数值的算术均 lg 表示以10为底的对数;数的反对数。

lg 表示以10为底的反对数 X ? 0,为正值?1
23/ 105
几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。

? lg 101 ? lg 102 ? lg 103 ? lg 104 ? lg 105 ? ? ? 1000 G ? lg ?1 ? ? ? 5 ? ? 此例的算术均数为22222,显然不能代表滴度的平均水平。

同一资料,几何均数<均数
---------------------------------------------------------------最新资料推荐------------------------------------------------------
G ? lg?1频数表资料的几何均数 ? ? f lg X ? ? f lg X ? f lg X ? ? ?
f ? ? ? l
g ? ? ?f ? ? ?f ? ? ?i i ?1 1 1 2 2 i inlg X n ? ? ? ?f· lgX
⑸ 0.6021 4.5155 7.2246 3.0102 ┇ 13.5465 72.2471抗体滴度⑴ 1:4 1:8 1:16 1:32 ┇ 1:512 合计人数,f ⑵ 1 5 6 2 ┇ 5 72lgX 滴度倒数,X ⑶ ⑷ 4 0.6021 8 0.9031 16 1.2041 32 1.5051 p51,例4-5:几何┇ ┇ 512 2.7093 均数=反对数(72.2471/40)= 64.00
25/ 105
3. 中位数(median)意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。

符号:Md 适用条件:适合各种类型的资料。

尤其适合于①大样本偏态分布的资料;②资料有不确定数值;
③资料分布不明等。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下公式计算:? x( n?1) / 2 Md ? ? ??xn / 2 ? x1? n / 2 ? 2n为奇数 n为偶数特点:仅仅利用了中间的1~2个数据 p51,例4-6:5人潜伏期:2,3,5,8,20
27/ 105
频数表资料的中位数Md ? 所在组段下限值 ? (n ? 50% ? 至该下限值的累计频数) 组距所在组段下限值至上限值间的频数 (n ? 50% ? ?f L ) Md ? L ? i ? fm(n ? 50% ? ?f L )下限值Li; fm上限值U中位数Md
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 潜伏期/h (1) 0~ 6~频数,f (2) 17 46累计频数?f (3) 17 6312~18~ 24~3832 6101133 13930~36~ 42~48 合计04 2 145139143 145例4-8 中位数=12+6x[(145x50%-63)/38] =13.5(h)
29/ 105
均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 小结:集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。

不同的分布使用不同的指标(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布(传染病发病的潜伏期)
31/ 105
二、描述离散趋势的特征数(变异(variation)指标)反映数据的离散度( Dispersion )。

即个体观察值的变异程度。

常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)盘编号 1 甲乙丙580 560 540 520 500 480 460 440 4202345 合计440 460 500 540 5602500480 490 500 510 5202500490 495 500 505 5102500均数500500500甲乙丙
33/ 105
1.极差(Range) (全距)符号:R 意义:反映全部变量值的变动范围。

优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。

缺点:1. 只利用了两个极端值 2.n大,R也会大 3.不稳定适用范围:任何计量资料;是参考变异指标R ? X max ? X min580 560 540 520 500 480 460 440 4201204020
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 2.百分位数与四分位数间距 Percentile and quartile range百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。

记为Px。

四分位间距:100% 80% 60% 40% 20% 0% 0P100(max)P75P50(中位数)(定义:P53)Q=P75- P25四分位半间距 quartile deviation :QD=QR/2P25P0(min)Px
35/ 105
频数表资料的百分位数Px ? 所在组段下限值 ? (n ? x% ? 至该下限值的累计频数) 组距所在组段下限值至上限值间的频数 (n ? x% ? ?f L ) Px ? L ? i ? fm(n ? x% ? ?f L )下限值Li; fm上限值U百分位数Px
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 潜伏期/h (1) 0~ 6~ 12~ 18~ 24~ 30~ 36~频数,f (2)17 46 38 32 6 0 4累计频数?f (3) 17 63 101 133 139 139 14342~48 合计2145145P25=6+6x[(145x25%-17)/46]=8.51(h) P75=18+6x[(145x75%-101)/32]=19.45(h) Q=19.45-8.51=10.94(h)
37/ 105
百分位数的应用?确定医学参考值范围(reference range):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。

?中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 3.方差方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。

表示一组数据的平均离散情况。

离均差和 ( X - ? ) ? 0 ∑ 离均差平方和(sum of square ) SS ? l xx ? ∑ X - ? ) 2 ( ( X - ? )2 总体方差? 2 ? ∑ N 2 2 2 ( 2 ∑X ? X ) = ? X ? ?? X ? n 样本方差S ? n ?1 n ?1
39/ 105
样本方差为什么要除以(n-1)总体方差?样本方差S22?( X ? ? )2 ? N2?(X ? X ) ?n ?1? X ? ?? X ? =22nn ?1数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。

对于样本资料,对离均差平方和取平均时分母用n-1代替n。

分母为n-1,称为自由度(能自由取值的变量的个数)。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 4.标准差标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。

(p54)总体标准差? ? ( X ? X )2 ? N样本标准差S ?? ( X ? X ) = ? X ? ?? X ?2 22nn ?1n ?1频数表样本标准差S ?? fX ? ?? fX ? ?
f ? f ?12 2
41/ 105
标准差的计算盘编号甲乙丙甲2 乙2 丙21 2 3 4 5 合计标准差440 460 500 540 560 250050.99480 490 500 510 520 250015.81490 495 500 505 510 25007.912193600 211600 250000 291600 313600 12604002230400 240100 250000 260100 270400 1251000240100 245025 250000 255025 260100 1250250甲的标准差S ?? X ? ?? X ? nn ?11260400 ? 25002 / 5 ? =50.99 5 ?1
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=
0.39(1012/L)(例4-12)组段(1) 3.7~ 3.9~ 4.1~频数,f (2)
1 4 11 组中值,X (3)3.8 4.0 4.
2 fX (4)= (2)×(3) 3.8 16.0 46.24.3~4.5~ 4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9 合计1726 32 26 18 10 4 14.44.6 4.8 5.0 5.2 5.4 5.6 5.874.8119.6 153.6 130.0 93.6 54.0 22.4 5.8150719.8
43/ 105
5.变异系数(coefficient of variation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊S CV ? ?100% X青年男子身高体重均数 170 cm 60 kg标准差变异系数 6 cm 3.5% 7 kg 11.7%意义:挑选指标时变异系数越小,指标越好。

P56 例4-13
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料 4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距
45/ 105
练习题p67.第1题。

p68.第3题。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项
47/ 105
计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 一、计数资料的数据整理计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号 2025655 2025653 2025830 2025677 2025647 2025848 2019915 2025861 2024601 2000386 年龄27 22 25 24 30 32 27 29 25 26 职业无无管理人员知识分子管理人员无无无农民无文化程度中学小学大学中学大学小学中学大学中学小学分娩方式顺产助产顺产顺产顺产剖宫产顺产剖宫产顺产顺产妊娠结局足月足月足月早产足月足月死产足月足月足月
49/ 105
按年龄(2岁一组)与职业整理年龄 18 20 22 24 26 28 30 32 34 36 38 40 合计工人 2 9 28 50 50 34 11 14 4 2 3 0 207 管理人员 0 2 7 34 43 35 14 2 2 1 1 0 141 农民 0 6 10 28 25 10 11 3 5 1 1 2 102 商业服务 0 10 24 52 45 34 22 14 3 4 0 0 208 无 3 18 70 153 133 78 39 24 12 5 2 0 537 知识分子 0 0 11 44 70 57 17 3 2 1 1 0 206 总计 5 45 150 361 366 248 114 60 28 14 8 2 1401。

相关文档
最新文档