第二章 数值变量资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
划分组段:各组段应有明确的界限,便于汇总,
每个组段的起点称“下限”,终点称“上限”。 第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限,但是第一组的下限值 不能等于最小值。 各组段既不重叠,也不能留空隙,所以每一组段 均为半开闭区间,后一组的下限就是前一组的上 限。 组段中的横线~不能省略,它表示连续型资料。 最后一个组段应该包括最大值,并且封口,但 最后一个组段的上限不能等于最大值。
均数的应用
用途:用来描述一组变量值的平均水平, 具有代表性,因此变量值必须是同质的。 应用条件:适用于呈对称分布的资料, 特别是正态分布或者近似正态分布的资 料,因为这时均数位于分布的中心,最 能反映分布的集中趋势。
150名12岁男童体重(kg)频数分布表
组段 频数f 频率(%)
20~ 23~ 26~ 29~ 32~ 35~ 38~ 41~ 44~ 47~ 50~53 2 7 10 15 25 35 23 18 8 5 2 1.30 4.70 6.70 10.00 16.70 23.30 15.30 12.00 5.30 3.30 1.30
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 直方图是以 x(本例为体重)为横坐标,频 数或百分数为纵坐标,用矩形面积大小表示 频数多少。
某地150名12岁男童体重频数分布图
120例链球菌感染咽炎患者潜伏期分布图 (正偏峰分布)
40
30
病例数
20
10
0 18. 0 30. 0 42. 0 54. 0 66. 0 78. 0 90. 0 102. 0 114. 0
潜伏期(小时)
一些慢性病患者的年龄分布,其集 中位置偏向年龄大的一侧,频数尾部 向左侧延伸,称为负偏态(峰)分布, 如图
40
30
Frenquency
20
10
0 21. 5 24. 5 27. 5 30. 5 33. 5 36. 5 39. 5 42. 5 45. 5 48. 5 51. 5
体重( kg )
频数分布的类型
偏态分布指集中位置偏向一侧,频数分布 不对称。 一些以儿童为主的传染病,患者的年龄分 布,集中位置偏于年龄小的一侧,频数尾 部向右侧延伸,称为正偏态(峰)分布, 如图
均数是算术均数的简称,它反映了一 组观察值在数量上的平均水平。总体 均数用希腊字母 μ 表示,样本均数用 表示 。
均数的计算 均数的计算方法有直接法 和加权法,计算机运算中多采用直接 法。
均数的计算
直接法是将所有性质相同的观察值 x1,x2,x3…xn, 直接相加再除以观察值的个数n。 x1 x2 xn xi x n n 例: 10 名 12 岁健康男童体重( kg)分别为 39.6 , 33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4, 38.5,求平均体重。
1. 找出最大值和最小值,计算极差。
• 极差(R)也叫全距,它是一组变量值中
最大值与最小值之差。 最大值为51.2kg, 最小值为20.1kg, 极差 R=51.2-20.1=31.1kg。
2.按极差大小决定组段数、组段和组距。
确定组段数:组段数的多少一般根据观察单
位的多少来确定,过多或过少均不能更好地反 映资料的分布特征,以能够反映频数分布的特 点为宜,一般分为8~15组,观察单位少时可相 对少些,观察单位较多时组段数可酌情多些。 本例初步确定为10个组。 确定组距:相邻组段下限值之差称为组距, 一般分组时取组距相等。组距 =极差/组数,常 取整数作组距,取整只是为了方便资料的整理 汇总。本例组距=30.1/10= 3.11≈3。
累计频数
2 9 19 34 59 94 117 135 143 148 150
累计频率(%)
1.30 6.00 12.70 22.70 39.30 62.70 78.00 90.00 95.30 98.70 100.00
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数 据大多数集中在32~38组段,共83人,占总 人数的55%,这种趋势称为集中趋势。 另一方面,随体重逐渐变大或变小,仍有 小部分变量值存在,称这种特征为离散趋 势,其变异程度是可以测定得。 集中趋势和离散趋势是频数分布的两个重 要特征,测定其集中趋势和离散趋势就可 较全面地分析所研究的事物。
f1 x1 f 2 x2 f n xn fxi x f f
均数的计算
f1 x1 f 2 x2 f ቤተ መጻሕፍቲ ባይዱ xn x f
fx f
i
2 21.5 7 24.5 2 51.5 2 7 2 5445 150 36.3kg
x1 x2 xn xi 39.6 33.2 38.5 x = =35.( 6 kg) n n 10
某地儿研所测得该地150名12岁健康男童体重 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
累计频数
2 9 19 34 59 94 117 135 143 148 150
累计频率(%)
1.30 6.00 12.70 22.70 39.30 62.70 78.00 90.00 95.30 98.70 100.00
均数的计算
加权法 当资料中相同观察值较多时,可 将相同观察值的个数,即频数f乘以该观 察值x,以代替相同观察值逐个相加。对 于频数表资料,可用各组段的频数为 f, 以相应的组中值为x,代入公式计算均数。
第二章 定量资料的统计描述
集中趋势 统计指标 统计描述 离散趋势 统计图(表) 点估计 统计分析 统计推断 假设检验 参数估计 区间估计 参数检验 非参数检验 半参数检验
主要内容
1、频数分布表的编制和用途 频数分布的特征和类型 2、集中趋势指标: 均数、几何均数、中位数 3、离散趋势指标:极差、四分位数间距、 方差、标准差、变异系数
207例某恶性肿瘤患者年龄分布 (负偏峰分布)
60 50
40
病例数
30
20
10
0 5. 0 15. 0 25. 0 35. 0 45. 0 55. 0 65. 0 75. 0 85. 0
年龄(岁)
频数表的用途
作为统计资料描述的一种表达方式,可以 揭示资料分布类型与特征。 便于计算统计指标和进一步分析处理。 便于发现资料中远离群体的某些特大或特 小的可疑值,必要时经检验后舍去。 正态性判断的图示法,为用正态近似法确 定参考值范围打基础。
第一节 频数分布表和频数分布图
频数就是观察值的个数。频数分布 就是观察值在其取值范围内分布的情况。
要了解数值变量资料的分布规律,当观
察单位较多时,可编制频数分布表(简称
频数表)和绘制直方图。
一、频数分布表(frequency table)的编制
某地儿研所测得该地150名12岁健康男童体重 (kg)原始数据如下,试编制频数表。
均数的两个重要特征
1、离均差的总和等于零,即各变量值与均 数之差的代数和等于零。 证明: ( x x) 0
(x
i
x) xi n x xi xi 0
2、各离均差的平方和小于各观察值X与任何 数a之差的平方和( )。
2 ( x x ) ( x a ) 2
本例最小值为20.1,故取20为第一组的下
限。 第二组下限即20+3=23,余类推。 最后一个组段为50~53,包括最大值51.2。
3.列表划记,统计各组段频数。 4.计算频率与累计频率
150名12岁男童体重(kg)频数分布表
组段 频数f 频率(%)
20~ 23~ 26~ 29~ 32~ 35~ 38~ 41~ 44~ 47~ 50~53 2 7 10 15 25 35 23 18 8 5 2 1.30 4.70 6.70 10.00 16.70 23.30 15.30 12.00 5.30 3.30 1.30
二、集中趋势指标
平均数是统计学中最重要、应用最广泛 的一个指标体系。用来描述一组变量的 集中趋势、中心位置或平均水平,常作 为一组资料的代表值,使资料产生简明 概括的印象,又便于组间的比较。 平均数的计算和应用必须具备同质基础。 常用的平均数有均数、几何均数和中位 数。
1、均数(mean)