第二章 数值变量资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
x1 + x2 +⋯+ xn ∑xi 39.6 + 33.2 +⋯38.5 x= = = = .(kg) 35 6 n n 10
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
第二章 定量资料的统计描述
集中趋势 统计指标 统计描述 离散趋势 统计图( 统计图(表) 点估计 统计分析 统计推断 假设检验 参数估计 区间估计 参数检验 非参数检验 半参数检验
主要内容
1、频数分布表的编制和用途 频数分布的特征和类型 2、集中趋势指标: 均数、几何均数、中位数 3、离散趋势指标:极差、四分位数间距、 方差、标准差、变异系数
207例某恶性肿瘤患者年龄分布 例某恶性肿瘤患者年龄分布 负偏峰分布) (负偏峰分布)
60 50
40 病病病
30
20
10
0 5.0 15.0 25.0 35.0 45.0 55.0 65.0 75.0 85.0
年年(岁)
频数表的用途
作为统计资料描述的一种表达方式, 作为统计资料描述的一种表达方式 , 可以 揭示资料分布类型与特征。 揭示资料分布类型与特征。 便于计算统计指标和进一步分析处理。 便于计算统计指标和进一步分析处理。 便于发现资料中远离群体的某些特大或特 小的可疑值,必要时经检验后舍去。 小的可疑值,必要时经检验后舍去。 正态性判断的图示法, 正态性判断的图示法 , 为用正态近似法确 定参考值范围打基础。 定参考值范围打基础。
2.按极差大小决定组段数、组段和组距。 2.按极差大小决定组段数、组段和组距。 按极差大小决定组段数
确定组段数: 确定组段数 : 组段数的多少一般根据观察单 位的多少来确定, 位的多少来确定,过多或过少均不能更好地反 映资料的分布特征, 映资料的分布特征,以能够反映频数分布的特 点为宜,一般分为8 15组 点为宜,一般分为8~15组,观察单位少时可相 对少些,观察单位较多时组段数可酌情多些。 对少些,观察单位较多时组段数可酌情多些。 本例初步确定为10个组 个组。 本例初步确定为10个组。 确定组距: 相邻组段下限值之差称为组距, 确定组距 : 相邻组段下限值之差称为组距 , 一般分组时取组距相等。组距=极差/组数, 一般分组时取组距相等。组距=极差/组数,常 取整数作组距, 取整数作组距,取整只是为了方便资料的整理 汇总。本例组距=30. 10= 11≈ 汇总。本例组距=30.1/10= 3.11≈3。
120例链球菌感染咽炎患者潜伏期分布图 例链球菌感染咽炎患者潜伏期分布图 正偏峰分布) (正偏峰分布)
40
30
病病病
20
100 18.0 30源自0 42.0 54.0 66.0 78.0 90.0 102.0 114.0
潜潜潜(小小)
一些慢性病患者的年龄分布, 一些慢性病患者的年龄分布,其集 中位置偏向年龄大的一侧,频数尾部 中位置偏向年龄大的一侧, 向左侧延伸,称为负偏态( 分布, 向左侧延伸,称为负偏态(峰)分布, 如图
累计频数
2 9 19 34 59 94 117 135 143 148 150
累计频率(%) 累计频率(%
1.30 6.00 12.70 22.70 39.30 62.70 78.00 90.00 95.30 98.70 100.00
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中, 体重虽有轻有重,但都向35~组段集中,数 据大多数集中在32~38组段 组段, 83人 据大多数集中在32~38组段,共83人,占总 人数的55% 这种趋势称为集中趋势。 人数的55%,这种趋势称为集中趋势。 另一方面, 随体重逐渐变大或变小, 另一方面 , 随体重逐渐变大或变小 , 仍有 小部分变量值存在, 小部分变量值存在 , 称这种特征为离散趋 其变异程度是可以测定得。 势,其变异程度是可以测定得。 集中趋势和离散趋势是频数分布的两个重 要特征, 要特征 , 测定其集中趋势和离散趋势就可 较全面地分析所研究的事物。 较全面地分析所研究的事物。
二、集中趋势指标
平均数是统计学中最重要、 平均数是统计学中最重要 、 应用最广泛 的一个指标体系。 的一个指标体系 。 用来描述一组变量的 集中趋势、 中心位置或平均水平 , 集中趋势 、 中心位置或平均水平, 常作 为一组资料的代表值, 为一组资料的代表值 , 使资料产生简明 概括的印象,又便于组间的比较。 概括的印象,又便于组间的比较。 平均数的计算和应用必须具备同质基础。 平均数的计算和应用必须具备同质基础 。 常用的平均数有均数、 常用的平均数有均数 、 几何均数和中位 数。
本例最小值为20.1,故取20为第一组的下 本例最小值为20.1,故取20为第一组的下 限。 第二组下限即20+3=23,余类推。 第二组下限即20+3=23,余类推。 最后一个组段为50~53,包括最大值51.2。 最后一个组段为50~53,包括最大值51.2。
3.列表划记,统计各组段频数。 3.列表划记,统计各组段频数。 4.计算频率与累计频率 4.计算频率与累计频率
150名12岁男童体重(kg)频数分布表 名 岁男童体重 岁男童体重( 频数分布表
组段 频数f 频率(%) 频数f 频率(%
20~ 23~ 26~ 29~ 32~ 35~ 38~ 41~ 44~ 47~ 50~53 2 7 10 15 25 35 23 18 8 5 2 1.30 4.70 6.70 10.00 16.70 23.30 15.30 12.00 5.30 3.30 1.30
第一节 频数分布表和频数分布图
频数就是观察值的个数。 频数就是观察值的个数 。 频数分布 就是观察值在其取值范围内分布的情况。 就是观察值在其取值范围内分布的情况。 要了解数值变量资料的分布规律, 要了解数值变量资料的分布规律 , 当观 察单位较多小,可编制频数分布表( 察单位较多小,可编制频数分布表(简称 频数表)和绘制直方图。 频数表)和绘制直方图。
均数的计算
直接法是将所有性质相同的观察值x 直接法是将所有性质相同的观察值 x1,x2,x3…xn, 直接相加再除以观察值的个数n 直接相加再除以观察值的个数n。 x1 + x2 + ⋯ + xn ∑ xi x= = n n 例:10 名 12岁健康男童体重 ( kg) 分别为39 . 例: 10名 12 岁健康男童体重( kg) 分别为 39. 6 , 33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4, 33. 32. 29. 43. 33. 35. 37. 32. 38.5,求平均体重。 38. 求平均体重。
1、均数(mean) 均数(mean)
均数是算术均数的简称, 均数是算术均数的简称 , 它反映了一 组观察值在数量上的平均水平。 组观察值在数量上的平均水平 。 总体 均数用希腊字母µ 表示, 均数用希腊字母 µ 表示 , 样本均数用 表示 。 均数的计算 均数的计算方法有直接法 和加权法, 和加权法 , 计算机运算中多采用直接 法。
划分组段:各组段应有明确的界限,便于汇总, 划分组段:各组段应有明确的界限,便于汇总, 每个组段的起点称“下限” 终点称“上限” 每个组段的起点称“下限”,终点称“上限”。 第一组段必须包括最小值, 第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限, 的整数作为第一组的下限,但是第一组的下限值 不能等于最小值。 不能等于最小值。 各组段既不重叠,也不能留空隙, 各组段既不重叠,也不能留空隙,所以每一组段 均为半开闭区间, 均为半开闭区间,后一组的下限就是前一组的上 限。 组段中的横线~不能省略,它表示连续型资料。 组段中的横线~不能省略,它表示连续型资料。 最后一个组段应该包括最大值, 并且封口, 最后一个组段应该包括最大值 , 并且封口 , 但 最后一个组段的上限不能等于最大值。 最后一个组段的上限不能等于最大值。
1. 找出最大值和最小值,计算极差。 找出最大值和最小值,计算极差。
• 极差(R)也叫全距,它是一组变量值中 极差( 也叫全距,
最大值与最小值之差。 最大值与最小值之差。 最大值为51. kg, 最大值为51.2kg, 最小值为20. kg, 最小值为20.1kg, 极差 R=51.2-20.1=31.1kg。 R=51. 20. 31. kg。