数值变量的描述性统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
数值变量资料频数表的编制
2. 确定组段和组距
组段数:根据样本含量的多少确定,一般设8~13个组段。 组距:各组段的起点和终点分别称为下限和上限,相邻两组 段的下限之差(或每一组段的上、下限之差)称为组距。一般 取等距分组,常用全距的1/10取整做组距。某组段(下限+上 限)/2为组中值。 划分组段:各组段应是连续的,不能有交叉或重叠。第一组 段应包括最小值;最末组段应包括最大值,并同时写出其下 限与上限。 例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ; 最小值为162.9cm,故第一组段的下限为162cm,第二组段的 下限为164cm,依次类推,最末组段为182cm184cm,包含 最大值183.5cm 。
12
频数
30 25 20 15 10 5 0
163 165 167 169 171 173 175 177 179 181 183
身高(cm) 图2-1 某地100名18岁男大学生身高的频数分布
13
五、频数表的用途
频数表可以揭示资料分布类型和分布特征,以便 选取适当的统计方法; 便于进一步计算指标和进行统计分析; 便于发现资料中的某些特大或特小的可疑值。 当样本含量特别大时,可以频率估计概率。 作为资料的陈述形式。在文献报告中,用频数表 既可直观地反映被研究事物的分布特征,又便于 作进一步的分析研究。
频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集 中,以中等身高居多(172cm组段),此为集中趋势。 反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高 到较矮或较高的频数分布逐渐减少,反映了身高的 离散程度。 对于数值变量资料,应用集中趋势和离散程度二者 结合起来分析其分布规律。
4
二、频数表的编制
编制频数表时不可能把所有的变量值及其相应频 数都列出来,特别是当样本例数 n 较大时,此时 需要根据变量的取值范围划分为若干个组段,再 汇总各组段的频数。
具体步骤如下:以例2.1资料为例。
5
1. 求全距
数值变量资料频数表的编制
全距(或极差,range)是最大值与最小值之差, 用 R 表示。 例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。
14
§2.2 集中趋势
平均数是一类用于描述数值变量资料集中趋势的指 标,反映一组同质观察值的平均水平或中心位置。 统计上的平均数包括均数、几何均数、中位数、众 数、调和均数等。
7
3. 列出频数表
数值变量资料频数表的编制
采用计算机或划记法将原始数据汇总,得出各组 段的观察例数,即频数,把各组段(或各观察值) 及其相应的频数列表即为频数表 。 注意:最末组段应写出上、下限,其余组段只包 含下限,不包含上限。
8
表 2-1 某地 100 名 18 岁男大学生身高(cm)的频数表
7
ቤተ መጻሕፍቲ ባይዱ10
3
一、频数分布表的概念
当样本含量 n 较大时,为了解样本中观察值的分 布规律和便于指标计算,可编制频数分布表,简 称频数表(frequency table)。 频数:对某一随机现象进行重复观察,或测量大 量个体的某项特征,其中某个或某一组变量值出 现的次数。 频数表:将各变量值与其相应的频数列成表格形 式即为频数表。
10
集中趋势 30
离散程度
频数
25
20
15
10
5
0
163 165 167 169 171 173 175 177 179 181 183
身高(cm)
图 某地100名18 岁男大学生身高的频数分布
11
45
四、频数分布的类型
对称分布:指频数分布的集中位置在中间,左右两侧大 致对称。 偏态分布:指频数分布不对称,集中位置偏向一侧:集 中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如有害化学物质在正常人体内的分布为正偏态分布;冠心 病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态 分布。 不同的分布类型应选用不同的统计分析方法。
主要内容
§2.1 频数分布 §2.2 集中趋势 §2.3 离散趋势 §2.4 正态分布及其应用
1
§2.1 频数分布
频数分布表的概念 频数分布表的编制方法 频数分布的特征 频数分布的类型 频数分布表的用途
2
例2.1某地2004年抽样调查 100名男大学生的身高(cm)
173.6 165.8 168.7 173.6 173.7 177.8 180.3 173.1 173.0 172.6 173.6 175.3 178.4 181.5 170.5 176.4 170.8 171.8 180.7 170.7 173.8 164.4 170.0 175.0 177.7 171.4 162.9 179.0 174.9 178.3 174.5 174.3 170.4 173.2 174.5 173.7 173.4 173.9 172.9 177.9 168.3 175.0 172.1 166.9 172.7 172.2 168.0 172.7 172.3 175.2 171.9 168.6 167.6 169.1 166.8 172.0 168.4 166.2 172.8 166.1 173.5 168.6 172.4 175.7 178.8 169.1 175.5 170.8 171.7 164.6 171.2 177.1 170.7 173.6 167.2 170.7 174.7 171.8 167.3 174.8 168.5 178.7 177.3 165.9 174.0 170.2 169.5 172.1 178.2 170.9 171.3 176.1 169.7 177.9 171.1 179.3 183.5 168.5 175.5 175.9
身高组段
(1)
162 164 166 168 170 172 174 176 178 180 182184
合计
频数 f
(2) 1 4 7
12 18 24 15
8 7 3 1
100
组中值 x
(3) 163 165 167 169 171 173 175 177 179 181 183 —
9
20
三、频数分布的特征