数值变量资料的统计描述..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
针对这样一个群体,你想知道什么?(共性与特 性,有群体就有变异)
同样是计量资料,但其特点又各不相同(分布问 题:正态与非正态,计算均数时也不同)
对数值变量资料进行统计分析的一般步骤, 是先对观察测量得到的变量值(即观察值)进 行统计描述,再在此基础上进行深入的统计推 断。
统计描述的工作主要是在编制频数表的基
……
第十二个组段:6.40~ 6.80或[6.40,6.80]
*:最后一个组段应该同时标明上限和下限
(4)列表划记:采用划记法分别将原始资料中各变量 值在频数表中列出来,并且Biblioteka Baidu计各组段变量值的个数, 即频数。
尿素氮浓度 2.00~ 2.40~ 正 划计 频数 2 7 累计频数 2 9 频率(%) 1.43 5.00 累计频率(%) 1.43 6.43
6.00 4.34 5.28 4.30 3.90 4.22 5.30 5.30 4.20 5.13 3.90 3.79 5.60 4.80 5.66 5.20 4.10 4.70 4.00 2.94 4.50 5.90 3.77 4.50
2.10
3.50 2.73 3.00 6.23
5.60
4.23 4.15 3.93 4.98
础上描述资料的集中位置和离散程度。
主要内容
频数表 集中趋势 离散趋势 正态分布 正常值范围估计
一、数值变量资料的频数分布
数值变量资料进行统计描述需要根据资料的分布类型 选择合适的统计指标,因此首先要通过频数分布表或分 布图了解资料的分布特征。
(一)编制频数分布表和绘制频数分布图
2.80~
3.20~ 3.60~ 4.00~ 4.40~
正正
正正 正正正 正正正 正正正
13
14 15 19 18
22
36 51 70 88
9.29
10.00 10.71 13.57 12.86
15.71
25.71 36.43 50.00 62.86
4.80~
5.20~ 5.60~ 6.00~ 6.40~6.80 合计
4.45 / 12 = 0.37 ≈0.4 (mmol/l)
故组段数不易过多,
但也不能过少,否则
会掩盖数据的分布规
律。
(3) 列出组段
第一个组段:2.00~, 第二个组段:2.40~ 每个组段的起点为该组下限, 终点为上限,上限=下限+组距, 第一组段包含最小值,最后组段 包含最大值。 各组段不能重叠,即同一个 数据不能出现在两个组段内,所 以每一个组段都应该是半开半闭 区间:[下限,上限)
第九章
数值变量资料的统计分析
分析数据:
统计学描述:选用恰当统计量结合恰当统计 图、表,描述资料的分布规律或数理特征。 统计学推断:样本→总体,统计量→参数。
第一节 数值变量资料的统计描述
数值变量资料的统计描述,描述什么? 描述的对象:数值变量资料,群体
群体特征的描述:一般先有一个变量,然后会有 一系列的变量值,这些变量值就是一个群体。
3.04
5.40
6.01
4.02
4.49
2.69
2.44
2.52
2.76
5.21
3.33
6.55
3.01
4.28
6.43
4.45
3.55
5.15
2.63
4.45
5.37
3.80
3.73
组距分组的几个概念
1.
2.
下
上
限:一个组的最小值
限:一个组的最大值
3.
4.
组
距:上限与下限之差
组中值:下限与上限之间的中点值
回顾:
根据是否定量划分,资料被分作不同的类型:
数值资料(measurement data): 用定量的方法对观察单位进行测量得到的资料,亦
称作计量资料。
分类变量资料(enumeration data):
用定性的方法得到的资料,亦称计数资料。
等级资料(ranked data): 不能精确测量,仅能根据相对大小分为几个等级。
组中值=
下限值+上限值 2
频数表的编制步骤:
(1)求极差(range):即最大值与最小 值之差,又称为全距。
R=X最大-X最小=6.55–2.10 = 4.45(mmol/l)
制定频数表的目的 是为了简化资料,显 示出数 据的 分 布 规律 ,
(2) 决定组数、组段和组距:根据研 究目的和样本含量n 确定分组组数。相邻 两组段下限值之差称组距,组距=极差/组 数。为方便计,组距为极差的十分之一, 再略加调整。本例拟分12组。
正正
正正 正正 正 -
16
14 13 6 3 140
104
118 131 137 140 -
11.43
10.00 9.29 4.28 2.14 100.00
74.29
84.29 93.57 97.86 100.00 -
频数分布图
(二)、频数表和频数分布图用途
1.描述频数分布的类型(对称分布、偏态分布) 2.描述频数分布的特征(集中趋势 离散趋势)
5.90
3.90 4.60 3.15 2.89
2.85
3.88 4.35 5.00 5.82
4.90
4.24 4.96 3.44 6.30
5.63
4.88 5.61 3.50 5.20
3.21
2.48 5.87 2.85 5.40
4.66
3.40 5.01 4.87 3.00
3.00
3.26 4.33 4.60 2.80
3.便于发现一些特大或特小的可疑值
4.便于进一步做统计分析和处理(加权)
1.描述频数分布的类型(对称分布、偏态分布) (1)对称分布 :
若各组段的频数以中心位置左右两侧大体对称,就 认为该资料是对称分布
对称分布
(2)偏态分布 :
1)右偏态分布(正偏态分布):右侧的组段 数多于左侧的组段数,频数向右侧拖尾。
5.96
3.21 5.74 3.40 4.43
3.45
3.60 4.87 4.79 4.50
4.22
4.53 3.96 3.02 5.52
6.40
3.70
4.86
4.37
5.90
4.20
4.70
6.10
3.47
4.80
4.66
5.10
4.78
5.55
5.70
2.97
2.26
5.11
4.10
3.26
3.70
频数:当汇总大量的原始数据时,把
数据按类型分组,其中每个组的数据个数,
称为该组的频数。 频数表(频数分布):表示各组及它们 对应的组频数的表, 为频数表或频数分布。
例9.1 某地用随机抽样的方法对140名健康成年男 性血清尿素氮(BUN)浓度进行检测,所得数据 如下,请编制频数表和观察频数分布情况。