数值变量资料的统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章数值变量资料的统计描述

统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据。

第一节频数分布的概念与应用

对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段。

一、频数分布

1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础。

2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置。(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。

3.频数分布的类型

⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。又可分为正态分布(normal distribution)和非正态分布(non-normal distribution)。

⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。

二、频数表和频数图

表1-1 某地120名正常人血清铜含量(μmol/L)

13.84 12.53 13.70 14.89 17.53 13.19 18.82 10.15 14.56 11.23

14.73 17.44 13.90 14.10 12.29 12.61 14.78 14.40 9.93 15.18

14.59 14.71 18.62 19.04 10.95 13.81 10.53 18.06 16.18 15.60

13.56 11.48 13.07 16.88 17.04 17.98 12.67 10.62 16.43 14.26

11.03 9.23 15.04 14.09 15.90 11.48 14.64 17.24 15.43 13.37

13.64 14.39 15.74 13.99 11.31 17.61 16.26 11.32 17.88 16.78

13.53 11.68 13.25 11.88 14.21 15.21 15.29 16.63 12.87 15.93

13.70 14.45 11.23 19.84 13.11 15.15 11.70 15.37 12.35 14.51

14.09 18.22 14.34 15.48 11.98 16.54 12.95 12.06 16.67 17.09

16.85 13.20 16.48 12.29 12.09 14.83 15.66 14.50 16.43 15.57

12.81 12.89 17.34 16.04 13.41 17.13 12.32 9.29 18.42 14.17

14.35 16.19 15.73 13.74 14.94 17.28 15.19 11.92 15.47 15.33

表1-2 某地120名正常成年人血浆铜含量(μmol/L)频数表

组段划记频数f频率P(%)累积频数fC累积频率PC(%)

⑴⑵⑶⑷⑸⑹

9.00~下 3 2.5 3 2.5

10.00~止 4 3.3 7 5.8

11.00~正正T 12 10.0 19 15.8

12.00~正正下13 10.8 32 26.6

13.00~正正正T 17 14.2 49 40.8

14.00~正正正正T 22 18.3 71 59.1

15.00~正正正下18 15.0 89 74.1

16.00~正正下13 10.8 102 84.9

17.00~正正——11 9.2 113 94.1

18.00~正 5 4.2 118 98.3

19.00~T 2 1.7 120 100.0

合计——120 100.0 ————

2.数值变量资料频数图的编制

1.等距分组以横轴表示变量,以纵轴表示频数。由表1-2的资料绘制频数图(图3-1)。

2.不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。由表1-3的资料绘制频数图(图3-2)。

第二节数值变量资料集中趋势的描述

集中趋势(central tendency)是度量由变异导致变量值多样性的数量指标,其代表值为平均数。

平均数是一组描述或反映一组数值变量平均水平的统计指标。

根据计算或确定方法的不同,平均数可分为算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median) 、调和平均数(harmonic mean)和众数(mode)。

一、算术平均数

表1-4 某地120名正常成年人血浆铜含量(μmol/L)的均数、标准差计算表

血浆铜含量(μmol/L) 组中值x频数ffxfx2

⑴⑵⑶⑷=⑵⑶⑸=⑵⑷

9.00~9.50 8 28.50 270.75

10.00~10.5l 4 42.00 441.00

11.00~11.50 12 138.00 1 587.00

12.00~12.50 13 162.50 2 031.25

相关文档
最新文档