数值变量的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.揭示频数的分布类型
频数 分布
对称 分布
正偏
偏态 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
3.便于发现某些特大或特小的可疑值。
10
直接法:
➢适用范围:小样本资料,n<30 ➢方法:将观察值X1、X2、X3、……、Xn直
接相加,再除以观察值的个数n。
➢公式:
nwk.baidu.com
X
X = X1 + X 2 + + X n = i=1
n
n
(2)加权法:
第二讲: 定量变量的统计描述
公卫学院
【教学内容】
一、频数表与频数分布图
(Frequency table/ Frequency distribution figure)
二、集中趋势的统计描述
(Description of central tendency)
三、离散趋势的统计描述
(Description of tendency of dispersion)
2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。
原则:(1)“组段”数一般为10-15个;
(2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法
本例题: 组距(i)=全距/ 预分组段= 27.1 /10=2.71≈3(cm)
3.写组段:即将全距分为若干段的过程。 原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
算术均数
单峰对称分布
包括 几何均数
对数正态分布
中位数、百分位数
偏态分布
(一) 算术平均数(arithmetic mean)
● 简称:均数(mean) ● 使用条件:数据分布比较均匀呈正态分布或
近似正态分布。 ● 样本均数用符号:X 表示 ● 总体均数用符号:μ表示 ● 计算方法有两种:直接法(小样本)和加权
.
频数表作用:
简化数据,方便阅读,显示数据的分布规律
(二)连续型变量频数表的编制方法:
步骤:
求 全 距
定 组 距
写 组 段
列 表 划 记
⒈ 求全距(Range,简记R ):是一组资料中 最大值(Xmax)与最小值(Xmin)之差,亦称极差。
全距( R)= Xmax - Xmin =143.3 – 116.2 = 27.1(cm)
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
4. 样本含量足够大时,以频率作为概率的估计值。
5.作为陈述资料的形式。
二、数值变量资料的 集中趋势指标
集中趋势:用于描述一组计量资料的集中位 置,说明这种变量值大小的平均水平,常 用平均数(average)表示。
注意:1.同质的事物或现象才能求平均数 2.应根据资料分布状态选用适当的均数。
72. 55. 00
(一)基本概念:
频数( frequency ):指在一个抽样资料中, 某变量值出现的次数。
频数分布表(frequency distribution table):
将各数值变量的值及其相应的频数列表,
简称频数表。频率是表示频数出现机率的指
标,可用百分数或小数表示,频率的和为
100%或1。
【教学要求】
➢ 了解频数分布表的编制方法及应用 ➢ 掌握数值变量资料的集中趋势、 离
散趋势常用统计描述指标,及各自 的应用。
统计分析内容
统计学 定量资料
指标
统计描述
集中趋势
算术均数 X 几何均数 G
中位数 M 百分位数 PX
离散趋势
极2 差 R 四分位数间距 Q
方差 标准差 S2 变异系数CV
定性资料:率、构成比、相对比等 统计图
法(大样本)
(1)直接法:
举例: 某地10名18岁健康男大学生身高为(cm): 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7
求平均身高?
答:
X = 168.7 + 178.4 + + 169.7 = 171.7 ( cm )
频数表 频数分布图
一、数值变量资料的 频数表与频数分布图
例2.1 某市 100名8岁男童的身高资料(cm)
例2-1 某妇产科医生观察1402名临产母亲的体重(kg) 资料
76. 60. 64. 68. 68. 66. 68. 70. 71. 70. 57. 68. 65. 58. 00000505500050
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频
数
集中趋势
分布 特征
(central tendency)
离散趋势
(tendency of dispersion)
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势与离散趋势结合能全面反映频数的分布特征
63. 65. 71. 74. 56. 64. 60. 64. 68. 65. 68. 65. 63. 62. 00505005000000
61. 66. 70. 68. 68. 65. 58. 70. 68. 74. 73. 60. 67. 71. 00000000030000
59. 62. 76. 61. 75. 56. 73. 69. 53. 65. 60. 69. 65. 66. 50500000500000
(2)每组段均用下限值加 “~ ”表示,最终组段 同时注明上下限。
注意:各组段 不能重叠,每 一组段均为半 开半闭区间。
4. 列表划记:根据预定的组段和组距,用 划记的方法整理原始资料。
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
统计表
统计推断
总体估计:即参数估计,包括点值估计和区间估计 假设检验: t-test u-test x2-test
例2.1 某市 100名8岁男童的身高资料(cm)
目的:描述该组8岁男童身高的分布规律。
问题1.该组男童平均身高多少?
集中趋势
问题2.身高范围?最高多少?最低多少? 离散趋势
问题3.身高主要集中在哪个范围? 问题4. 用表/图表示身高分布?