数值变量的统计描述[1]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
?
问题3.身高主要集中在哪个范
频数表
围问? 题4. 用表/图表示身高分布?
频数分布图
一、数值变量资料的 频数表与频数分布图
–例2.1 某市 100名8岁男童源自文库身高资料(cm )
例2-1 某妇产科医生观察1402名临产母亲的体重( kg)资料
76. 0
63. 0
61. 0
60. 0
65. 0
66. 0
64. 0
71. 5
70. 0
68. 0
74. 0
68. 0
68. 0
56. 5
68. 0
66. 5
64. 0
65. 0
68. 0
60. 0
58. 0
70. 5
64. 5
70. 0
71. 5
68. 0
68. 0
70. 0
65. 0
74. 3
57. 0
68. 0
73. 0
68. 0
65. 0
60. 0
2.揭示频数的分布类 型
对称 分布
频数 分布
正偏
偏态 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称( 正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
频数
3.便于发现某些特大或特小的可疑值 。
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频数
集中趋势
分布 特征
(central tendency)
离散趋势
(tendency of
身高(cm)
dispersion)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势与离散趋势结合能全面反映频数的分布特
② 用加权法计算该组身高值的均值
X = fX = 13055.0 = 130 .05 (cm )
n
100
总身高/总人数
数据加权的意义
➢ 加权用于表示某数据值在整个数据资料中的权重 • 举例1:12=1*101+2 • 举例2:杂拌糖例子
设软糖5元/斤,硬糖8元/斤,酒心糖10/斤,问 5斤软糖 3斤硬糖, 2斤酒心糖,应卖多少钱一斤
原则:(1)“组段”数一般为10-15个;
(2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法
本例题: 组距(i)=全距/ 预分组段= 27.1 /10=2.71≈3(cm)
3.写组段:即将全距分为若干段的过程。 原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
频数分布表(frequency distribution table):
将各数值变量的值及其相应的频数列表,
简称频数表。频率是表示频数出现机率的指
标,可用百分数或小数表示,频率的和为
100%或1。
.
频数表作用:
简化数据,方便阅读,显示数据的分布规律
(二)连续型变量频数表的编制方法:
步骤:
▪列表划 记
统计图
变异系数CV
统计表
统计推断
总体估计:即参数估计,包括点值估计和区间估计 假设检验: t-test u-test x2-test
–例2.1 某市 100名8岁男童的身高资料(cm )
目的:描述该组8岁男童身高的分布规律。
问题1.该组男童平均身高多少?
集中趋势
问题2.身高范围?最高多少?最低多少 离散趋势
(2)每组段均用下限值加 “~ ”表示,最终组段同 时注明上下限。
注意:各组段 不能重叠,每 一组段均为半 开半闭区间。
4. 列表划记:根据预定的组段和组距,用 划记的方法整理原始资料。
频数
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
【教学要求】
➢ 了解频数分布表的编制方法及应用 ➢ 掌握数值变量资料的集中趋势、 离
散趋势常用统计描述指标,及各自 的应用。
统计分析内容
算术均数
集中趋势
几何 均数
G
统计学 定量资料
指标
离散趋势
极差 R
百分位数 PX
中位 数
四M 分 位数 间距
统计描述
Q
方差
定性资料:率、构成比、相标对准比差等S2
65. 5
63. 0
67. 0
58. 0
62. 0
71. 0
59. 5
72. 0
62. 0
55. 0
76. 5
61. 0
75. 0
56. 0
73. 0
69. 0
53. 5
65. 0
60. 0
69. 0
65. 0
66. 0
(一)基本概念:
频数( frequency ):指在一个抽样资料中 ,某变量值出现的次数。
答: (5*5+3*8+2*10)/10=6.9 总钱数/总斤数
举例3:食堂买菜例子 举例4:评委打分和观众打分
(X -X ) = 0
X ( )
(X -X )2< (X-a)2
包 括
算术均数
单峰对称分布
几何均数
对数正态分布
中位数、百分位
偏态分布
数
(一) 算术平均数(arithmetic mean)
X = 168.7 + 178.4 + + 169.7 = 171.7 ( cm )
10
举例: 用加权法计算某市8岁男童身高平均数(表3.1
–
组 第中 1组①值段计?:算x各1组=段下的限组+2中上值限xi、=f1x1i和6 +2Σ1fx19 =117.5
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
4. 样本含量足够大时,以频率作为概率的估计值
。5.作为陈述资料的形式。
二、数值变量资料的 集中趋势指标
集中趋势:用于描述一组计量资料的集中位 置,说明这种变量值大小的平均水平,常 用平均数(average)表示。
注意:1.同质的事物或现象才能求平均数 2.应根据资料分布状态选用适当的均数。
▪写组段
▪定组距
求全距
⒈ 求全距(Range,简记R ):是一组资料中 最大值(Xmax)与最小值(Xmin)之差,亦称极差。
全距( R)= Xmax - Xmin =143.3 – 116.2 = 27.1(cm)
2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。
数值变量的统计描述[1]
【教学内容】
一、频数表与频数分布图
(Frequency table/ Frequency distribution
fig二ure、) 集中趋势的统计描述
(Description of central tendency)
三、离散趋势的统计描述
(Description of tendency of dispersion)