b+第一章+统计数据的收集与整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算:
s1
x
i 1
n
2 i
( xi ) 2
i 1
n
n
n 1
5072 12903 20 19 2.66 1.63(粒)
5142 13374 20 19
s2
8.64 2.94(粒)
s1
72 53 20 19
2.66 1.63(粒)
总计 平均数
直方图:以组界和频数为边所做的连续矩形图。
多边形图:以中值为横坐标,频数为纵坐标,所绘的连续型折线图。 累积频数图:以中值为横坐标,累积频数为纵坐标,所绘的 S形连续型折线图。
【例1.2】
某农场在做高粱“三尺三”提纯时调查了100株高 粱的株高,结果如下。对结果加以整理,列表绘图。
155 159 150 159 157 161 158 148 164 158 153 158 150 161 149 159 155 163 155 166 159 153 160 156 153 161 153 156 156 154 155 153 156 141 153 156 151 163 158 154 150 144 160 156 155 162 157 154 164 157 159 156 155 145 162 151 156 158 148 167 157 150 160 156 154 152 153 152 164 157 159 157 151 153 152 154 147 163 154 159 151 160 157 158 162 157 158 158 157 170 152 150 155 161 155 162 155 154 165 158
784 900 841 441 484 576 729 676 625 625 441 484 900 841 784 625 729 576 529 784 13374
Ⅰ
X’ 1 0 -2 -2 1 0 -1 1 3 2 1 -2 3 1 0 2 2 -2 -1 0 7 X’2 1 0 4 4 1 0 1 1 9 4 1 4 9 1 0 4 4 4 1 0 53
x1 25.35 1.63 x2 25.70 2.94
⑵ 离散型数据频数资料标准差的计算
( fx)i k 2 i 1 ( fx )i N i 1 s N 1
k 2
f=频数, x=组值, N=总频数, k=组数。
【例1.6】 调查每天出生的10名新生儿中体重超过3kg的人数,
组值 x
(体重超过3kg的人数)
频数 f 0 0 0 1 2 12 19 39 34 10 3 120
fx 0 0 0 3 8 60 114 273 272 90 30 850
0 1 2 3 4 5 6 7 8 9 10 总计
x
fx
i 1
k
i
N
i
fx
i 1
11
120 850 120 7.08(个 / 天)
由于样本分布的不恒定性,当用样本去推断总
体时,推断的结果也会有所不同。
第三节 样本的几个特征数
样本特征数:定量描述样本频率分布特 征的量。
数据集中点的度量——平均数 数据变异程度的度量——标准差
数据分布的对称程度的度量——偏斜度
数据分布的陡峭程度的度量——峭度
一、平均数(average)
1、平均数的种类
(体重超过3kg的人数) (统计结果)
一 丁 正正丁 正正正丁丁 正正正正正正正丁丁 正正正正正正丁丁
正正 三
3、连续型数据频数(率)表和图的编绘 步骤: a 求出极差 R=max x - min x
b 划分组数,确定组间距
c 确定组限(上、下限) d 列出组限、组界、中值 e 填表、绘图 (直方图、多边形图、累积频数图)
1、显示出数据的集中情况 2、显示出数据的变异情况 3、显示出图形形状
4、显示出数据的不规则情况
六、频数(率)分布的不恒定性
用随机抽样的方法,从同一总体中抽取多个含
量相同的样本,它们的频数(率)分布不完全 相同,有时差距还很大,频数(率)分布的这 一特性称为频数(率)分布的不恒定性。 频数(率)分布的不恒定性是由于样本分布的 不恒定性造成的。
为样本方差的平方根,是一种度量一组数据变 异离散程度的量。数据的离散程度越大标准差 越大,离散程度越小标准差越小,即标准差的 大小反映了一组数据离散程度的高低。 计算公式:
s
(x x )
i 1 i
n
2
n 1
s
x
i 1 2 i
n
( xi )
i 1
n
2
n
n 1
3、标准差的计算
单穗粒数
23 26 28 23 29 26 30 24 23 28 26 24 21 25 29 23 26 27 25 25 22 25 28 28
Ⅱ
解:
列 出 计 算 表
X 26 25 23 23 26 25 24 26 28 27 26 23 28 26 25 27 27 23 24 25 507 25.35
140.5~143.5 143.5~146.5 146.5~149.5 149.5~152.5 152.5~155.5 155.5~158.5 158.5~161.5 161.5~164.5 164.5~167.5 167.5~170.5
142 145 148 151 154 157 160 163 166 169
以了解新生儿体重状况,共调查120d。计算平均每天10个 新生儿中有几个新生儿体重超过3kg,并计算标准差。 解:列出计算表: 计算:
x 0 1 2 3 4 5 6 7 8 9 10 总计 x2 0 1 4 9 16 25 36 49 64 81 100 f 0 0 0 1 2 12 19 39 34 10 3 120 fx 0 0 0 3 8 60 114 273 272 90 30 850 fx2 0 0 0 9 32 300 684 1911 2176 810 300 6222
组限/cm
组界/cm
中值
频数计算
一
丁 丁丁 正正三 正正正正三 正正正正正三 正正正 正正 三 一
频数
频率
累积频数 1 3 7 20 43 71 86 96 99 100
141~143 144~146 147~149 150~152 153~155 156~158 159~161 162~164 165~167 168~170 总计
1 2 4 13 23 28 15 10 3 1 100
0.01 0.02 0.04 0.13 0.23 0.28 0.15 0.10 0.03 0.01 1.00
4、离散型与连续型频数(率)分布表的比较
离散型
数据特点
组值 组限 组界 中值
连续型
数据在区间内
无 有 有 有
孤立的数值
有 无 无 无
五、研究频数(率)分布的意义
【例1.1】
调查每天出生的10名新生儿中,体重超过3kg的人数,以了解 新生儿体重状况。共调查120d,对结果加以整理,列表绘图。
组值 0 1 2 3 4 5 6 7 8 9 10 总计 频数计算 频数 0 0 0 1 2 12 19 39 34 10 3 120 频率 0.000 0.000 0.000 0.008 0.017 0.100 0.158 0.325 0.283 0.083 0.025 0.999
2、平均数的计算
⑴ 离散型数据频数资料平均数的计算
x
fx
i 1
k
i
N
x=组值,f=频数,N=总频数,k=组数,fx代表f和x相乘。
【例1.3】调查每天出生的10名新生儿中体重超过3kg的人数,
以了解新生儿体重状况,共调查120d。计算平均 每天10个新生儿中有几个新生儿体重超过3kg。 解:列出计算表: 计算:
⑵ 连续型数据频数资料平均数的计算
x
fm
i 1
k
i
n
m=中值,f=频数, n=总数, k=组数, fm代表f和m相乘。
【例1.4】 某农场在做高粱“三尺三”提纯时调查了
100株高粱的株高,根据频数表计算株高平 均数。 计算: 解:列出计算表:
中值 m 142 145 148 151 154 157 160 163 166 169 总计 频数 f 1 2 4 13 23 28 15 10 3 1 100 fm 142 290 592 1 963 3 542 4 396 2 400 1 630 498 169 15 622
Ⅰ
X2
676 625 529 529 676 625 576 676 784 729 676 529 784 676 625 729 729 529 576 625 12903
Ⅱ
X 28 30 29 21 22 24 27 26 25 25 21 22 30 29 28 25 27 24 23 28 514 25.70 X2
⑴ 非频数资料标准差的计算
n
s
x
i 1
n
2 i
( xi )
i 1
2
n
n 1
编码:为简化计算将全部数据都减去或加上同一数值的
过程。减去同一数值时最好选接近平均数的一个数。
【例1.5】
从两个小区分别随机抽取20株小麦,测其单穗 粒数,结果如下表,计算其标准差。
小区号
Ⅰ 26 25 26 27 28 24 21 25 25 24 23 27 30 27 22 27
第二节 数据类型及频数(率)分布
一、统计数据的收集途经
1. 调查记录 2. 实验记录 3. 常规保存数据 4. 其他
二、统计数据的预处理
1、审核 2、筛选 3、简单排序
三、统计数据的类型
1、连续型数据
连续型数据:与某种标准做比较所得到的 数据,又称度量数据,观察数据有度量 衡单位,如长度、时间、重量等。 特性:提高精确度后会出现小数。 分析方法:采用变量的方法进行分析。
x
fm
i 1
k
i
n
i
fm
i 1
10
100 15622 100 156.22(cm)
二、方差与标准差
1、样本方差(variance):每个数值与
样本平均数离差的平方和除以自由度的 商值,即
n
S
2
(x x )
i 1 i
2
n 1
2、样本标准差(standard deviation, SD, s)
⑴ 算术平均数
简称平均数(mean),是样本中所有测量值之和 除以样本含量所得到的值,是一组数据的重心所在。 直接计算公式:
x1 x2 xHale Waihona Puke Baidu x n
x
i 1
n
i
n
⑵ 中位数
位于有序数列中点上的数;或者在累积 频数图上,一半总频数位置上的数值。
⑶ 众数
在频数图上频数最高的组值或中值。
抽样的目的:得到样本,然后对样本进行 研究,以推断样本所处总体的特性。 对抽样得到的样本的要求:得到的样本应 该是总体的缩影,应具有可靠性和代表性。 抽样的操作:进行随机抽样。
随机抽样(random sampling):在 抽取样本时,总体中每个个体被抽中 的机会均等的抽样方式。 随机抽样的方法:抽签、拈阄、使用 随机数字表等。 随机数字表的使用:附表1 随机数字表。
2、离散型数据 离散型数据:由记录不同类别个体的数目 所得到的数据,又称计数数据,观察数据 之间有缝隙,通常没有度量衡单位,如班 级的学生人数、作物的品种数等。 特性:数据是整数,不能进一步提高精确度。
分析方法:采用属性的方法进行分析。
四、统计数据的显示 ——频数(率)分布
1、概念 频数(率) :某一类别(由组值或组界来表
示)的实际发生数(率)称为频数(率)。 频数(率)分布:由把频数(率)按类别 (组值或组界)的顺序以表和图的形式排 列、编绘出来而得到。
将数据列成频数(率)表或绘成频数(率)图, 依据数据的频数(率)分布研究数据变化规律。
2、离散型数据频数(率)表和图的编绘 步骤: a 确定组值
(类别的特征值)
b 频数(率)的统计、计算 c 填表、绘图
第一章
统计数据的 收集与整理
本章内容
第一节 总体与样本
第二节 数据类型及频数(率)分布
第三节 样本的几个特征数
第一节 总体与样本
一、总体(population)
总体:依据研究目的确定的同质研究对象的全
体(集合)。分为有限总体和无限总体。
个体(individual):构成总体的每个成员称为 个体。 有限总体:总体中所包含的个体数目是有限的。
无限总体:总体中所包含的个体数目是无限的
或近似于无限的。
二、样本(sample)
样本:总体的一部分,即从总体中随机抽取的 部分研究对象所组成的小的集合,称为样本。
总体与样本
样本含量(sample size): 样本内包含 的个体数目。
三、抽样(sampling)
抽样:从总体中获得样 本的过程。分为放回式 抽样和非放回式抽样。