第2章 试验数据的整理与特征数
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计数(间断性变数)资料
特点:全为整数
1 2 3 4…
二、质量指标资料(分类资料)
质量指标:只能用文字描述其特 征特性的指标。
统计次数法
数 量 化 方 法 次 数 资 料 分级法
对样本内的全部个体 按调查目的将其分成 两种情况,分别统计 出属于各种情况的个 体数。 先根据性状的变异情 况分级,给每级分别 赋予一个适当的数值 作代表值,然后统计 样本中属于各个级别 的个体数。
次 35 数 30
25 20 15 10 5 0 331 334 337 340 343 346 349 352 355 358
组中值
100听罐头单听质量折线图
㈢条形图:主要应用于计数资料和质量 性状资料。
次数 100 80 60 40
20
0
全红
>2/3红 1/3—2/3红 >1/3红
全绿
果色分级
i 1 i
N
2
N
2 i
总体方差
S
2
( x x)
i 1
n
n 1
SS 样本方差(均方) df
自由度 df = n-1
2
(x
i 1
N
i
)
2
总体标准差
N
S S
2
( xi x) 2
i 1
n
n 1
样本标准差
意义:方差和标准差是度量资料中数 据变异程度大小的统计数,它描述
保证组限明确的措施:
①组限比观察值多取一位小数; ②只列出下限。
组中值:每组居中间的值(组的代表值)。 组中值=(上限+下限)/ 2 确定第一组组中值原则:以选取接近资 料中最小观察值的值为好;组中值的小数 位数应与观察值相同。 本例,第一组组中值定为331.0。
第二组及其以后各组组中值=前一组组中值 + i
三、次数分布图
㈠直方图(方柱形图): 以组限为横坐 标,次数为纵坐标。 ㈡折线图(多边形图):以组中值为横
坐标,次数为纵坐标。
上述两种分布图主要应用于计量资料。
次数35 30 25 20 15 10 5 0 329.5 335.5 341.5 347.5 353.5 359.5 组限
100听罐头单听质量直方图
fx x
n
x——组中值 f——各组次数(权数)
例1,求表2-3资料的平均数
表2-3资料的平均数计算表
组 限 329.51—332.51 332.51—335.51 335.51—338.51 338.51—341.51 341.51—344.51 344.51—347.51 347.51—350.51 350.51—353.51 353.51—356.51 356.51—359.51 ∑ 组中值 331.0 334.0 337.0 340.0 343.0 346.0 349.0 352.0 355.0 358.0 次数f 1 3 10 26 31 17 8 2 1 1 100 fx 331.0 1002.0 3370.0 8840.0 10633.0 5882.0 2792.0 704.0 355.0 358.0 34267
第一节 常用术语
总体:指根据研究目的确定的符合
指定条件的全部研究对象。
总体分为有限总体和无限总体。
个体:构成总体的基本单位。 样本:从总体中抽出的用来代表总
体的部分个体。
随机样本:用随机方法从总体中抽出 的样本。
样本容量:样本中包含的个体数,常 用n表示。 大样本:n>30; 小样本:n ≤ 30
2
n 1
( x 2 xx x ) x 2 x x nx
2 2
2
x x n( x ) x x 2 n n
2 2
2
( x ) n
2
加权法:
s
f ( x x) n 1
2
fx
2
( fx) n
2
n 1
其中,x——组中值
332.51—335.51
335.51—338.51
334.0
337.0
3
338.51—341.51
341.51—344.51 344.51—347.51 347.51—350.51 350.51—353.51 353.51—356.51
340.0
343.0 346.0 349.0 352.0 355.0
例如,红星苹果果色调查资料: 色泽分级 全红 >2/3红 1/3~2/3红 <1/3红 全绿 代表值 0 4 1 3 2 2 3 1 4 0 样本中各级果数 14 36 97 53 7
1 2 3 4 5
5 4 3 2 1
不同类型的资料相互间是有区别的,
但有时可根据研究的目的和统计方 法的要求将一种类型资料转化成另 一种类型的资料。
了数据的分散情况,并且间接地反
映了平均数的代表性强弱。
小
集中
强
S2或S
大
,数据
分散
;平均数的代表性就
弱
。
实际中常见
xs
标准差与平均数都是有单位的量,其单位与观察 值相同。
2、样本标准差的计算 直接法:
s
( x x)
n 1
2
矫正法:s 因为 ( x x)
2
x
2
2
( x ) n
无偏估计:若某统计数的数学期望 (平均数)等于相应参数,则称该
统计数为相应参数的无偏估计。
例如,E( ) =μ、E(s2) = σ2 x
但 E(s) ≠ σ。
第二节 数据资料 的种类
一、数量指标资料
数量指标:只能用数据描述其特征特性的
指标。
观察方式:1、称量、测量、分析化验;
2、计数
计量(连续性变数)资料 数 量 指 标 资 料 特点:可整数可小数
注:权数是用来求平均数的数值(xi)在 整个资料中所占分量。 例3,一农场小麦平均产量计算:
田块亩数 3 5 10 产量(斤/亩) 800 500 350
800 500 350 x 3 3 800 5 500 10 350 x 466.67 18
例4,计算学生总平成绩:
R i 组数
通常取为整数
本例,
27 i 3.0 9
第三步 确定组限与组中值
组限:分 下限——该组最小值L1
上限——该组最大值L2
组限划分一定要明确,不能有 重叠 2.5~4.5, 交叉 2.0~4.5, 断点 2.5~4.0, 4.5~6.5 …… 4.0~6.5…… 4.5~6.0……
资料的平均数。
5. 调和平均数
H 1 1 1 1 x1 x 2 xn n n 1 1 1 x1 x 2 xn n 1 x
调和平均数常用于求一个过程中不同阶
段的平均速度。
㈡算术平均数的计算方法 1、直接法——常用于小样本资料
x x
n
2、加权法——主要用于分组资料
㈢算术平均数的重要性质 1、离均差之和为零
(x
i 1
n
i
x) 0
2、离均差平方和最小
( x x) ( x a)
2 i 1 i i 1 i
n
n
2
a x
二、变异数
甲、乙两地测得某种树的干周长如下: 单位:㎝
序 号 甲 地 乙 地 1 2 3 4 5 6 7 8 9 10
加权平均数:
fx 34267 342 .67 x
n 100
例2,加权法应用于质量性状资料求平均数
调查某种果树受病害情况的资料
病情分级
一( < 5%) 二(5~25%) 三(25~50%) 四(50~75%) 五( > 75%) 代 表 值 x1 x2 x3 1 5 0 2 4 1 3 3 2 4 2 3 5 1 4
门数 9 甲生 95 乙生 85 7 90 90 6 90 90 5 85 95
甲
95 90 90 85 90 4
9 95 27
乙
85 90 90 95 90 4
9 85 7 90 6 90 5 95 89.20 27
方法: 26 正正正正正 一 逐个数据归组 31 正正正正正正一 正正正丅 按组归组 17
10 正 丅 一 8 2 1
74
92
100
356.51—359.51
358.0
一
1
㈡计数资料的次数分布表制作
1、数据变异不大的资料 2、数据变异较大的资料
㈢质量性状资料的次数分布表制作
实际上分级法所得的质量性状资料的表 现形式就是一种次数分布表。
第三节 资料的整理
一、资料的检查与核对
目的:确保原始资料的完整性和正确 性。 完整性:指原始资料无缺失或重复。 正确性:指原始资料的测量和记载无 差错,或未进行不合理的归并。
二、资料的整理方法——次数分布表
㈠计量资料的次数分布表制作 [例2-1],100听罐头样品质量资料
步骤如下:……… xmin
x
R 2.1
( x x) 2
4.46
15.5 16.4 16.8 15.7 15.3 15.7 17.3 15.2 15.6 16.5 16.0
10.6 19.3 16.5 13.4 20.0 21.4 12.7 15.5 18.6 12.0 16.0 10.8 126.12
变异数是描述资料变异性(离散性)的 特征数。
各级株数 f
20 30 80 40 30
平均受害程度:
1 20 2 30 3 80 4 40 5 30 x1 3.15 200 5 20 4 30 3 80 2 40 1 30 x2 2.85 200
0 20 1 30 2 80 3 40 4 30 x3 2.15 200
㈠极差:
R=xmax-xmin
表示变异幅度大小。 简便,但粗放。 在数据个数不多时运用尚可。
㈡方差与标准差: 1、方差与标准差的意义:
( x x) 0
总体离均差平方和
(x )
i 1
n i 1
N
2
样本离均差平方和 SS ( xi x)
2
2
(x )
c v皮厚
c v层厚
4.9 100% 9.87% 49.6
0.8 100% 12.90% 6.2
变异系数的用途:除可用于两资料的变 异程度比较外,食品科学试验设计中 还有重要用途。如在空白试验时,常 用来探索试验条件基本情况变异性的 指标,可作为确定区组、重复数等的 依据。通常要求非处理条件的c· v< 10%。
xmax
第一步 求极差
R = Xmax – Xmin
R 反映数据的变异幅度。R 大 (小),数据变异幅度大(小),
数据分散(集中)。
本例,R = 358.2 - 331.2 = 27.0
第二步 确定组数与组距 组数:应考虑①观察值个数;②R值大 小;③便于计算。 本例暂定为9组。
√
╳
组距 i:
总体是研究的主要对象,但通常通过 样本来研究。由于样本为总体的一部 分,故用样本研究总体时常有偏差或 失误。
参数:由总体全部观察值计算的描述 总体平均数 总体方差 总体标准差 总体特征的数值。 例如,μ、σ2、 σ 。
样本平均数 样本方差 样本标准差
样本统计数:由样本观察值计算的描
述样本特征的数值。 例如, 、s2 、s 等。 x
f——次数
以表2-3资料为例计算得4.43。
㈢变异系数
标准差是带单位的绝对数,不便作不 同资料间变异大小的比较。 例 性状 果皮厚 角质层厚
x (μm)
49.6 6.2
S(μm) 4.9 0.8
s 变异系数: c v 100% x
意义:变异系数也是描述资料变异 情况的统计数,它是无单位(% 表示)的相对数,可用作两个资 料变异程度的比较。 例如,上述资料中,
3310第二组及其以后各组组中值前一组组中值第二组及其以后各组第一组组中值划号记数次数f百分比329513325133101003325133551334033551338513370正正109233851341513400正正正正正一267434151344513430正正正正正正一3134451347513460正正正丅1734751350513490350513535135203535135651355035651359513580101520253035329533553415347535353595组限次数100听罐头单听质量直方图100听罐头单听质量折线图101520253035331334337340343346349352355358组中值207个红星苹果果色调查数据的条形图23红1323红13红果色分级次数1008060402023343023fx组中值次数ffx3295133251331033103325133551334010020335513385133701033700338513415134002688400341513445134303110633034451347513460175882034751350513490279203505135351352070403535135651355035503565135951358010034267673421003426720二52530三255080四5075303152003028520030215200田块亩数产量斤亩5001035080050035050010350466671895909085859090959085909095959090859027858927951551641681571531571731521561651602144610619316513420021412715518612016010812612数据
x x
i 1 i
n
n
n
2.中数 Md: 例如,2、3、4、5、6 中,Md=4;
3 4 1、2、3、4、5、6中,Md= 3 .5 2
3.众数 MO: 例如,表2-3资料中的众数为343.0 。
4.几何平均数:
G x1 x2 xn
n
几何平均数常用于求增长率这类
207个红星苹果果色调查数据的条形图
第四节 描述资料的常用特征 数 ——平均数、变异数
一、平均数
㈠平均数的意义与种类
意义:平均数是数量资料的代表数,描 述了资料中数据的中心位置(集中 性),常用于同类资料间作比较。
f ( y)
0
μ
y
种类:
1.算术平均数:
x1 x2 xn x n
下 1 第一组 限 第一组组中值 i 上 2 下 下 第二组及其以后各组 限 前一组 限 i 上 上
本例,
下 329.5 1 第一组 限 331 3 上 332.5 2
第四步
组 限
329.51—332.51
将数据归组
组中值 (x) 331.0 一 正正 划号记数 次数(f) 1 百分比(%)