第2章实验数据分析统计资料的整理与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上一张 下一张 主 页 退 出
为了能可靠地从样本来推断总体,要求 样本具有一定的含量和代表性。 如何获取有代表性的样本?采用随机抽 取。 所谓随机抽取(random sampling) 是指总体中的每一个个体都有同等的机会被 抽取到样本中。 样本毕竟只是总体的一部分,尽管样本 具有一定的含量也具有代表性,通过样本来 推断总体也不可能是百分之百的正确。有很 大的可靠性但有一定的错误率这是统计分析 的特点。 上一张 下一张 主 页 退
上一张 下一张 主 页 退 出
2.1 数量性状资料
数量性状(quantitative character)是指能 够以测量、计量或计数的方式表示其特征的性状 。 观察测定数量性状而获得的数据就是数量性状资料 数量性状资料的获得有测量和计数两种方式 ,
因而数量性状资料 又分为计量资料和计数资料两种。
若分组过少,资料的规律性就反映不出来,计算出 的统计量的精确性也较差。 • 一般组数的确定,可参考表2-2。
上一张 下一张 主 页 退 出
• 分组越多所求得的统计量越精确,但增大了运算量;
表2-2
样本含量(n) 60-100 100-200 200-500
样本含量与组数
组数 7-10 9-12 12-17
注意:最末一组的上限应大于资料中的最大值。
上一张 下一张 主 页 退 出
表2-1中, 最小值为331.2,第一组的组中值 取331.0,因组距为3.0,因此 第一组的下限应为: 331.0 -(1/2)×3.0=329.5; 第一组的上限也就是第二组的下限应为: 329.5+3.0=332.5; 第二组的上限也就是第三组的下限为: 332.5+3.0=335.5,……, 依此类推,一直到某一组的上限大于资料中的最 大值为止。 依次类推分组为: 329.5 - 332.5,332.5 -335.5,……
上一张 下一张 主 页 退 出
3.2 数据资料的整理方法 当观测值不多(n≤30)时,不必分组, 可直接进行统计分析。 当观测值较多(n>30)时,宜将观测值 分成若干组,以便统计分析。将观测值分组 后,制成次数分布表,即可看到资料的集中 和变异情况。
上一张 下一张 主 页
退 出
3.2 连续性资料(计量资料)的整理
或性状的真值为μ,观测值为 x,若 x与μ
相差的绝对值|x-μ|越小, 则观测值x的
准确性越高; 反之则低。
上一张 下一张 主 页 退 出
精确性(precision)也叫精确度,指同一试验 指标或性状的重复观测值彼此接近的程度。若观测 值彼此接近,即任意二个观测值xi 、xj 相差的绝对 值|xi -xj |越小,则观测值精确性越高;反之则低。 准确性、精确性的意义见图2-1。
R=Max(xi)-Min(xi)
xi为观测值
本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0
上一张 下一张 主 页 退 出
2、确定组数 k
组数的多少视样本含量及资料的变动范围大小 而定,一般以达到既简化资料又不影响反映资 料的规律性为原则。
组数要适当,不宜过多,亦不宜过少。
2.2.1 统计次数法
在一定的总体或样本中,根据某一质量性 状的类别统计其次数,以次数作为质量性状的 数据。例如,苹果中全红果个数与半红果个数。 由质量性状数量化而得来的资料又叫 次数 资料。
wenku.baidu.com
2.2.2评分法
对某一质量性状 , 因其类别不同,分别给 予评分。例如,分析面包的质量,可以按照国际 面包评分细则进行打分,综合评价面包质量。新 产品开发中的评价打分等等。
上一张 下一张 主 页
退 出
2.2 质量性状资料
质量性状(qualitative character)是指能 观察到而不能直接测量的,只能用文字来描述其 特征的性状,如食品颜色、 风味等等。这类性状 本身不能直接用数值表示,要获得这类性状的数
据资料,须对其观察结果作数量化处理,其方法
有以下两种:
上一张 下一张 主 页 退 出
各组的最大值与最小值称为组限。最小值称为下 限, 最大值称为上限。每一组的中点值称为组中值, 它是该组的代表值。组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限 -1/2组距
组距确定后, 首先要选定第一组的组中值。在 分组时为了避免第一组中观察值过多,一般第一组的 组中值以接近或等于资料中的最小值为好。第一组组 中值确定后,该组组限即可确定,其余各组的组中值 和组限也可相继确定。
上一张 下一张 主 页 退 出
2.3 半定量(等级)资料
半定量或等级资料(semi-quantitative
or ranked data)是指将观察单位按所考察
的性状或指标的等级顺序分组,然后清点各组
观察单位的次数而得的资料。这类资料既有次
数资料的特点,又有程度或量的不同。如某种
果实的褐变程度是视果实变色面积将其分组,
即使十分小心的进行试验操作也难以消除。随 机误差不可避免,但可减少。 随机误差影响试验的精确性。
上一张 下一张 主 页 退 出
统计上的试验误差是指随机误差。这
种误差愈小,试验的精确性愈高。
系统误差 也叫 片面误差
(lopsided error), 这是 由于试验对象
相差较大,测量的仪器不准 、 标准试剂未
上一张 下一张 主 页 退 出
将正好等于前一组上限和后一组下限的数据,一
般约定将其归入后一组。
通常将上限略去不写。
第一组记为36.0 , 第二组记为39.0 , …… 5、制作次数分布表 分组结束后,将资料中的每一观测值逐一归组, 统计每组内所包含的观测值个数,制作次数分布表。
经校正,以及观测、记载、抄录、计算中的
错误等等所引起。系统误差可以通过改进方
法、正确试验设计来避免、消除。
系统误差影响试验的准确性。
上一张 下一张 主 页 退 出
2 统计资料的分类
正确地进行试验数据资料的分类是统计 资料整理的前提。在调查或试验中,由观察、
测量所得的数据资料按其性质的不同,一般
可以分为数量性状资料、 质量性状资料和 半定量(等级)资料三大类。
上一张 下一张 主 页
退 出
2.1.1 计量资料
度量衡是计量长短、多少、轻重的统称.其中, 度是计量长短的尺度,量是计量多少的器具, 衡 是计量轻重的器具.
用测量方式获得的数量性状资料,
状资料。其数据是用长度、容积、重量等来表示。
即用度、量、衡等计量工具直接测定获得的数量性
资料的各个观测值不一定是整数,其小数 位数的多少由度量工具的精度而定 ,
它们之间的变异是连续性的。因此,计量
资料也称为连续性变异资料。
上一张 下一张 主 页
退 出
2.1.2 计数资料
用计数方式获得的数量性状资料。 这类资料的各个观察值只能以整数表 示,在两个相邻整数间不得有任何带 小数的数值出现。各观察值是不连续 的,因此该类资料也称为不连续性变 异资料或间断性变异资料。
示极差。
上一张 下一张 主 页
退 出
总体
为了了解总体分布、特征
样本 抽样
推断、估计 参数 μ σ
平均数 标准差
2
构造
统计量
x
s s2
R
σ
方 差
极 差
总体参数由相应的样本统计量来估计, 例如用 x 估计μ,用S估计σ等。
1.3 准确性与精确性
准确性(accuracy)也叫准确度,指观
测值与其真值的接近程度。设某一试验指标
连续性资料的整理,需要先确定全距、
组数、组距、组中值及组限,然后将全部观 测值计数归组。 【例2.1】 为了分析某生产厂的罐头质量, 现随机抽取100听罐头样品,分别称取其净
重,数据资料见表2-1。
上一张 下一张 主 页 退 出
表2-1 100听罐头样品的净重
g
342.1 340.7 348.4 346.0 343.4 342.7 346.0 341.1 344.0 348.0
500以上
17-30
本例中,n=100,初步确定组数为9组。
上一张 下一张 主 页 退 出
3、确定组距 i 每一组中的最大值与最小值之差称为组距
(Class interval),记为 i。分组时一般
要求各组的组距相等。 组距(i)=全距R/组数k
本例
i=27/9=3
上一张 下一张 主 页 退 出
4、确定组限及组中值
第二章 统计资料的整理与分析
上一张 下一张 主 页
退 出
1 数理统计中的常用术语
1.1 总体与样本
总体:根据研究目的确定的研究对象的全体称为总体 (population); 个体:总体中的每一个研究单位称为个体 (individual);
样本: 依据一定方法由总体中抽取部分个体所组成的 集合称为样本(sample);
出
1.2 参数与统计量
为了表示总体和样本的数量特征,需要计算
特征数。
参数:由总体计算的特征数叫参数 (parameter);常用希腊字母表示参数,例如 用μ表示总体平均数,用σ表示总体标准差; 统计量:由样本计算的特征数叫统计量 (staistic)。常用拉丁字母表示统计量,例如用 x 表 示样本平均数,用s表示样本标准差,用R表
然后统计各级别果数。
三种不同类型的资料相互间是有区别的, 但有时可根据研究的目的和统计方法的要求将 一种类型资料转化成另一种类型的资料。
例如,酸奶中的乳杆菌总数得到的资料属 于计数资料,根据化验的目的,可按乳杆菌总 数正常或不正常分为两组,清点各组的次数, 计数资料就转化为质量性状次数资料;如果按 乳杆菌总数过高、正常、过低分为三组 ,清 点各组次数 ,就转化成了半定量资料 。
有限总体:含有有限个个体的总体称为有限总体; 无限总体:包含有无限多个个体的总体称为无限总体;
上一张 下一张 主 页 退 出
样本容量:样本中所包含的个体数 目叫样本容量或大小(sample size),样本容量常记为n。通常把 n≤30的样本叫小样本,n >30的 样本叫大样本。
试验研究的目的:了解总体,然而 能观测到的却是样本,通过样本来推 断总体是统计分析的基本特点。
346.8 350.2 339.9 346.6 339.9 344.3 346.2 338.0 341.1 347.3
347.2 339.8 344.4 347.2 341.0 341.0 343.3 342.3 339.5 343.0
1、求全距 R
全距是数据资料中的最大值与最小值之 差,又称为极差(range),用R表示。即
图2-1 准确性与精确性的关系示意图
上一张 下一张 主 页
退 出
1.4 随机误差(random error)与系统误
差(systematic error)
随机误差 也叫 抽样误差 (sampling error) ,
是由于许多无法控制的内在和外在的偶然因素
所造成的 。随机误差带有偶然性质,在试验中,
346.3 346.0 340.3 344.2 342.2 344.1 345.0 340.5 344.2 344.0
343.5 344.2 342.6 343.7 345.5 339.3 350.2 337.3 345.3 358.2 344.2 345.8 331.2 342.1 342.4 340.5 350.0 343.2 347.0 340.2 344.0 353.3 340.2 336.3 348.9 340.2 356.1 346.0 345.6 346.2
340.6 339.7 342.3 352.8 342.6 350.3 348.5 344.0 350.0 335.1
340.3 338.2 345.5 345.6 349.0 336.7 342.0 338.4 343.9 343.7 341.1 347.1 342.5 350.0 343.5 345.6 345.0 348.6 344.2 341.1
上一张 下一张 主 页 退 出
3 数据资料的整理
未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可 循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。
3.1 数据资料的检查与核对
目的:在于确保原始资料的完整性和正确性。
所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无差错 或未进行不合理的归并。检查中要特别注意特大、 特小和异常数据(可结合专业知识作出判断)。对 于有重复、异常或遗漏的资料 ,应予以删除或补 齐 ;对有错误、相互矛盾的资料应进行更正,必要 时进行复查或重新试验。
为了能可靠地从样本来推断总体,要求 样本具有一定的含量和代表性。 如何获取有代表性的样本?采用随机抽 取。 所谓随机抽取(random sampling) 是指总体中的每一个个体都有同等的机会被 抽取到样本中。 样本毕竟只是总体的一部分,尽管样本 具有一定的含量也具有代表性,通过样本来 推断总体也不可能是百分之百的正确。有很 大的可靠性但有一定的错误率这是统计分析 的特点。 上一张 下一张 主 页 退
上一张 下一张 主 页 退 出
2.1 数量性状资料
数量性状(quantitative character)是指能 够以测量、计量或计数的方式表示其特征的性状 。 观察测定数量性状而获得的数据就是数量性状资料 数量性状资料的获得有测量和计数两种方式 ,
因而数量性状资料 又分为计量资料和计数资料两种。
若分组过少,资料的规律性就反映不出来,计算出 的统计量的精确性也较差。 • 一般组数的确定,可参考表2-2。
上一张 下一张 主 页 退 出
• 分组越多所求得的统计量越精确,但增大了运算量;
表2-2
样本含量(n) 60-100 100-200 200-500
样本含量与组数
组数 7-10 9-12 12-17
注意:最末一组的上限应大于资料中的最大值。
上一张 下一张 主 页 退 出
表2-1中, 最小值为331.2,第一组的组中值 取331.0,因组距为3.0,因此 第一组的下限应为: 331.0 -(1/2)×3.0=329.5; 第一组的上限也就是第二组的下限应为: 329.5+3.0=332.5; 第二组的上限也就是第三组的下限为: 332.5+3.0=335.5,……, 依此类推,一直到某一组的上限大于资料中的最 大值为止。 依次类推分组为: 329.5 - 332.5,332.5 -335.5,……
上一张 下一张 主 页 退 出
3.2 数据资料的整理方法 当观测值不多(n≤30)时,不必分组, 可直接进行统计分析。 当观测值较多(n>30)时,宜将观测值 分成若干组,以便统计分析。将观测值分组 后,制成次数分布表,即可看到资料的集中 和变异情况。
上一张 下一张 主 页
退 出
3.2 连续性资料(计量资料)的整理
或性状的真值为μ,观测值为 x,若 x与μ
相差的绝对值|x-μ|越小, 则观测值x的
准确性越高; 反之则低。
上一张 下一张 主 页 退 出
精确性(precision)也叫精确度,指同一试验 指标或性状的重复观测值彼此接近的程度。若观测 值彼此接近,即任意二个观测值xi 、xj 相差的绝对 值|xi -xj |越小,则观测值精确性越高;反之则低。 准确性、精确性的意义见图2-1。
R=Max(xi)-Min(xi)
xi为观测值
本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0
上一张 下一张 主 页 退 出
2、确定组数 k
组数的多少视样本含量及资料的变动范围大小 而定,一般以达到既简化资料又不影响反映资 料的规律性为原则。
组数要适当,不宜过多,亦不宜过少。
2.2.1 统计次数法
在一定的总体或样本中,根据某一质量性 状的类别统计其次数,以次数作为质量性状的 数据。例如,苹果中全红果个数与半红果个数。 由质量性状数量化而得来的资料又叫 次数 资料。
wenku.baidu.com
2.2.2评分法
对某一质量性状 , 因其类别不同,分别给 予评分。例如,分析面包的质量,可以按照国际 面包评分细则进行打分,综合评价面包质量。新 产品开发中的评价打分等等。
上一张 下一张 主 页
退 出
2.2 质量性状资料
质量性状(qualitative character)是指能 观察到而不能直接测量的,只能用文字来描述其 特征的性状,如食品颜色、 风味等等。这类性状 本身不能直接用数值表示,要获得这类性状的数
据资料,须对其观察结果作数量化处理,其方法
有以下两种:
上一张 下一张 主 页 退 出
各组的最大值与最小值称为组限。最小值称为下 限, 最大值称为上限。每一组的中点值称为组中值, 它是该组的代表值。组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限 -1/2组距
组距确定后, 首先要选定第一组的组中值。在 分组时为了避免第一组中观察值过多,一般第一组的 组中值以接近或等于资料中的最小值为好。第一组组 中值确定后,该组组限即可确定,其余各组的组中值 和组限也可相继确定。
上一张 下一张 主 页 退 出
2.3 半定量(等级)资料
半定量或等级资料(semi-quantitative
or ranked data)是指将观察单位按所考察
的性状或指标的等级顺序分组,然后清点各组
观察单位的次数而得的资料。这类资料既有次
数资料的特点,又有程度或量的不同。如某种
果实的褐变程度是视果实变色面积将其分组,
即使十分小心的进行试验操作也难以消除。随 机误差不可避免,但可减少。 随机误差影响试验的精确性。
上一张 下一张 主 页 退 出
统计上的试验误差是指随机误差。这
种误差愈小,试验的精确性愈高。
系统误差 也叫 片面误差
(lopsided error), 这是 由于试验对象
相差较大,测量的仪器不准 、 标准试剂未
上一张 下一张 主 页 退 出
将正好等于前一组上限和后一组下限的数据,一
般约定将其归入后一组。
通常将上限略去不写。
第一组记为36.0 , 第二组记为39.0 , …… 5、制作次数分布表 分组结束后,将资料中的每一观测值逐一归组, 统计每组内所包含的观测值个数,制作次数分布表。
经校正,以及观测、记载、抄录、计算中的
错误等等所引起。系统误差可以通过改进方
法、正确试验设计来避免、消除。
系统误差影响试验的准确性。
上一张 下一张 主 页 退 出
2 统计资料的分类
正确地进行试验数据资料的分类是统计 资料整理的前提。在调查或试验中,由观察、
测量所得的数据资料按其性质的不同,一般
可以分为数量性状资料、 质量性状资料和 半定量(等级)资料三大类。
上一张 下一张 主 页
退 出
2.1.1 计量资料
度量衡是计量长短、多少、轻重的统称.其中, 度是计量长短的尺度,量是计量多少的器具, 衡 是计量轻重的器具.
用测量方式获得的数量性状资料,
状资料。其数据是用长度、容积、重量等来表示。
即用度、量、衡等计量工具直接测定获得的数量性
资料的各个观测值不一定是整数,其小数 位数的多少由度量工具的精度而定 ,
它们之间的变异是连续性的。因此,计量
资料也称为连续性变异资料。
上一张 下一张 主 页
退 出
2.1.2 计数资料
用计数方式获得的数量性状资料。 这类资料的各个观察值只能以整数表 示,在两个相邻整数间不得有任何带 小数的数值出现。各观察值是不连续 的,因此该类资料也称为不连续性变 异资料或间断性变异资料。
示极差。
上一张 下一张 主 页
退 出
总体
为了了解总体分布、特征
样本 抽样
推断、估计 参数 μ σ
平均数 标准差
2
构造
统计量
x
s s2
R
σ
方 差
极 差
总体参数由相应的样本统计量来估计, 例如用 x 估计μ,用S估计σ等。
1.3 准确性与精确性
准确性(accuracy)也叫准确度,指观
测值与其真值的接近程度。设某一试验指标
连续性资料的整理,需要先确定全距、
组数、组距、组中值及组限,然后将全部观 测值计数归组。 【例2.1】 为了分析某生产厂的罐头质量, 现随机抽取100听罐头样品,分别称取其净
重,数据资料见表2-1。
上一张 下一张 主 页 退 出
表2-1 100听罐头样品的净重
g
342.1 340.7 348.4 346.0 343.4 342.7 346.0 341.1 344.0 348.0
500以上
17-30
本例中,n=100,初步确定组数为9组。
上一张 下一张 主 页 退 出
3、确定组距 i 每一组中的最大值与最小值之差称为组距
(Class interval),记为 i。分组时一般
要求各组的组距相等。 组距(i)=全距R/组数k
本例
i=27/9=3
上一张 下一张 主 页 退 出
4、确定组限及组中值
第二章 统计资料的整理与分析
上一张 下一张 主 页
退 出
1 数理统计中的常用术语
1.1 总体与样本
总体:根据研究目的确定的研究对象的全体称为总体 (population); 个体:总体中的每一个研究单位称为个体 (individual);
样本: 依据一定方法由总体中抽取部分个体所组成的 集合称为样本(sample);
出
1.2 参数与统计量
为了表示总体和样本的数量特征,需要计算
特征数。
参数:由总体计算的特征数叫参数 (parameter);常用希腊字母表示参数,例如 用μ表示总体平均数,用σ表示总体标准差; 统计量:由样本计算的特征数叫统计量 (staistic)。常用拉丁字母表示统计量,例如用 x 表 示样本平均数,用s表示样本标准差,用R表
然后统计各级别果数。
三种不同类型的资料相互间是有区别的, 但有时可根据研究的目的和统计方法的要求将 一种类型资料转化成另一种类型的资料。
例如,酸奶中的乳杆菌总数得到的资料属 于计数资料,根据化验的目的,可按乳杆菌总 数正常或不正常分为两组,清点各组的次数, 计数资料就转化为质量性状次数资料;如果按 乳杆菌总数过高、正常、过低分为三组 ,清 点各组次数 ,就转化成了半定量资料 。
有限总体:含有有限个个体的总体称为有限总体; 无限总体:包含有无限多个个体的总体称为无限总体;
上一张 下一张 主 页 退 出
样本容量:样本中所包含的个体数 目叫样本容量或大小(sample size),样本容量常记为n。通常把 n≤30的样本叫小样本,n >30的 样本叫大样本。
试验研究的目的:了解总体,然而 能观测到的却是样本,通过样本来推 断总体是统计分析的基本特点。
346.8 350.2 339.9 346.6 339.9 344.3 346.2 338.0 341.1 347.3
347.2 339.8 344.4 347.2 341.0 341.0 343.3 342.3 339.5 343.0
1、求全距 R
全距是数据资料中的最大值与最小值之 差,又称为极差(range),用R表示。即
图2-1 准确性与精确性的关系示意图
上一张 下一张 主 页
退 出
1.4 随机误差(random error)与系统误
差(systematic error)
随机误差 也叫 抽样误差 (sampling error) ,
是由于许多无法控制的内在和外在的偶然因素
所造成的 。随机误差带有偶然性质,在试验中,
346.3 346.0 340.3 344.2 342.2 344.1 345.0 340.5 344.2 344.0
343.5 344.2 342.6 343.7 345.5 339.3 350.2 337.3 345.3 358.2 344.2 345.8 331.2 342.1 342.4 340.5 350.0 343.2 347.0 340.2 344.0 353.3 340.2 336.3 348.9 340.2 356.1 346.0 345.6 346.2
340.6 339.7 342.3 352.8 342.6 350.3 348.5 344.0 350.0 335.1
340.3 338.2 345.5 345.6 349.0 336.7 342.0 338.4 343.9 343.7 341.1 347.1 342.5 350.0 343.5 345.6 345.0 348.6 344.2 341.1
上一张 下一张 主 页 退 出
3 数据资料的整理
未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可 循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。
3.1 数据资料的检查与核对
目的:在于确保原始资料的完整性和正确性。
所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无差错 或未进行不合理的归并。检查中要特别注意特大、 特小和异常数据(可结合专业知识作出判断)。对 于有重复、异常或遗漏的资料 ,应予以删除或补 齐 ;对有错误、相互矛盾的资料应进行更正,必要 时进行复查或重新试验。