统计资料的整理与分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计资料的整理与分析
上一张 下一张 主 页 退 出
1 数理统计中的常用术语
1.1 总体与样本
总体:根据研究目的确定的研究对象的全体称为总体 (population); 个体:总体中的每一个研究单位称为个体 (individual); 样本: 依据一定方法由总体中抽取部分个体所组成的 集合称为样本(sample); 有限总体:含有有限个个体的总体称为有限总体; 无限总体:包含有无限多个个体的总体称为无限总体;
1.3 准确性与精确性
准确性(accuracy)也叫准确度,指观 测值与其真值的接近程度。设某一试验指标 或性状的真值为μ,观测值为 x,若 x与μ
相差的绝对值|x-μ|越小, 则观测值x的
准确性越高; 反之则低。
上一张 下一张 主 页 退 出
精确性(precision)也叫精确度,指同一试验 指标或性状的重复观测值彼此接近的程度。若观测
上一张 下一张 主 页 退 出
样本容量:样本中所包含的个体数 目叫样本容量或大小(sample size),样本容量常记为n。通常把 n≤30的样本叫小样本,n >30的 样本叫大样本。 试验研究的目的:了解总体,然而 能观测到的却是样本,通过样本来推 断总体是统计分析的基本特点。
上一张 下一张 主 页 退 出
1、求全距 R 全距是数据资料中的最大值与最小值之 差,又称为极差(range),用R表示。即
R=Max(xi)-Min(xi) xi为观测值
本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0
上一张 下一张 主 页 退 出
2、确定组数 k 组数的多少视样本含量及资料的变动范围 大小而定,一般以达到既简化资料又不影响反 映资料的规律性为原则。组数要适当,不宜过 多,亦不宜过少。分组越多所求得的统计量越 精确,但增大了运算量;若分组过少,资料的 规律性就反映不出来,计算出的统计量的精确 性也较差。一般组数的确定,可参考表2-2。
上一张 下一张 主 页 退 出
2.1.2 计数资料
指用计数方式获得的数量性状资 料。在这类资料中,它的各个观察值 只能以整数表示,在两个相邻整数间 不得有任何带小数的数值出现。这些 观察值只能以整数来表示,各观察值 是不连续的,因此该类资料也称为不 连续性变异资料或间断性变异资料。
上一张 下一张 主 页 退 出
随机误差 也叫 抽样误差 (sampling error) , 是由于许多无法控制的内在和外在的偶然因素 所造成的 。随机误差带有偶然性质,在试验中, 即使十分小心的进行试验操作也难以消除。随 机误差不可避免,但可减少。 随机误差影响试验的精确性。
上一张 下一张 主 页 退 出
统计上的试验误差是指随机误差。这 种误差愈小,试验的精确性愈高。
上一张 下一张 主 页 退 出
3 数据资料的整理
3.1
未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可 循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。
数据资料的检查与核对
目的:在于确保原始资料的完整性和正确性。
所谓完整性是指原始资料无遗缺或重复。
所谓正确性是指原始资料的测量和记载无差错 或未进行不合理的归并。检查中要特别注意特大、 特小和异常数据(可结合专业知识作出判断)。对 于有重复、异常或遗漏的资料 ,应予以删除或补 齐 ;对有错误、相互矛盾的资料应进行更正,必要 时进行复查或重新试验。
数量性状资料的获得有测量和计数两种方式 , 因而数量性状资料 又分为计量资料和计数资料两种。
上一张 下一张 主 页 退 出
2.1.1 计量资料
用测量方式获得的数量性状资料,即用 度、量、衡等计量工具直接测定获得的数 量性状资料。其数据是用长度、容积、重 量等来表示。这种资料的各个观测值不一 定是整数,两个相邻的整数间可以有带小 数的任何数值出现,其小数位数的多少由 度量工具的精度而定 , 它们之间的变 异是连续性的。因此,计量资料也称为连 续性变异资料。
2.2.1 统计次数法
在一定的总体或样本中,根据某一质量性 状的类别统计其次数,以次数作为质量性状的 数据。例如,苹果中全红果个数与半红果个数。
由质量性状数量化而得来的资料又叫 次数 资料。
2.2.2评分法
对某一质量性状 , 因其类别不同,分别给 予评分。例如,分析面包的质量,可以按照国际 面包评分细则进行打分,综合评价面包质量。新 产品开发中的评价打分等等。
组距(i)=全距R/组数k
本例
i=27/9=3
上一张 下一张 主 页 退 出
4、确定组限及组中值
各组的最大值与最小值称为组限。最小值称为下 限, 最大值称为上限。每一组的中点值称为组中值, 它是该组的代表值。组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限 -1/2组距
组数、组距、组中值及组限,然后将全部观 测值计数归组。
【例2.1】 为了分析某生产厂的罐头质量, 现随机抽取100听罐头样品,分别称取其净 重,数据资料见表2-1。
上一张 下一张 主 页 退 出
表2-1 100听罐头样品的净重 g
342.1 340.7 348.4 346.0 343.4 342.7 346.0 341.1 344.0 348.0 346.3 346.0 340.3 344.2 342.2 344.1 345.0 340.5 344.2 344.0 343.5 344.2 342.6 343.7 345.5 339.3 350.2 337.3 345.3 358.2 344.2 345.8 331.2 342.1 342.4 340.5 350.0 343.2 347.0 340.2 344.0 353.3 340.2 336.3 348.9 340.2 356.1 346.0 345.6 346.2 340.6 339.7 342.3 352.8 342.6 350.3 348.5 344.0 350.0 335.1 340.3 338.2 345.5 345.6 349.0 336.7 342.0 338.4 343.9 343.7 341.1 347.1 342.5 350.0 343.5 345.6 345.0 348.6 344.2 341.1 346.8 350.2 339.9 346.6 339.9 344.3 346.2 338.0 341.1 347.3 347.2 339.8 344.4 347.2 341.0 341.0 343.3 342.3 339.5 343.0
大的可靠性但有一定的错误率这是统计分析
的特点。
上一张 下一张 主 页 退 出
1.2 参数与统计量
为了表示总体和样本的数量特征,需要计算
特征数。
参数:由总体计算的特征数叫参数
(parameter);常用希腊字母表示参数,例如 用μ表示总体平均数,用σ表示总体标准差;
统计量:由样本计算的特征数叫统计量
第一组的下限应为: 331.0 -(1/2)×3.0=329.5;
第一组的上限也就是第二组的下限应为: 329.5+3.0=332.5;
第二组的上限也就是第三组的下限为: 332.5+3.0=335.5,……,
依此类推,一直到某一组的上限大于资料中的最 大值为止。
依次类推分组为:
329.5 - 332.5,332.5 -335.5,……
(staistic)。常用拉丁字母表示统计量,例如用 x
表 示样本平均数,用s表示样本标准差,用R表
示极差。
上一张 下一张 主 页 退 出
总体
为了了解总体分布、特征
抽样
样本
参数 μ σ σ2
构造
推断、估计 统计量
平均数
x
标准差
s
方差
s2
极差
ຫໍສະໝຸດ Baidu
R
总体参数由相应的统计量来估计,例如
用 x 估计μ,用S估计σ等。
上一张 下一张 主 页 退 出
将正好等于前一组上限和后一组下限的数据,一 般约定将其归入后一组。
通常将上限略去不写。 第一组记为36.0 , 第二组记为39.0 , ……
5、制作次数分布表 分组结束后,将资料中的每一观测值逐一归组, 统计每组内所包含的观测值个数,制作次数分布表。
值彼此接近,即任意二个观测值xi 、xj 相差的绝对 值|xi -xj |越小,则观测值精确性越高;反之则低。
准确性、精确性的意义见图2-1。
图2-1 准确性与精确性的关系示意图 上一张 下一张 主 页 退 出
1.4 随机误差(random error)与系统误 差(systematic error)
上一张 下一张 主 页 退 出
表2-2 样本含量与组数
样本含量(n) 60-100 100-200 200-500 500以上
组数 7-10 9-12 12-17 17-30
本例中,n=100,初步确定组数为9组。
上一张 下一张 主 页 退 出
3、确定组距 i
每一组中的最大值与最小值之差称为组距 (Class interval),记为 i。分组时一般 要求各组的组距相等。
正确地进行试验数据资料的分类是统计 资料整理的前提。在调查或试验中,由观察、 测量所得的数据资料按其性质的不同,一般 可以分为数量性状资料、 质量性状资料和 半定量(等级)资料三大类。
上一张 下一张 主 页 退 出
2.1 数量性状资料
数量性状(quantitative character)是指能 够以测量、计量或计数的方式表示其特征的性状 。 观察测定数量性状而获得的数据就是数量性状资料
上一张 下一张 主 页 退 出
3.2 数据资料的整理方法 当观测值不多(n≤30)时,不必分组,
可直接进行统计分析。 当观测值较多(n>30)时,宜将观测值
分成若干组,以便统计分析。将观测值分组 后,制成次数分布表,即可看到资料的集中 和变异情况。
上一张 下一张 主 页 退 出
3.2 连续性资料(计量资料)的整理 连续性资料的整理,需要先确定全距、
2.2 质量性状资料
质量性状(qualitative character)是指能 观察到而不能直接测量的,只能用文字来描述其 特征的性状,如食品颜色、 风味等等。这类性状 本身不能直接用数值表示,要获得这类性状的数 据资料,须对其观察结果作数量化处理,其方法 有以下两种:
上一张 下一张 主 页 退 出
组距确定后, 首先要选定第一组的组中值。在 分组时为了避免第一组中观察值过多,一般第一组的 组中值以接近或等于资料中的最小值为好。第一组组 中值确定后,该组组限即可确定,其余各组的组中值 和组限也可相继确定。
注意:最末一组的上限应大于资料中的最大值。
上一张 下一张 主 页 退 出
表2-1中, 最小值为331.2,第一组的组中值 取331.0,因组距为3.0,因此
三种不同类型的资料相互间是有区别的, 但有时可根据研究的目的和统计方法的要求将 一种类型资料转化成另一种类型的资料。
例如,酸奶中的乳杆菌总数得到的资料属 于计数资料,根据化验的目的,可按乳杆菌总 数正常或不正常分为两组,清点各组的次数, 计数资料就转化为质量性状次数资料;如果按 乳杆菌总数过高、正常、过低分为三组 ,清 点各组次数 ,就转化成了半定量资料 。
为了能可靠地从样本来推断总体,要求 样本具有一定的含量和代表性。
如何获取有代表性的样本?采用随机抽 取。
所谓随机抽取(random sampling) 是指总体中的每一个个体都有同等的机会被 抽取到样本中。
样本毕竟只是总体的一部分,尽管样本
具有一定的含量也具有代表性,通过样本来
推断总体也不可能是百分之百的正确。有很
系统误差 也叫 片面误差 (lopsided error), 这是 由于试验对象 相差较大,测量的仪器不准 、 标准试剂未 经校正,以及观测、记载、抄录、计算中的 错误等等所引起。系统误差可以通过改进方 法、正确试验设计来避免、消除。
系统误差影响试验的准确性。
上一张 下一张 主 页 退 出
2 统计资料的分类
上一张下一张主 页退 出
2.3 半定量(等级)资料
半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察 的性状或指标的等级顺序分组,然后清点各组 观察单位的次数而得的资料。这类资料既有次 数资料的特点,又有程度或量的不同。如某种 果实的褐变程度是视果实变色面积将其分组, 然后统计各级别果数。
相关文档
最新文档