统计学第一章,第二章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.2 质量性状资料 质量性状资料也称属性性状资料,是指对某种现象只能观察而不能测量的资料。为了统计分
析,一般先需要把质量性状资料数量化,可采取以下两种方法:
1.2.1 统计次数法
在一定总体内,根据某一质量性状的类别统计其次数,以次数来作为质量性状的数据。在 分组统计时可按质量性状的类别进行分组,然后统计各组出现的次数。
2.1 调查 资料的调查方法有两种:普查和抽样调查。
普查是对研究对象的每个个体都进行测量或度量的一种全面调查,比如人口普查、土壤普查 等。
抽样调查是一种非全面调查,是根据一定的原则对研究对象抽取一部分个体进行测量或度量, 把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。如某一地 区污水处理厂氨氮和总磷的排放量调查,某一保护区生物资源的调查。
5.6 准确性与精确性 统计工作是用样本的统计数来推断总体参数的。我们用统计数接近参数真值的程度来衡量统 计数准确性的高低,用样本中的各个变量间变异程度的大小来衡量该样本精确性的高低。因 此,准确性不等于精确性。
准确性是说明测量值对真值符合程度的大小,而精确性则是多次测定值的变异程度。



低准确性 低精确性
2. 统计学的发展过程 2.1 古典统计学时期(17世纪中后期~18世纪中后期) 政治算术学派:代表人物威廉·配第(政治经济学之父),首次运用数量对比分析法,又称“有名无实”
的统计学。
记述学派/国势学派:“统计学是研究一国或多国的显著事项之学”,以文字描述为主,又称“有实 无名”的统计学。
图表学派:用统计图和统计表表现和保存统计资料。
5.4 效应与互作 引起试验差异的作用称为效应,如不同饲料使动物的体重增加表现出差异,不同品种的玉米 产量不同等。
互作,也称连应,是指两个或两个以上处理因素间的相互作用产生的效应。如氮、磷肥共施 会对作物产量产生互作效应。互作分正效应和负效应。
5.5 机误与错误 机误也叫实验误差,是指实验中由于无法控制的随机因素所引起的差异。如在抽样中会出现 较大或较小的数据,这是由于总体中的个体间存在一定的差异,是不可避免的,试验中只能 设法减小,而不能完全消灭。增加抽样或试验次数,可降低机误的数值。
1.2.wenku.baidu.com.评分法
此方法用数字级别表示某现象在程度上的差别。如小麦感染锈病的严重程度可划分为0(免 疫)、1(高度抵抗)、2(中度抵抗)、3(感染)四级。经过数量化的质量性状资料的处理 方法可以参照计数资料的处理方法。
2.试验资料的搜集 搜集样本资料是统计分析的第一步,也是全部统计工作的基础。资料的来源一是调查, 二是试验。
在数理统计中,为了不同的推断目的,要对样本进行不同的加工,构造出许多不同的样本函 数。我们把这样的样本函数叫做统计量。
• 统计学的概念 • 统计学的基本任务 • 统计学的基本内容 • 常用统计学术语
本章小结
第二章 试验资料的整理与特征数计算
在试验及调查中,能够获得大量的原始数据,这是在一定条件下,对某种具体事物或现象观 察的结果,称之为资料。资料在整理前往往是分散、零星和孤立的数字。统计分析就是要依 靠这些资料,通过整理分析进行归类,使其系统化,列成统计表,绘出统计图,计算出平均 数,变异数等特征数。
3. 试验资料的整理 3.1 原始资料的检查与核对
通过调查或试验取得原始数据资料后,要对全部数据进行检查与核对后才能进行数据整理。 一般从三方面进行:数据本身是否有错误、取样是否有差错、对不合理数据进行校正。
3.2 次数分布表
调查或试验所得的数据资料,经过检查核对后,根据样本资料的多少确定是否分组。一般样 本容量在30以下的小样本不必分组,可直接进行统计分析。如果样本容量在30以上时,须将 数据分成若干组以便进行统计分析。数据进过分组归类后,可以制成有规则的次数分布表, 作出次数分布图。
错误是指在试验过程中,人为的作用所引起的差错。如试验人员粗心大意,使仪器校正不准。 药品配制比例不当、称量不准确将数据抄错、计算出现错误等都是因为人为因素造成的,在 试验中是完全可以避免的。
观察值(observation):将每次所取样品测定的结果称为一个观察值,记为yi。 例如:测定绵农4号小麦品种的株高,得到以下数值(单位:cm): 90、91.5、93、89、90.8 其中的每一个数值就是一个观察值。 如果没有误差,上述观察值就不会出现差异,并始终保持一个恒定的值,这个值称为理论值或 真值,以μ表示。
系统误差(systematic error):有一定原因引起的误差,也称偏差(bias)。
这里用一个例子说明误差的层次性问题: 取100个30g大豆种子的样品测定蛋白质含量。 第一层次的误差:来源于抽样引起的误差。 第二层次的误差:从30g种子中取2g进行分析,要求测定两次,两次测定结果若相差太大还需进 行第三次测定。可见第二层次的误差来源于测定过程的误差。
4.统计学的基本内容 统计学研究的内容概括起来可分为两大类:
实验的设计和研究。研究如何对随机现象进行观察、试验,以取得有代表性的观测值。这部分内 容称为描述统计学。
统计推断。研究如何对已取得的观测值进行整理、分析,并作出决策的方法。这部分内容称为推 断统计学。包括参数估计、假设检验、方差分析、回归分析和相关分析等。
3.2.1 计数资料的整理
采用单项式分组法进行,特点是用样本变量自然值进行分组,每组均用一个或几个变量值表 示。分组时。可将数据资料中每个变量分别归入相应的组内,然后制成次数分布表。举例说 明:
制作成次数分布表
3.2.2 计量资料的整理 一般采取组距式分组法。分组时先确定全距组数、组距、各组上下限,然后按观测值的大小
统计学第一章,第二章
授课内容
第一章 概论 第二章 试验资料的整理与特征数计算
第三章 概率与概率分布 第四章 统计推断 第五章 方差分析
第六章 直线回归与相关分析 第七章 试验设计及数据分析
第八章 多元统计分析
第一章 概论
1.统计学的概念 1.1 统计学(statistics)/数理统计学——研究随机现象规律性的方法学;是一门关于如
随机抽样必须满足两个条件:(1)总体中每个个体被抽中的机会是均等的。(2)总体中任 意一个体是否被抽中是相互独立的,即个体是否被抽中不受其他个体的影响。
2.2 试验
对于理论性的无限总体,一般需要通过设置各种类型的试验获取样本资料。设置试验时要 遵循随机、重复和局部控制三项基本原则。常见的试验设计方法有:单因子随机区组试验、 复因子随机区组试验、裂区设计试验、正交设计试验等。
何收集、分析、解释和表达数据的科学。
1.2 统计一词在不同的场合可以有3个不同的涵义 统计工作,即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的
总称;
统计资料,是统计工作的成果,包括各种统计报表、统计图形及文字资料等;
统计科学,是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物 的内在数量规律性,以达到对客观事物的科学认识 。
变量按其性质分为连续变量和非连续变量。连续变量表示在变量范围内可抽出某一范围的所 有值,这种变量之间是连续的、无限的。
非连续变量,也称为离散变量,表示在变量数列中,仅能取得固定数值。
变量可以是定性的,也可以是定量的。定性的变量往往表示某个体属于几种互不相容的类型 中的一种,如果蝇的翅有长翅和残翅,豌豆花的颜色有白色,红色和紫色等。定量的变量是 指可测量的,如出栏时猪的重量,电泳酶谱上的带数等。
低准确性 高精确性
高准确性 高精确性
系统误差使数据偏离了其理论值,影响数据的准确性。 偶然误差使数据相互分散,影响了数据的精确性。
5.7 统计量 样本是总体的一部分,是总体的代表和反映,在抽取样本后,并不直接用样本的n个观测值进 行推断,而是对这些观测值进行加工处理,提炼筛选,把样本中所包含的我们关心的主要信 息集中起来。
由于误差是客观存在的,所以: 观察值=真值+误差
用代数式表示为: yi= μ+εi
式中εi代表误差,故: εi= yi- μ
误差(error):观察值与真值之间的差异。
误差的分类:
随机误差(random error):完全是偶然的,找不出确切原因引起的误差,也称偶然性误差 (spontaneous)。
来归组。
• 求全距。 全距是样本数据资料中最大观测数与最小观测数的差值,是整个样 本的变异幅度。
• 组数和组距。组数是根据样本观测数的多少及组距的大小来确定的同时要考 虑对资料要求的精确度及进一步计算是否方便。组数多则组距相应变小,统 计越精确,但不便于计算;组数少则组距增大虽计算方便,但统计精确度较 差。因此在确定组数和组距时,应考虑样本容量的大小。
描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和 统计工作的关键。
5.常用统计学术语 5.1 总体与样本 5.1.1总体
统计总体是根据统计研究的任务目的所确定的研究事物的全体,是客观存在的具有共同性质 的个体所构成的整体。把组成整体的每一单个成员,称为个体(或样品)。
第一节 试验资料的搜集与整理
1. 试验资料的类型 对试验资料进行分类整理时,必须坚持“同质”原则。
1.1数量性状资料 数量性状资料一般是由计数和测量或度量得到的。由计数法得到的数据称为计数资料(非 连续变量资料)。计数资料的变量值以正整数出现,不能带有小数。由测量或度量得到的 数据称为计量资料(连续变量资料),数据通常用长度、重量、体积等单位表示。计量资 料不一定是整数,在相邻值之间有微小差异的数值存在。
2.2 近代统计学时期(18世纪末~19世纪末) 数理统计学派:创始人阿道夫· 凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为“近
代统计学之父”。 社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。
2.3 现代统计学时期(20世纪初至今) 主要成果:在随机抽样基础上建立了推断统计学。 数理统计学的发展特点与趋势
5.2.2 常数 常数表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。 如某样本平均数、标准差、变异系数等。
5.3 参数和统计数
参数也称参量,是对一个总体特征的度量。如总体平均数、总体标准差等均为参数。因为总 体一般都很大,有的甚至不可能取得,所以总体参数一般不可能计算出来。可以通过对总体 抽取样本,计算样本的特征数,来估计总体参数。从样本中计算所得的数值称为统计数,它 是总体参数的估计值。
在实际问题中,人们关心的并不是总体中个体的一切方面,而所研究的往往是总体中个体的 某种数量指标。例如,一批小麦的蛋白质含量,它是一个随机变量X,假定X的分布函数为 F(x),这个数量指标X的可能取值的全体看做总体,这一总体X为具有分布函数F(x)的总体。
5.1.2 样本
从总体X中抽取若干个个体称为样本。通过样本来研究总体的过程,称为抽样(又称取样或 采样)研究,这种做法称为抽样法,其基本思想是从研究对象的全体中抽取一小部分进行观 察和研究,从而对整体进行推断。从一个整体中,随机抽取的n个个体X1,X2,…Xn称为总体X 的一个样本。样本中个体的数目n称为样本容量。样本应同时具有独立性和代表性。
(1)数学方法的广泛应用。 (2)边缘统计学的形成。 (3)借助计算机手段,统计学的应用日益广泛和深入。
3.统计学的基本任务
在实际问题中,往往一个随机现象所服从的分布是事先完全不知的,或由于随机现象的某些
事实而知道其概型,但不知其分布函数中所含的参数。数理统计学正是要研究如何从对象全 体中随机抽取一部分进行观测或试验,依据取得的信息对整体作出推断。因此,数理统计学 是对随机现象统计规律性归纳的研究。
• 样本容量(n):样本中包含的个体数 • 大样本:n≥30;小样本:n<30
5.2 变量与常数 5.2.1 变量
相同性质的事物间表现差异性或差异特征的数据称为变量或变数,它是表示在一个界 限内变动着的性状的数值。
例如10个人的身高在155-180cm之间,共有158,167,155,180,165,175,178, 170,162cm 10个变量值,记作xi (i=1,2,3,….,10),表示x1到xn之间任一数值,亦称xi为 随机变量。
相关文档
最新文档