生物统计学(自理重点)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物统计学复习资料(70%)
填空:10题×1’=10’选择:5题×1’=5’ 名词解释:5题×2’=10’
判断:5题×1’=5’ 简答:3题×5’=15’ 统计推断:4题10’+10’+10’+20’=50’
第1章绪论
生物统计学:是研究收集、整理、分析和解释生物科学试验数据的科学,是统计学原理在生物学研究领域的应用。
生物统计学的主要内容
生物统计学包括试验数据的获取、整理和分析等相关内容,具体来说,包括试验或调查设计、数据的整理(描述统计学)、概率论基础(统计理论基础)、统计推断方法(推断统计学)等内容。
调查设计:是指整个调查计划的制订,包括调查研究的目的、对象与范围,调查项目及调查表内容,抽样方法的选取,抽样单位和抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写等内容。
试验设计:是指试验单位的选取、生物学重复数的确定及试验单位的分组等。
生物统计学发展简史
(1)古典记录统计学
(2)近代描述统计学
(3)近代推断统计学
总体:是研究对象的全体。
个体:是总体中的一个研究单位。
样本:是从总体中抽取的用于代表总体的一部分个体。
样本容量记为n,通常把n≤30的样本称为小样本,n>30的样本称为大样本。(判断区别)随机抽样:是指总体中的每一个个体都有同等的被抽取的机会组成样本。
参数:由总体计算的特征数。
统计数:由样本计算的特征数。
准确性:也叫准确度,是指在试验中某一试验指标的观测值与其真值接近的程度。
精确性:也叫精确度,是指同一试验指标的重复观测值彼此接近的程度。
随机误差:是由于无法控制的内在和外在的偶然因素所造成的,是客观存在的,在实验中,即使十分小心也难以消除。
系统误差:也叫片面误差,是由试验材料的初始条件不同或测量仪器不准等引起的倾向性或定向性偏差。
(小题)误差怎么控制?
(小题)随机误差可完全避免(×)
(小题)减小统计误差的方法是(B)
A、提高准确度
B、提高精确度
C、减少样本容量
D、增加样本容量
第2章数据的描述与分析
数据可以大致分为数量性状数据和质量性状数据两大类。
数量性状数据:是指通过测量、度量或计数取得的数据。
根据数据的特征又分为连续型数据和离散型数据。
连续型数据:或称为计量数据,是指用测量或度量方式得到的数量性状数据。(如身高、作物产量、蛋白质含量等)
连续型数据的特点:
(1)用测量或度量方式得到的数量性状数据。
(2)数据是用长度、容积、重量等来表示。
(3)观测值可以是整数或带小数的任何数值。
(4)小数位数由测量工具或统计要求的精度而定,数据之间的变异是连续的。
离散型数据:或称为计数数据,是指用计数方法得到的数量性状数据。(如不同血型的人数、鱼的数量、白细胞数等)
质量性状数据:或称为属性数据,是指对某种现象进行观察而不能测量的数据。(如土壤的颜色、植物叶的形状等)
质量性状数据数量化的方法(1)二值化(2)等级化
离散型数据基本上采用单项式分组法整理。
连续型数据一般采用组距式分组法整理。
全距又称为极差
统计表的结构:统计表由标题、横标目、纵标目、线条、数字及合计(总计)构成。
编制统计表的总原则:
结构简单、层次分明、内容安排合理、重点突出、数据准确,便于理解和统计分析。
统计表编制的具体要求
(1)标题:标题要简明扼要、准确地说明表的内容,有时需在最右侧注明时间、地点,表中数据为同一单位时也在此说明。
(2)标目:标目分为横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,并注明计量单位,如%、kg、cm等。
(3)数字:一律用阿拉伯数字,小数点对齐,(每列)小数位数一致,无数字的用“—”
表示,数字是“0”的,则填写“0”。
(4)线条:表的上、下两条边线略粗,纵、横标目间及合计(总计)用细线分开,表的左右边线可省去,表的左上角一般不用斜线;科技论文则习惯使用三线表。
常用的统计图有:柱状图、饼图、线图、直方图和折线图。
离散型数据常用的统计图:柱状图、线图或饼图
连续型数据常用的统计图:直方图和折线图
统计图绘制的的基本要求:
(1)标题简明扼要,列于图的下方;纵、横两轴应有刻度,注明单位。
(2)横轴由左至右、纵轴由下而上,数值由小到大;图形宽度与高度之比为4:3至6:5。
(3)图中用不同颜色或线条代表不同事物时,应有图例说明。
变量分布具有两种明显的基本特征,及集中性和离散性。
集中性:是指变量有向某一中心聚集的趋势,或者说以某一数值中心向两侧递减分布的性质。离散性:是指变量有离中心分散变异的性质。
反映数据集中性的特征数为平均数,常用的是算术平均数,还包括几何平均数、调和平均
数、中位数和众数等。(具体事例,如进行。。的滴定叫做什么平均数)
中位数:将资料中的所有观测值按从大到小的顺序排列,位于中间的那个观测值称为中位数。变异数包括极差、方差、标准差和变异系数等。(各自的计算方法):
极差:资料中观测值的最大值与最小值之差,记为R。
R=max{x1,x2,…,x n}- min{x1,x2,…,x n}
方差:记为s2或均方,记为MS。(自由度为n-1)
()
相应的总体参数称为总体方差,记为σ2。
()
标准差:记为s。
s=
标准差的特性
(1)标准差受所有观测值的影响,观测值间的差异大小直接影响标准差的大小。
(2)在计算标准差时,所有观测值同时加上一个常数,标准差值不变;所有观测值同时乘以常数a时,标准差扩大a倍。
(3)数据呈正态分布时,在平均数两侧1s范围内的观测值个数为68.26%,在平均数两侧2s范围内的观测值个数为95.45%,在平均数两侧3s范围内的观测值个数为
99.73%。
标准差的作用
(1)表示变量变异程度的大小。标准差小,说明变量比较密集地分布于平均数附近;标准差大,说明变量分布比较分散。因此,可以根据标准差的大小判断平均数的代表
性。
(2)利用标准差估计变量的次数分布及各类观测值在总体中所占的比例。
(3)利用样本标准差代替总体标准差计算平均数的标准误。
(4)用于平均数的区间估计和变异系数的计算。
变异系数的用途
(1)比较度量衡的单位不同的多组数据的变异度。
(2)比较均数相差悬殊的多组数据的变异度。
计算:在度量单位不同和(或)平均数差异较大时,比较两个样本的变异程度就不能直接采用标准差,而须先对其进行标准化,消除度量单位的差异和平均数大小的差异的影响。
标准差与平均数的比值称为变异系数,记为C v。