统计学名称解释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章
一、名词解释
1、参数(parameter):也叫参变量,是一个变量。

如果我们引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,我们把这样的变量叫做参变量或参数。

描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。

2、统计量(statistic):描述样本特征的数,是统计理论中用来对数据进行分析、检验的变量。

3、总体(population):根据研究目的确定的研究对象的全体。

当研究有具体而明确的指标时,总体是指该项变量值的全体。

4、样本 (sample):从总体中随机抽取的部分观察单位,总体中有代表性的一部分。

5、同质 (homogeneity):是指观察单位(研究个体)间被研究指标的影响因素相同。

6、变异 (variation):同质事物个体间的差异。

来源于一些未加控制或无法控制的甚至不明原因的因素。

7、概率 (probability):度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数。

8、抽样误差 (sampling error):由于抽样所造成的样本统计量与总体参数的差别。

三、简答题
1、统计学的基本步骤有哪些?
设计、搜集、整理、分析资料
2、总体与样本的区别与关系?
区别:
总体:根据研究目的确定的研究对象的全体。

当研究有具体而明确的指标时,总体是指该项变量值的全体。

样本:总体中有代表性的一部分。

联系:总体包含样本,样本是总体中的一部分
3、抽样误差产生的原因有哪些?可以避免抽样误差吗?
产生原因:
(1)总体单位的标志值的差异程度。

差异程度愈大则抽样误差愈大,反之则愈小。

(2)样本单位数的多少。

在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小。

(3)抽样方法。

抽样方法不同,抽样误差也不相同。

一般说,重复抽样比不重复抽样,误差要大些。

(4)抽样调查的组织形式。

抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差。

不可以,它具有不可避免性,只能减少抽样误差
4、何为概率及小概率事件?
概率:度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数。

小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将
p(A)≤0.05 或≤0.01 称为小概率事件,认为小概率事件在一次试验中不可能发生。

第二章第三章
1. 正态分布 (normal distribution):也叫高斯分布(Gaussian distribution),一种最常见、最重要的连续型对称分布(正态分布是对称分布,但对称分布不一定是正态分布)
2. 中位数 (median):是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在
位次上的平均水平。

3. 四分位数间距 (quartile interval):是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.即:Q3 --Q1
4. 方差 (variance):样本观察值的离均差平方和的均值。

表示一组数据的平均离散情况。

反映一组数据的平均离散水平。

5. 正偏态分布 (positively skewed distribution):也称右偏态分布,右侧的组段数多于左侧的组段数,频数向右侧拖尾
6. 负偏态分布 (negatively skewed distribution):左偏态分布,左侧的组段数多于右侧的组段数,频数向左侧拖尾
7. 对数正态分布 (logarithmic normal distribution ):对数为正态分布的任意随机变量的概率分布。

如果X是正态分布的随机变量,则exp(X) 为对数分布;同样,如果Y是对数正态分布,则log(Y) 为正态分布。

8. 医学参考值范围 (medical reference range):指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。

最常用的是95%参考值范围。

三、简答题
1. 描述数值变量资料集中趋势的指标有哪些?其适用范围有何异同?
平均数:描述一组变量值的集中位置或平均水平的指标体系。

不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料
几何均数:对数正态分布或等比级数资料
中位数:一般偏态分布(传染病发病的潜伏期)
2. 描述数值变量资料离散趋势的指标有哪些?其适用范围有何异同?
反映数据的离散度(Dispersion )。

即个体观察值的变异(variation)程度。

常用的指标有:
1. 极差(Range)(全距)适用范围:任何计量资料;是参考变异指标
2. 百分位数与四分位数间距Percentile and Quartile range
百分位数:适用范围广泛,可用于偏态资料,分布不明的资料和分布两端无确定值的资料四分位数间距:常用于描述偏态分布资料的离散程度,值越大——变异程度越大,中位数与四分位间距一起使用,描述偏态分布资料的特征。

3. 方差Variance正态分布资料
4. 标准差Standard Deviation适用范围:均数与标准差经常被同时用来描述正态分布资料的集中和离散趋势。

5. 变异系数Coefficient of Variation适用范围:主要用于单位不同或均数相差悬殊资料3. 医学中参考值范围的涵义是什么?确定的步骤和方法是什么?
医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。

最常用的是95%参考值范围。

步骤与方法:1). 确定“正常人”对象的范围:即根据研究目的确定的未患被研究疾病的个体。

2). 统一测定标准:即检验用的试剂批号、仪器、人员、条件等应相同。

3). 确定分组:一般需用年龄、性别等对“正常人”对象进行分组,分组特征也可根据检
验判断。

4). 样本含量确定:一般来讲,正态分布资料所需的样本含量应在100以上,偏态或未知分布时样本含量应更大。

5). 确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。

6). 确定百分位点:一般取95%或99%。

第四章第五章
一、名词解释
1 标准误(standard error):表示样本统计量抽样误差大小的统计指标,统计上通常将统计量(如样本均数、样本率p等)的标准差称为标准误。

2 可信区间(confidence interval):按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidenceinterval,CI),预先给定的概率(1-α)称为可信度或者置信度(confidencelevel),常取95%或99%。

3 假设检验(hypothesis testing):利用样本提供的信息判断假设是否成立的统计方法称为统计假设检验。

4 统计推断(statistical inference):用一个或一系列样本的结果去估计总体可能的结果的过程。

包括假设检验和参数估计。

5 Ⅰ型错误(type I error)::“实际无差别,但下了有差别的结论”,假阳性错误。

犯这种错误的概率是α(其值等于检验水准)
6 Ⅱ型错误(type II error):“实际有差别,但下了不拒绝H0的结论”,假阴性错误。

犯这种错误的概率是β(其值未知)
7 检验效能(power of test):当两总体确有差别,按检验水准α所能发现这种差别的能力。

8 变量变换 (variable transformation):也称变量代换,是将原始数据作某种函数转换,如转换为对数值。

三、简答题
1 假设检验的基本原理和步骤。

假设检验过去称显著性检验。

它是利用小概率反证法,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。

然后在H0成立的条件下计算检验统计量,最后获得P值来判断。

1. 建立检验假设,确定检验水准(选用单侧或双侧检验)
(1)无效假设(null hypothesis)零假设,记为H0;
(2)备择假设又称对立假设,记为H1。

2. 计算检验统计量
根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如数据的分布类型)选择相应的检验统计量。

3. 确定P值,下结论。

选定显著性水平α的值,P≤α,拒绝H0,接受H1 ,下“有差别”的结论。

P>α不拒绝H0,但不能下“无差别”或“相等”的结论,只能下“根据目前试验结果,尚不能认为有差别”的结论。

2 标准差和标准误的异同。

相同点:
都是用来表示变异程度的,均是反映随机误差的。

区别:
标准差与标准误的意义、作用和使用范围均不同。

标准差(亦称单数标准差) 一般用SD 表
示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用SE 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差,是量度结果精密度的指标。

标准差是最常用的统计量, 一般用于表示一组样本变量的分散程度;标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。

3 参考值范围和置信区间有何区别?
参考值范围是指具有明确背景资料的参考人群某项指标的测定值,例如医学参考范围指包括绝大多数的正常人的人体形态,功能和代谢产物等,表示值时可能有单侧也可能有双侧,表示方法为正态分布或百分位数法.
置信区间是指在做区间的估计时指按一定的概率(1-a)估计总体参数所在的范围,其中(1-a)被称为置信度,两者的不同之处在于前者是对于某种指标的估计,后者是对参数的估计。

置信区间与参考值范围的意义、计算公式和用途均不同。

1.从意义来看
95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。

2.从计算公式看
若指标服从正态分布,95%参考值范围的公式是:x ±1.96s 。

总体均数95%可信区间的公式是:σ未知的小样本X S X v 0.05/2,t ± σ未知的大
样本X S X v 0.05/2,u ±
前者用标准差,后者用标准误。

前者用1.96,后者用α为0.05,自由度为v 的t 或u 界值。

4 t 检验和方差分析的基本思想各是什么?二者的区别是什么?
t 检验(假设检验的一种):假设检验的基本思想是小概率反证法思想。

小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。

反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。

方差分析的基本思想是根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释。

通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响。

区别:
t 检验可用于2个样本均数差异的显著性检验,但不适于多组均数的检验。

方差分析是判断多组( ≥3 )数据之间均数差异是否显著的一种假设检验方法。

5、 t 检验和t 检验的应用条件有何异同?
t 检验:样本含量n 较小时(如n <60)
(1)正态分布
(2)方差齐性(homogeneity of variance)
方差分析:总体——正态且方差相等 样本——独立、随机
6 以随机区组设计的两因素方差分析为例,简述方差分析的基本原理。

正态分布且方差齐同的资料,应采用两因素(处理、配伍)方差分析(two-way ANOVA)或配对t 检验(g =2)
(1)总变异:反映所有观察值之间的变异,记为SS 总。

(2) 处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS 处理。

(3) 区组间变异:由不同区组作用和随机误差产生的变异,记为SS 区组.
(4) 误差变异:由随机误差产生的变异,记为SS 误差。

对总离均差平方和及其自由度的分解,有:
7 可信区间和假设检验的区别和联系。

(一)主要区别:
1、可信区间是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;
2、可信区间为双侧,假设检验既有双侧检验,也有单侧检验;
3、可信区间立足于大概率,假设检验立足于小概率。

(二)主要联系:
1、都是根据样本信息推断总体参数;
2、都以抽样分布为理论依据,建立在概率论基础之上的推断;
3、二者可相互转换,形成对偶性。

可信区间与假设检验各自不同的作用,要结合使用。

一方面,可信区间亦可回答假设检验的问题,算得的可信区间若包含了H 0,则按α水准,不拒绝H 0;若不包含H 0,则按α水准,拒绝H 0,接受H 1。

另一方面,可信区间不但能回答差别有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义。

8 配对t 检验与两样本t 检验的基本原理有何不同。

配对t 检验适用于配对设计的计量资料。

配对设计类型:①两同质受试对象分别接受两种不同的处理;②同一受试对象分别接受两种变异来源
自由度 SS MS F 总变异
N -1 211g n ij i j X C ==-∑∑ 处理间
g -1 2111()g n ij i j n X C ==-∑∑ SS ν处理处理 MS MS 处理误差 区组间 n -1 2111
()g n ij j i g X C ==-∑∑
SS ν区组区组 MS MS 区组误差 误 差 (n -1)(g -1) SS 总- SS 处理--SS 区组 SS ν误差误差
SS SS SS SS =++处理区组总误差νννν=++处理区组总误差
22
11,()()i n g N ij ij i j i j X X C N N ====∑∑∑
不同处理;③同一受试对象(一种)处理前后。

两样本t 检验适用于完全随机设计两样本均数的比较,
第七章
1. 二项分布、Poisson 分布与正态分布间有何关系?
二项分布:是正态分布的特殊形式,记作X~B(n, π),理论上n →+∞且π→0.5则二项分布呈正态分布;在实际应用中,当n 较大、np 与n(1-p)均>5, 且有π→0.5时,二项分布可看成近似正态分布。

Poisson 分布:它是普通二项分布在次数极大,发生机率很小时的极限,记作)(~λP X ,λ越大则Poisson 分布渐近正态分布。

实际应用上,λ≥20就可将其看作是正态分布。

第六章 分类资料的统计描述
一、名词解释
1、率(rate ):是说明某事物(或现象)发生的频率或强度的指标。

2、构成比(constituent ratio):是说明某事物内部各组成部分的比重或分布的指标。

3、相对比(relative ratio):是说明两个有关联的事物间的相对关系的指标。

4、标准化率(standardized rate):也称调整率,是多组率之间按统一的“标准”进行调整,使之具有可比性的率。

5、标化发病比(standardized incidence ratio):被标化组实际发病数与预期发病数之比。

6、标化死亡比(standardized mortality ratio):被标化组实际死亡(发病、患病等)数与预期死亡(发病、患病等)数之比。

第七章 二项分布与Poisson 分布及其应用
第八章 X2检验
第九章 秩和检验
三、简答题
1、二项分布、Poisson 分布与正态分布间有何关系?
2、X2检验的应用条件有哪些?
(1)四格表的分析方法选择条件:
n ≥40,T ≥5,专用公式;
n ≥40,1≤T <5,校正公式;
n <40或T <1,直接计算概率。

X2连续性校正仅用于v=1的四格表资料,当v ≥2时,一般不作校正。

(2)配对四格表的分析分析方法选择条件:
b+c >40,专用公式;
20<b+c ≤40,用校正公式;
b+c <20,二项分布直接计算概率。

(3)R ×C 表的分析方法选择条件:
1.理论数不能小于1;
2.理论数大于等于1小于5的格子数不超过总格子数的1/5;
3.否则用Fisher 确切概率,或似然比检验。

4.如果以上条件不能满足,可采用:增加样本含量;删去某行或某列;合理地合并部分行或列;Fisher 精确概率法。

5.多个率或构成比比较的X2检验,结论为拒绝H0时,仅表示几组有差别,并非任两组之间都有差别。

若要了解之,可进行多重比较:X2表的分割或率的可信区间法。

6.对于有序的分类变量,采用X2检验方法不能考虑数据的有序性质。

为此,对于单向有序可采用秩和检验、Ridit 分析,双向有序可采用趋势检验等。

3、X2检验用于解决哪些问题?
(1)推断两个总体率或构成比之间有无差别
(2)多个总体率或构成比之间有无差别
(3)多个样本率的多重比较
(4)两个分类变量之间有无关联性
4、四格表的u检验与X2检验有何异同?
二者的相同点:
1.四格表u检验是根据正态近似的原理[np,n(1-p)>5],n充分大,凡是能用u检验
的都可以用卡方检验,u2=x2(ν=1);
2.两者都有连续性校正问题;
二者的不同点:
1.由于正态分布可确定单双侧检验界值,当满足正态分布近似条件时,可使用u检验进
行单侧检验;
2.满足四格表U检验的资料,计算两率间的95%可信区间,尚可分析两率之差有无实际
意义;
3.x2检验可用于2×2列联表资料有无关联的检验
5、请列举R×C表X2检验的注意事项。

(1)注意对T值大小的要求:要求T<5的个数不能超过1/5,且不能有T<1。

如果不符可选用以下方法处理:1.增加样本例数;2.相邻行列例数进行合理地合并;
3.删去理论数小的行或列;
4.确切概率法。

(2)注意多组比较结果如为差别有显著性,并不代表每两组差别有显著性,如需分析可进一步作两两比较。

(3)注意有序行×列表资料不宜采用X2检验,因为X2检验与分类变量的顺序无关。

相关文档
最新文档