《统计》概念最终小范围概念及计算公式

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计概念.简答最终小范围

一、集中趋势离散趋势的描述统计(概念、特点及应用条件?)☆☆☆

1、集中趋势:反映一组数据的平均水平的指标。

(1)算术均数:应用条件:①正态分布的数据;②对称分布的数据。

(2)几何均数:适用条件:对于变量值呈倍数关系或呈对数正态分布。

(3)中位数:应用条件:①偏态分布②分布不明③有极端值④有开口的资料。特点:不受极端值影响。

(4)百分位数:应用条件:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。

(5)众数:一组观察值中出现次数最多的那个数值,可以没有也可以不止一个。

2、离散趋势:反映一组数据离散或分散的水平的指标。(1)极差:全距=最大值-最小值。①优点:计算简单方便,应用广范,容易理解。②缺点:只反映两端数据最大最小值的差别,易受极端值的影响,不能反映组内其他变量离散情况。

(2)四分位数间距:Q=P75-P25。①优点:不受极端值影响,比极差R稳定。②缺点:计算繁琐、不易理解、只反映中间50%的数据的两端的差值(3)方差:特点:①充分反映了每一个数据与平均数的差别;②S2指标很稳定;③S2应用广泛;④S2计算比较麻烦;⑤S2单位是原单位的平方,在实际应用时不太方便。(4)标准差:标准差是方差的开平方。意义与方差相同。特点:标准差的单位与原数据的单位相同。

(5)变异系数:应用条件:①用于比较不同单位数据的离散度。②用于比较均数相差很大时的离散度。特点:①无量纲的指标;②反映指标的稳定性;③一般CV不大于20~25%。

二、分析医学科研资料的基本思想及方法☆☆☆

基本思路:根据研究目的及科研资料的性质和特点,选择正确的分析及检验方法,处理医学资料。

具体分析方法及步骤:

(一)先将医学资料分类,根据资料类型选择相应的分析及检验方法;

(二)具体步骤:

1.计量资料:

(1)data为正态分布,方差齐性;

①t检验法(n<100):单样本t 检验;两样本t检验;配对样本t检验。②μ检验法:单样本μ检验;两样本μ检验(n>100)。③F 检验法:用于多样本均数比较。包括:单因素方差分析;双因素方差分析;拉丁方设计方差分析;析因设计方差分析;交叉设计方差分析;正交设计方差分析。④协方差分析:用于具有协变量的资料进行方差分析。⑤直线相关与回归分析:主要用于2个变量的分析(x与y)。⑥t′检验:也称为校正t 检验:数据为正态分布,但方差不齐。(2)数据为非正态分布或方差不齐:主要用非参数检验。

①Wilcoxon符号秩检验:用于配对计量data。②Wilcoxon秩和检验:用于两样本比较。③Kruskal-wallis检验:也称为H 检验。用于单因素多样本比较。④Friedman检验:也称为M检验。用于双因素多样本比较。⑤秩相关(也称为等级相关):用于非正态数据,进行相关分析。

2.分类变量(资料):

(1)二项分布及Poisson分布:用于处理二项分类资料及稀有事件模型资料。

(2)齐性的x2检验:①四格表x2 检验:两个率(构成比)的检验;②配对x2检验:用于配对计数data的检验;③行×列表x2 检验:多个率(构成比)的检验。

(3)独立性的x2 检验:分析2个变量间有无关联性相关性分析。

(4)秩检验(有序分类data 或等级data):①Wilcoxon两样本法:用于两样本等级data 检验。②Kruskal-wallis检验:用于多个样本等级data检验。t

(5)Ridit分析:专门用于两样本或多样本等级data的比较。

(6)Kappa分析:用于临床诊断的一致性检验,可以是四格表或行×列表。

3.圆形分布数据:用圆形分布法分析和处理各种符合图形分布的数据。

4.其他各种分析方法:

(1)随访data的生存分析:

主要有kaplan-Meier法及寿命

表法。

(2)多因素分析:①多元线

性回归;②多元线性相关;③

logistic回归;④Cox比例风险

回归;⑤判别分析;⑥聚类分

析;⑦主成份分析;⑧因子分

析;⑨其他分析方法等。

三、统计软件的特点☆☆☆

1、SAS:

①世界著名的一流统计软件;

②适合于专业统计人员使用;

③功能极为强大、全面;④SAS

占用空间大;⑤运算速度极

快;⑥可以读入多种格式数

据;⑦编程方式极为灵活但对

话框方式的界面不太友好。

2、SPSS:

①适合于中级、初级科研人员

使用;②适合于专业及非专业

统计人员使用;

③界面友好;④占用空间比

SAS小;⑤统计方法:是公认

的、经典的统计方法;⑥SPSS

也可以编程,但不如SAS功能

强大;⑦SPSS也是世界著名

统计软件。

3、PEMS:

①在国内医学界及卫生统计

界是权威性统计软件;②全中

文界面,界面友好,使用方便;

③内容包含有常用的统计分

析方法,包括:基本统计方法,

高级统计方法;④既可以处理

原始数据进行统计分析,也可

以分析经过整理的数据进行

统计分析;⑤非常适合于专业

及非专业统计人员使用,也适

合临床医生使用。

4、stata:

①非常小巧,约20-30M;②国

际常用的统计软件;③功能强

大,全面;④主要依靠编程→

进行统计分析。极具灵活性。

四、调查研究(普查、抽样调

查、典型调查的特点☆☆☆)

1、普查特点:☆☆☆

①理论上只有普查才能取得

总体参数,没有抽样误差,但

往往非抽样误差较大。②普查

一般都是用于了解总体某一

特定“时点”的情况。③病程

较短的疾病,不适合作时点普

查。

2、抽样调查特点:☆☆☆

①节省人力、财力和时间,可

获得较为深入细致和准确的

资料。②许多医学问题只能作

抽样调查。③可用于检查普查

的质量。④实际工作中应用最

多。

3、典型调查特点:☆☆☆

①典型常是同类事物特征的

集中表现,抓住典型,有利于

对事物特征作深入的了解。②

典型调查可与普查结合,分别

从广度和深度说明问题。③典

型调查不遵循随机抽样的原

则,不能用于估计总体参数,

但在一定条件下,根据专业知

识,选定一般典型可对总体特

征作经验推论。

【附】

调查研究概念:指是研究过程

中没有任何干预措施的条件

下,客观地观察和记录研究对

象的现状及其相关特征。

调查研究特点:①研究的对象

及其相关因素是客观存在的;

②不能用随机化分组来平衡

混杂因素对调查结果的影响。

调查研究类型:

1)普查:又称为全面调查,

就是将组成总体的所有观察

单位全部加以调查。

2)抽样调查:指总体中随机

抽取一定数量的观察单位组

成样本,然后用样本信息推断

总体特征。

3)典型调查:亦称案例调查,

即在对事物作全面分析的基

础上,有目的地选定典型的

人,典型的单位进行调查。

五、析因设计与正交设计(特

点,符号的意义☆☆☆)

1、析因设计概念:

是一种多因素的交叉分组设

计。它不仅可检验每个因素各

水平间的差异,而且可检验各

因素间的交互作用。

(1)析因设计特点:☆☆☆

①可分析多个因素多个水平

的试验效应,可以分析各因素

的独立作用及其各级交互作

用;②节省样本含量,试验效

率高;③设计时较为复杂,计

算较为繁琐。

(2)析因实验的意义:☆☆☆

最简单的析因设计☆2x2,意

义:试验中有2个因素,每个

因素各有2个水平。☆2x2x2

意义:试验中3个因素,每个

因素各有2个水平。☆2x2x3x2

析因实验的意义:试验中有4

个因素,第1、2、4个因素有

2个水平;第3个因素有3个

水平。

(3)交互作用类型模板:

①独立作用:A、B、C、D,

是四个因素各自的单独作用。

②一级交互作用:A×B,A×

C,A×D,B×C,B×D,C

×D,是任意两个因素的共同

作用。

③二级交互作用:A×B×C,

A×B×D,A×C×D,B×C

×D,是任意三个因素的共同

作用。

④三级交互作用:A×B×C

×D,是四个因素的共同作用。

☆2x2x3x2类型实例:

①独立作用:2、2、3、2,是

四个因素各自的单独作用。②

一级交互作用:2×2,2×3,

2×2,2×3,2×2,3×2,是

任意两个因素的共同作用。③

二级交互作用:2×2×3,2×

2×2,2×3×2,2×3×2,是

任意三个因素的共同作用。④

三级交互作用:2×2×3×2,

是四个因素的共同作用。

2、正交试验设计概念:

是一种高效的多因素试验的

设计方法。它利用一套规格化

的正交表,合理地安排实验,

通过对实验结果进行分析,获

得有用的信息。

(1)正交试验设计特点:☆☆☆

①可分析三个及三个以上因

素的作用及其交互作用。②用

最少的试验次数获得更多的

信息。③可用方差分析处理

正交设计的测量数据,但计算

十分繁琐。

(2)正交试验设计意义:

①L N(m K)的意义:☆☆☆

L N(m K)表示正交表有N行K

列,每一列由1,2,….,m

个整数组成。L N(m K)安排试

验,N表示试验次数,k 表示

最多可安排的因素个数,m表

示各因素的水平数。

②L8(27) 意义:表示要求做8

次试验,允许最多安排7个“2”

水平的处理因素。

③L16(42X29) 意义:表示要求

做16次试验,允许最多安排2

个“4”水平处理因素,9个“2”

水平处理因素。

六、概念:圆形分布、生存分

析、截尾值、重复测量。☆☆

1、圆形分布:凡是具有周期

性和循环性的资料为圆形资

料,是用圆形分布法分析和处

理各种符合图形分布的数据。

2、生存分析:是将事件发生

的结果和随访时间两个因素

结合在一起进行分析的一种

统计分析方法,它能充分利用

所得到的研究信息,更加准确

地评价和比较随访资料。

3、截尾值:也称终检值,删

失数据,不完全数据,指在随

访过程中,由于某种原因未能

观察到病人的明确结果(终止

事件),所以不知道该病人的

确切生存t,它提供的生存t

的信息是不完整的。

4、重复测量:最常见的情况

是前后测量设计,当重复测量

次数m≥3时,称重复测量设

计或重复测量数据,它不能同

期观察实验结果,本质上比较

的是前后差别,假定测量时间

对观测结果没有影响。

七、实验设计的基本要素和基

本原则:

(1)实验设计基本要素:

①受试对象:研究人员所要观

察的客体,即处理因素作用的

对象;②处理因素:-研究人

员施加于受试对象并能产生

一定实验效应的因素;③实验

效应:-处理因素施加于受试

对象并经过一段时间,受试对

象产生的各种反应及表现。

(2)实验设计基本原则:

①随机化的原则:-指总体中

每个个体都有均等的机会被

抽取,或被分配到实验组及对

照组中去;②对照化的原则:

-是指在实验研究中使受试

对象的处理因素和非处理因

素的实验效应的差异有一个

科学的对比;③重复的原则:

-重复有2层含义:样本含量

的大小和实验重复次数的多

少;④均衡的原则:-指对照

组除处理因素与实验组不同

外,其他各种条件及因素基本

一致。

05年简答题选以上没有的

1、解释名词:生存率、主效

应、交互作用

②生存率:又称累积生存率或

生存函数,表示具有协变量x

的观察对象,其生存时间T大

于时间t的概率,常用S

(t.x)

=P

表示。

③主效应:是指某一因素各水

平间的平均差别。

④交互作用:当某因素的各个

单独效应随另一因素变化而

变化时,称这两个因素间存在

交互作用。

2、简述参数统计及非参数统

计的特点。各有哪些常见的对

应统计方法?

(1)参数统计特点:

①推断两个或多个总体参数

是否相等。②总体分布为已知

的数学形式,对其总体参数作

假设检验。③两个或多个正态

总体方差齐性,计量资料满足

参数检验条件的假设检验。④

受总体分布的限制,假设检验

的结果对总体分布的形状敏

感。

(2)参数统计方法:

①t检验(单个样本t 检验、

配对样本t 检验、两独立样本

t 检验。);②F检验(单因素

方差分析、双因素方差分析、

拉丁方设计方差分析、析因设

计方差分析、交叉设计方差分

析、正交设计方差分析。);③

u检验(样本率与总体率比较

的u检验、两样本率比较的u

检验);④x2检验(四个表资料

x2检验、配对四个表资料x2检

验、行x列表x2检验、);⑤二

项分布与泊松分布

(3)非参数检验特点:

优点:①适用范围广;②不受

总体分布的限制;③可处理等

级资料;④用于小样本时,效

率高。缺点:如果数据是正态

分布,方差齐性,用非参数

test,则效率降低,是参数检验

的75%左右。

(4)非参检验的方法:

①配对设计资料的秩和检验;

②两样本比较的秩和检验。③

完全随机设计多样本比较的

秩和检验④多个样本间两两

比较的秩检验。⑤随机区组设

计资料的秩和检验。⑥随机区

组设计资料的两两比较的秩

和检验。⑦秩相关(也称为等

级相关)。

3、简要写出多元线性回归分

析的主要步骤。

①根据样本数据求得模型参

数β1β1…βm的估计值,

b1b2….b m,从而得到表示应变

量x与自变量x1x2…x m数量关

系的表达式

Y=b0+b1x1+b2x2+…b m x

_

m

②对回归方程及各自变量做

假设检验,并对方程的拟合效

果及各自变量的作用大小作

出评价。

4、简述logistic回归应用的注

意事项。

①变量的取值形式。对同一资

料的分析,变量采用不同的取

值形式,参数的含义,量值及

符号都可能发生变化。②样品

含量:logistic回归的所有统计

推断都是建立在大样本基础

上,因此要求有足够的样本含

量。③模型评价:对模型评价

一般包括两部分,一是对模型

中的每个自变量进行检验;二

是对所有建立的回归方程作

拟合优度检验。

5、写出logistic回归,cox回

归的模型结构及相应回归系

数的实际意义。

①logistic回归模型:

P=1/{1+exp[-(β0+β1χ1+β2

χ2+……+βmβm)]}

②logistic系数的实际意义:

回归系数βj(j=1,2,….m)表示

自变量X j gi改变一个单位时

logitP的改变量,它与衡量危

险因素作用大小的比数比例

即优势比有一个对应的关系。

对比某一危险因素两个不同

暴露水平Xj=c1与Xj=c0的发

病情况,其优势比的自然对数

为lnORj=logitP1- logitP0即

ORj=exp[βj(c1-c0)],

试中P1和P0分别表示在Xj取

值为c1及c0时的发病概率,

ORj称作多变量调整后的优势

比,表示扣除了其他自变量影

响后危险因素的作用。特殊

地,若果Xj赋值为暴露(=1)

非暴露(=0),则暴露组与费

暴露组发病的优势比为

ORj=exp(βj),当βj=0时,

ORj=1,说明因素Xj对疾病发

生不起作用;当βj>0时,

ORj>1,说明因素Xj是一个危

险因子;当βj<0时,ORj<1,

说明因素Xj是一个保护因子。

③cox回归模型:

h(tx)/h0(t)=exp(β1χ1+β2χ

2+……+

βmβm)

④cox系数的实际意义:

βj与风险函数h(tx)关系:β

j

>0,则Xj取值越大时,h(tx)

的值越大,表示病人死亡的风

险越大;βj=0,则Xj取值对

h(tx)没有影响;βj<0,则Xj取

值越大时,h(tx)的值越小,表示

病人死亡的风险越小。

【统计计算题涉及公式集】

1、x2检验,

基本公式

()2

2A T

x

T

-

=∑

理论频数

n n

R C

T

RC n

=

()

C

i n i

j

ij

SS-

=

x

2

组间

⑤V组间=κ-1

SS

SS

SS组间

组内-

=

⑦V

组内

= N-κ

ν组间

组间

组间

SS

MS=

ν组内

组内

组内

SS

MS=

MS

MS

F

组内

组间

值=

4、μ检验

①样本均数与总体均数比较

)

(,

0已知时

σ

n

u

x

u

-

=

)

(,0较大时

n

n

s

u

x

u

-

=

95%正常值

()

,

X u S X u S

a a

-+

S=

95%可信区间

,

u s u s

a a

X X

⎛⎫

-+

⎝⎭

x

s=

②μ检验.两样本均数比较

n1>50且n2>50

n

S

n

S

x

x

u

2

2

2

1

2

1

2

1

+

-

=

1

1

1

x

X

n

=2

2

2

x

X

n

=

③μ检验.样本率与总体率比

u

④μ检验.两样本率比较

Pc为两样本合并率

u

5、t检验(n<50)

(1)t检验.样本与总体均数比较

n

S

u

x

t

-

=

x

X

n

=

S=

(2)t检验.配对资料

21

d x x

=-

d

d

n

=

③S

d

d

t=

(3)t检验.两样本均数比较

①两样本均数差值的标准误

12

X X

σ

-

12

X X

σ

-

的样本估计值

12

S

X X

-

2

c

S为两样本合并方差

()()

22

12

22

12

12

2

12

x x

x x

n n

S c

∑∑

-+-

∑∑

=

④已知S1和S2用下式

()()

22

11

12

12

2

2

12

n n

S S

S c

n n

-+-

=

+-

⑤n1=n2并已知S1和S2

12

S

X X

-

⑥在H0:u1=u2即u1-u2=0时,

12

12

X X

t

S

X X

-

=

-

12

2

n n

ν=+-

1

1

1

x

X

n

=2

2

2

x

X

n

=

1 / 1

相关文档
最新文档