《统计》概念最终小范围概念及计算公式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计概念.简答最终小范围
一、集中趋势离散趋势的描述统计(概念、特点及应用条件?)☆☆☆
1、集中趋势:反映一组数据的平均水平的指标。
(1)算术均数:应用条件:①正态分布的数据;②对称分布的数据。
(2)几何均数:适用条件:对于变量值呈倍数关系或呈对数正态分布。
(3)中位数:应用条件:①偏态分布②分布不明③有极端值④有开口的资料。特点:不受极端值影响。
(4)百分位数:应用条件:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
(5)众数:一组观察值中出现次数最多的那个数值,可以没有也可以不止一个。
2、离散趋势:反映一组数据离散或分散的水平的指标。(1)极差:全距=最大值-最小值。①优点:计算简单方便,应用广范,容易理解。②缺点:只反映两端数据最大最小值的差别,易受极端值的影响,不能反映组内其他变量离散情况。
(2)四分位数间距:Q=P75-P25。①优点:不受极端值影响,比极差R稳定。②缺点:计算繁琐、不易理解、只反映中间50%的数据的两端的差值(3)方差:特点:①充分反映了每一个数据与平均数的差别;②S2指标很稳定;③S2应用广泛;④S2计算比较麻烦;⑤S2单位是原单位的平方,在实际应用时不太方便。(4)标准差:标准差是方差的开平方。意义与方差相同。特点:标准差的单位与原数据的单位相同。
(5)变异系数:应用条件:①用于比较不同单位数据的离散度。②用于比较均数相差很大时的离散度。特点:①无量纲的指标;②反映指标的稳定性;③一般CV不大于20~25%。
二、分析医学科研资料的基本思想及方法☆☆☆
基本思路:根据研究目的及科研资料的性质和特点,选择正确的分析及检验方法,处理医学资料。
具体分析方法及步骤:
(一)先将医学资料分类,根据资料类型选择相应的分析及检验方法;
(二)具体步骤:
1.计量资料:
(1)data为正态分布,方差齐性;
①t检验法(n<100):单样本t 检验;两样本t检验;配对样本t检验。②μ检验法:单样本μ检验;两样本μ检验(n>100)。③F 检验法:用于多样本均数比较。包括:单因素方差分析;双因素方差分析;拉丁方设计方差分析;析因设计方差分析;交叉设计方差分析;正交设计方差分析。④协方差分析:用于具有协变量的资料进行方差分析。⑤直线相关与回归分析:主要用于2个变量的分析(x与y)。⑥t′检验:也称为校正t 检验:数据为正态分布,但方差不齐。(2)数据为非正态分布或方差不齐:主要用非参数检验。
①Wilcoxon符号秩检验:用于配对计量data。②Wilcoxon秩和检验:用于两样本比较。③Kruskal-wallis检验:也称为H 检验。用于单因素多样本比较。④Friedman检验:也称为M检验。用于双因素多样本比较。⑤秩相关(也称为等级相关):用于非正态数据,进行相关分析。
2.分类变量(资料):
(1)二项分布及Poisson分布:用于处理二项分类资料及稀有事件模型资料。
(2)齐性的x2检验:①四格表x2 检验:两个率(构成比)的检验;②配对x2检验:用于配对计数data的检验;③行×列表x2 检验:多个率(构成比)的检验。
(3)独立性的x2 检验:分析2个变量间有无关联性相关性分析。
(4)秩检验(有序分类data 或等级data):①Wilcoxon两样本法:用于两样本等级data 检验。②Kruskal-wallis检验:用于多个样本等级data检验。t
(5)Ridit分析:专门用于两样本或多样本等级data的比较。
(6)Kappa分析:用于临床诊断的一致性检验,可以是四格表或行×列表。
3.圆形分布数据:用圆形分布法分析和处理各种符合图形分布的数据。
4.其他各种分析方法:
(1)随访data的生存分析:
主要有kaplan-Meier法及寿命
表法。
(2)多因素分析:①多元线
性回归;②多元线性相关;③
logistic回归;④Cox比例风险
回归;⑤判别分析;⑥聚类分
析;⑦主成份分析;⑧因子分
析;⑨其他分析方法等。
三、统计软件的特点☆☆☆
1、SAS:
①世界著名的一流统计软件;
②适合于专业统计人员使用;
③功能极为强大、全面;④SAS
占用空间大;⑤运算速度极
快;⑥可以读入多种格式数
据;⑦编程方式极为灵活但对
话框方式的界面不太友好。
2、SPSS:
①适合于中级、初级科研人员
使用;②适合于专业及非专业
统计人员使用;
③界面友好;④占用空间比
SAS小;⑤统计方法:是公认
的、经典的统计方法;⑥SPSS
也可以编程,但不如SAS功能
强大;⑦SPSS也是世界著名
统计软件。
3、PEMS:
①在国内医学界及卫生统计
界是权威性统计软件;②全中
文界面,界面友好,使用方便;
③内容包含有常用的统计分
析方法,包括:基本统计方法,
高级统计方法;④既可以处理
原始数据进行统计分析,也可
以分析经过整理的数据进行
统计分析;⑤非常适合于专业
及非专业统计人员使用,也适
合临床医生使用。
4、stata:
①非常小巧,约20-30M;②国
际常用的统计软件;③功能强
大,全面;④主要依靠编程→
进行统计分析。极具灵活性。
四、调查研究(普查、抽样调
查、典型调查的特点☆☆☆)
1、普查特点:☆☆☆
①理论上只有普查才能取得
总体参数,没有抽样误差,但
往往非抽样误差较大。②普查
一般都是用于了解总体某一
特定“时点”的情况。③病程
较短的疾病,不适合作时点普
查。
2、抽样调查特点:☆☆☆
①节省人力、财力和时间,可
获得较为深入细致和准确的
资料。②许多医学问题只能作
抽样调查。③可用于检查普查
的质量。④实际工作中应用最
多。
3、典型调查特点:☆☆☆
①典型常是同类事物特征的
集中表现,抓住典型,有利于
对事物特征作深入的了解。②
典型调查可与普查结合,分别
从广度和深度说明问题。③典
型调查不遵循随机抽样的原
则,不能用于估计总体参数,
但在一定条件下,根据专业知
识,选定一般典型可对总体特
征作经验推论。
【附】
调查研究概念:指是研究过程
中没有任何干预措施的条件
下,客观地观察和记录研究对
象的现状及其相关特征。
调查研究特点:①研究的对象
及其相关因素是客观存在的;
②不能用随机化分组来平衡
混杂因素对调查结果的影响。
调查研究类型:
1)普查:又称为全面调查,
就是将组成总体的所有观察
单位全部加以调查。
2)抽样调查:指总体中随机
抽取一定数量的观察单位组
成样本,然后用样本信息推断
总体特征。
3)典型调查:亦称案例调查,
即在对事物作全面分析的基
础上,有目的地选定典型的
人,典型的单位进行调查。
五、析因设计与正交设计(特
点,符号的意义☆☆☆)
1、析因设计概念:
是一种多因素的交叉分组设
计。它不仅可检验每个因素各
水平间的差异,而且可检验各
因素间的交互作用。
(1)析因设计特点:☆☆☆
①可分析多个因素多个水平
的试验效应,可以分析各因素
的独立作用及其各级交互作
用;②节省样本含量,试验效
率高;③设计时较为复杂,计
算较为繁琐。
(2)析因实验的意义:☆☆☆
最简单的析因设计☆2x2,意
义:试验中有2个因素,每个
因素各有2个水平。☆2x2x2
意义:试验中3个因素,每个
因素各有2个水平。☆2x2x3x2
析因实验的意义:试验中有4
个因素,第1、2、4个因素有
2个水平;第3个因素有3个
水平。
(3)交互作用类型模板:
①独立作用:A、B、C、D,
是四个因素各自的单独作用。
②一级交互作用:A×B,A×
C,A×D,B×C,B×D,C
×D,是任意两个因素的共同
作用。
③二级交互作用:A×B×C,
A×B×D,A×C×D,B×C
×D,是任意三个因素的共同
作用。
④三级交互作用:A×B×C
×D,是四个因素的共同作用。
☆2x2x3x2类型实例:
①独立作用:2、2、3、2,是
四个因素各自的单独作用。②
一级交互作用:2×2,2×3,
2×2,2×3,2×2,3×2,是
任意两个因素的共同作用。③
二级交互作用:2×2×3,2×
2×2,2×3×2,2×3×2,是
任意三个因素的共同作用。④
三级交互作用:2×2×3×2,
是四个因素的共同作用。
2、正交试验设计概念:
是一种高效的多因素试验的
设计方法。它利用一套规格化
的正交表,合理地安排实验,
通过对实验结果进行分析,获
得有用的信息。
(1)正交试验设计特点:☆☆☆
①可分析三个及三个以上因
素的作用及其交互作用。②用
最少的试验次数获得更多的
信息。③可用方差分析处理
正交设计的测量数据,但计算
十分繁琐。
(2)正交试验设计意义:
①L N(m K)的意义:☆☆☆
L N(m K)表示正交表有N行K
列,每一列由1,2,….,m
个整数组成。L N(m K)安排试
验,N表示试验次数,k 表示
最多可安排的因素个数,m表
示各因素的水平数。
②L8(27) 意义:表示要求做8
次试验,允许最多安排7个“2”
水平的处理因素。
③L16(42X29) 意义:表示要求
做16次试验,允许最多安排2
个“4”水平处理因素,9个“2”
水平处理因素。
六、概念:圆形分布、生存分
析、截尾值、重复测量。☆☆
☆
1、圆形分布:凡是具有周期
性和循环性的资料为圆形资
料,是用圆形分布法分析和处
理各种符合图形分布的数据。
2、生存分析:是将事件发生
的结果和随访时间两个因素
结合在一起进行分析的一种
统计分析方法,它能充分利用
所得到的研究信息,更加准确
地评价和比较随访资料。
3、截尾值:也称终检值,删
失数据,不完全数据,指在随
访过程中,由于某种原因未能
观察到病人的明确结果(终止
事件),所以不知道该病人的
确切生存t,它提供的生存t
的信息是不完整的。
4、重复测量:最常见的情况
是前后测量设计,当重复测量
次数m≥3时,称重复测量设
计或重复测量数据,它不能同
期观察实验结果,本质上比较
的是前后差别,假定测量时间
对观测结果没有影响。
七、实验设计的基本要素和基
本原则:
(1)实验设计基本要素:
①受试对象:研究人员所要观
察的客体,即处理因素作用的
对象;②处理因素:-研究人
员施加于受试对象并能产生
一定实验效应的因素;③实验
效应:-处理因素施加于受试
对象并经过一段时间,受试对
象产生的各种反应及表现。
(2)实验设计基本原则:
①随机化的原则:-指总体中
每个个体都有均等的机会被
抽取,或被分配到实验组及对
照组中去;②对照化的原则:
-是指在实验研究中使受试
对象的处理因素和非处理因
素的实验效应的差异有一个
科学的对比;③重复的原则:
-重复有2层含义:样本含量
的大小和实验重复次数的多
少;④均衡的原则:-指对照
组除处理因素与实验组不同
外,其他各种条件及因素基本
一致。
05年简答题选以上没有的
1、解释名词:生存率、主效
应、交互作用
②生存率:又称累积生存率或
生存函数,表示具有协变量x
的观察对象,其生存时间T大
于时间t的概率,常用S
(t.x)
=P
表示。
③主效应:是指某一因素各水
平间的平均差别。
④交互作用:当某因素的各个
单独效应随另一因素变化而
变化时,称这两个因素间存在
交互作用。
2、简述参数统计及非参数统
计的特点。各有哪些常见的对
应统计方法?
(1)参数统计特点:
①推断两个或多个总体参数
是否相等。②总体分布为已知
的数学形式,对其总体参数作
假设检验。③两个或多个正态
总体方差齐性,计量资料满足
参数检验条件的假设检验。④
受总体分布的限制,假设检验
的结果对总体分布的形状敏
感。
(2)参数统计方法:
①t检验(单个样本t 检验、
配对样本t 检验、两独立样本
t 检验。);②F检验(单因素
方差分析、双因素方差分析、
拉丁方设计方差分析、析因设
计方差分析、交叉设计方差分
析、正交设计方差分析。);③
u检验(样本率与总体率比较
的u检验、两样本率比较的u
检验);④x2检验(四个表资料
x2检验、配对四个表资料x2检
验、行x列表x2检验、);⑤二
项分布与泊松分布
(3)非参数检验特点:
优点:①适用范围广;②不受
总体分布的限制;③可处理等
级资料;④用于小样本时,效
率高。缺点:如果数据是正态
分布,方差齐性,用非参数
test,则效率降低,是参数检验
的75%左右。
(4)非参检验的方法:
①配对设计资料的秩和检验;
②两样本比较的秩和检验。③
完全随机设计多样本比较的
秩和检验④多个样本间两两
比较的秩检验。⑤随机区组设
计资料的秩和检验。⑥随机区
组设计资料的两两比较的秩
和检验。⑦秩相关(也称为等
级相关)。
3、简要写出多元线性回归分
析的主要步骤。
①根据样本数据求得模型参
数β1β1…βm的估计值,
b1b2….b m,从而得到表示应变
量x与自变量x1x2…x m数量关
系的表达式
Y=b0+b1x1+b2x2+…b m x
_
m
②对回归方程及各自变量做
假设检验,并对方程的拟合效
果及各自变量的作用大小作
出评价。
4、简述logistic回归应用的注
意事项。
①变量的取值形式。对同一资
料的分析,变量采用不同的取
值形式,参数的含义,量值及
符号都可能发生变化。②样品
含量:logistic回归的所有统计
推断都是建立在大样本基础
上,因此要求有足够的样本含
量。③模型评价:对模型评价
一般包括两部分,一是对模型
中的每个自变量进行检验;二
是对所有建立的回归方程作
拟合优度检验。
5、写出logistic回归,cox回
归的模型结构及相应回归系
数的实际意义。
①logistic回归模型:
P=1/{1+exp[-(β0+β1χ1+β2
χ2+……+βmβm)]}
②logistic系数的实际意义:
回归系数βj(j=1,2,….m)表示
自变量X j gi改变一个单位时
logitP的改变量,它与衡量危
险因素作用大小的比数比例
即优势比有一个对应的关系。
对比某一危险因素两个不同
暴露水平Xj=c1与Xj=c0的发
病情况,其优势比的自然对数
为lnORj=logitP1- logitP0即
ORj=exp[βj(c1-c0)],
试中P1和P0分别表示在Xj取
值为c1及c0时的发病概率,
ORj称作多变量调整后的优势
比,表示扣除了其他自变量影
响后危险因素的作用。特殊
地,若果Xj赋值为暴露(=1)
非暴露(=0),则暴露组与费
暴露组发病的优势比为
ORj=exp(βj),当βj=0时,
ORj=1,说明因素Xj对疾病发
生不起作用;当βj>0时,
ORj>1,说明因素Xj是一个危
险因子;当βj<0时,ORj<1,
说明因素Xj是一个保护因子。
③cox回归模型:
h(tx)/h0(t)=exp(β1χ1+β2χ
2+……+
βmβm)
④cox系数的实际意义:
βj与风险函数h(tx)关系:β
j
>0,则Xj取值越大时,h(tx)
的值越大,表示病人死亡的风
险越大;βj=0,则Xj取值对
h(tx)没有影响;βj<0,则Xj取
值越大时,h(tx)的值越小,表示
病人死亡的风险越小。
【统计计算题涉及公式集】
1、x2检验,
基本公式
()2
2A T
x
T
-
=∑
理论频数
n n
R C
T
RC n
=
④
()
C
i n i
j
ij
SS-
∑
∑
=
x
2
组间
⑤V组间=κ-1
⑥
SS
SS
SS组间
总
组内-
=
⑦V
组内
= N-κ
⑧
ν组间
组间
组间
SS
MS=
⑨
ν组内
组内
组内
SS
MS=
⑩
MS
MS
F
组内
组间
值=
4、μ检验
①样本均数与总体均数比较
)
(,
0已知时
σ
n
u
x
u
-
=
)
(,0较大时
n
n
s
u
x
u
-
=
95%正常值
()
,
X u S X u S
a a
-+
S=
95%可信区间
,
u s u s
a a
X X
⎛⎫
-+
⎪
⎝⎭
,
x
s=
②μ检验.两样本均数比较
n1>50且n2>50
n
S
n
S
x
x
u
2
2
2
1
2
1
2
1
+
-
=
,
1
1
1
x
X
n
∑
=2
2
2
x
X
n
∑
=
③μ检验.样本率与总体率比
较
u
④μ检验.两样本率比较
Pc为两样本合并率
u
,
5、t检验(n<50)
(1)t检验.样本与总体均数比较
n
S
u
x
t
-
=
x
X
n
∑
=
S=
(2)t检验.配对资料
①
21
d x x
=-
②
d
d
n
∑
=
③S
d
④
d
t=
(3)t检验.两样本均数比较
①两样本均数差值的标准误
12
X X
σ
-
②
12
X X
σ
-
的样本估计值
12
S
X X
-
③
2
c
S为两样本合并方差
()()
22
12
22
12
12
2
12
x x
x x
n n
S c
∑∑
-+-
∑∑
=
④已知S1和S2用下式
()()
22
11
12
12
2
2
12
n n
S S
S c
n n
-+-
=
+-
⑤n1=n2并已知S1和S2
12
S
X X
-
⑥在H0:u1=u2即u1-u2=0时,
12
12
X X
t
S
X X
-
=
-
12
2
n n
ν=+-
1
1
1
x
X
n
∑
=2
2
2
x
X
n
∑
=
1 / 1