统计与科研方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两种分类变量的表现,这种资料从实验设计上属配对设计,称为2×2交叉分
类资料。
计数资料的配对设计常用于:两种检验方法、培养方法、诊断方法、治疗方法的比较。
一致性检验结果:Kappa系数>0.7吻合度较强;0.7< Kappa系数<0.4吻合度一般;Kappa
系数<0.4吻合度较弱
4、
行×列表的检验的应用条件:
高可减少样本量。
缺点:对研究对象有较高要求、当配对条件未能严格控制造成配对失败或配对欠佳时,
反而会降低效率。
应用:用于实验对象同质性欠佳的研究。
随机单位组设计
优点:
各处理组间的均衡性、可比性更强
把实验对象间的部分差异体现在区组间,缩小了实验误差,实验效率更高
可分析出处理组间和单位组间两因素的影响
缺点:
第四:判断资料所属的设计方式,是完全随机设计、配对设计、随机区组设计还是其他
设计类型;
第五:判断资料是否符合拟采用的统计分析方法的应用条件,必要时可考虑变量变换。
单因素计数资料分析
计数资料
定义:将观察单位按某种属性或类别分组计数,分组汇总得到各组观察单位数称为计数资料。
特点:计数排列是无序分组,同组各观察单位之间没有量的差别,但各组间有质的不同,各组互不相容。
验(Friedman test)。
(6)若检验结果有统计学意义,则还需进行两两比较(LSD)。
不能用t检验(会导致Ⅰ型错误概率增大)
第五讲
单因素组间比较(二)
统计方法的选择:
第一:影响因素是单因素还是多因素;
第二:判断拟分析的资料属于哪种类型:定量变量、无序分类变量或有序等级变量;
第三:资料是单一样本、两组样本还是多组样本;
拉丁方、交叉、析因、正交、嵌套、裂区设计
处理因素:单因素、双因素、多因素
反应变量:单变量、双变量、多变量
资料类型:计量、计数(无序)、等级(有序)
样本数目:单样本、两样本、多样本
数据信息:完全数据、不完全数据、重复测量数据
前提条件:独立性、方差齐性、正态性
三、统计描述与统计图表
一、统计资料的分类
1、计量资料:测定每个观察单位的某项指标量的大小,所得的资料称为计量资料。其变
2、循证医学中常用的是率的可信区间、RR或OR的可信区间、均数的可信区间、两均数差值的可信区间。
3、相对危险度RR(relative risk, RR)是前瞻性研究中较常用的指标,它是试验组某事件发生率P1与对照组某事件发生率P0之比,用于说明前者是后者的多少倍,常用来表示试验因素与疾病联系的强度及其在病因学上的意义大小。
医学科研的统计设计
3学时
医学科研数据的提取与管理
3学时
统计描述与统计图表
3学时
单因素组间比较
6学时
基本统计分析方法SPSS软件实现
3学时
多因素方差分析
6学时
多因素方差分析SPSS软件实现
3学时
多元线性回归与相关分析
3学时
Logistic回归分析、生存分析
6学时
Logistic回归、生存分析SPSS软件实现
双向无序
特点:两个分类变量皆为无序分类变量
分析目的:两个或多个样本率(或构成比)的比较;
两无序分类变量关联性检验
分析方法:行×列表资料的x2检验;
当不满足x2检验条件时选用Fisher确切概率法
作两无序分类变量关联性检验时还可计算关联系数C
每一个两两比较的检验水准
单向有序
(1)、分组变量有序
特点:分组变量有序(如年龄),指标变量无序(如死因的类型)
三、 统计表
备注不是统计表的必须项目,需要时才用,并用“*”号标出,写在表的外面加以说明
四、统计图
图形
资料性质
分析目的
条图
相互独立(离散)
多组资料某统计指标的比较
百分条图
构成比计数资料
多个事物内部构成比较
圆图
构成比计数资料
描述事物的内部构成
线图
连续型计量资料
表示事物的动态变化趋势
半对数线图
连续型计量资料
等级资料(或有序分类变量)
定义:将观察单位按某个指标量的大小分成等级或某种属性的不同程度分成等级后分组计数,分类汇总各组的观察单位数称为等级资料。
特点:等级是有序分组。同计数资料的区别是:属性的分组有程度的差别,各组按一定顺序排列;与计量资料的区别是:每个观察单位未确切定量,所以又称为半定量资料。
1、样本率与已知总体率比较
三、单因素计量资料的分析
测定每个观察单位的某项指标量的大小
1、样本均数与已知总体均数比较
正态或转化后为正态单样本t检验
非正态Wilcoxon符号秩和检验
2、
3、
完全随机设计统计分析步骤:
(1)单变量分析;
(2)资料类型为计量资料;
(3)完全随机设计的多样本(k>2)均数比较;
(4)该资料是否符合正态分布和方差齐性的条件;
平衡性。
2、总体与样本
总体(population):是根据研究目的确定的同质的研究对象的全体,或性质相同的所有观
察单位某种变量值的集合。
样本(sample):是从总体中随机抽取的部分观察单位,其实测值构成样本。
3、参数与统计量
参数(parameter):描述总体分布的特征数字。
总体均数,总体率,总体相关系数、回归系数
量值是定量的,一般带有度量衡或其它单位。
2、计数资料:将观察单位按某种属性或类别分组计数,分组汇总得到各组观察单位数称
为计数资料。
3、等级资料:将观察单位按某个指标量的大小分成等级或某种属性的不同程度分成等级
后分组计数,分类汇总各组的观察单位数称为等级资料。
二、常用统计指标的特点及其应用场合
指标
特点
分析目的:分组间构成比的比较
分析方法:行×列表资料的x2检验;
当不满足x2检验条件时选用Fisher确切概率法
(2)、指标变量有序
特点:分组变量无序(如疗法),指标变量有序(如疗效按等级分组)
分析目的:分组间等级差别的比较
分析方法:秩和检验、Ridit分析(非参数分析)
双向有序
双向有序属性相同
特点:两分类变量皆为有序分类变量且属性相同(如用两种检测方法对同一批
当RR=1时,可认为试验因素与疾病无关;
当RR≠1时,可认为试验因素与疾病有关;
当RR>1时,可认为试验组发生率大于对照组;
当RR<1时,可认为试验组发生率小于对照组;
当所研究疾病的发病率较低时,即a和c均较小时,OR近似于RR,故在回顾性研究中可用OR估计RR;
由于前瞻性研究中,OR的可信区间与RR的可信区间很相近,且OR的计算更为简便,因此,常用OR可信区间的计算来代替RR的可信区间的计算。
3学时
医学科研设计原则
3学时
病因研究的设计和评价
3学时
诊断试验的设计和评价
3学时
防治研究的设计和评价
3学时
预后研究的设计和评价
3学时
循证医学
3学时
系统评价和Meta分析
3学时
一、医学科研的统计设计
一、
1、同质与变异
同质(homogeneity):指事物的性质、影响条件或背景相同或非常相近。
变异(个体差异,variation):指相同条件下的同类(质)个体之间某一方面发展的不
第五:判断资料是否符合拟采用的统计分析方法的应用条件,必要时可考虑变量变换。
二、p值概念
P值概念——错误拒绝H0的概率。即在H0所规定的总体中作随机抽样,得到绝对值等于或大于上一步计算出的检验统计量的概率。
(1)、若P<α,结论为按所取α检验水准拒绝H0,接受H1,差别有统计学意义;
其统计学依据是,在H0成立的情况下,得到现有统计量的概率P<α,是小概率事件,因为小概率事件不可能在一次抽样中发生,所以拒绝H0。
对研究对象有较高要求、匹配与分组较繁
要求区组内实验单位数与处理组数相等,实验结果中若有数据缺失,统计分析较麻烦。
二、医学科研数据的提取与管理
医学统计工作步骤:统计设计—收集资料—整理资料—分析资料
统计学方法应用条件:
正态性检验
方差齐性检验
多重共线性判断
统计方法的正确选择
统计分析的基本思路
研究目的:
设计类型:配对设计、完全随机、随机区组、
变化事物的动态变化
直方图
频数表资料
表示某连续型变量的频数分布
五、其他常见统计指标
1、可信区间:区间估计即是按预先给予的概率,确定未知参数值的可能范围。此范围称为估计参数的可信区间或称置信区间(confidence interval),预先给定的概率称为可信度或置信水平(confidence level),符号为“1-α”,常取95%或99%,按此确定的可信区间分别称之为95%或99%可信区间。
随即单位组设计多样本均数比较统计分析步骤:
(1)单变量分析;
(2)资料类型为计量资料;
(3)涉及两个分组因素,一个为处理因素,一个为单位组因素;
(4)该资料是否符合正态分布和方差齐性的条件;
(5)若资料符合正态分布和方差齐性,则选用随机区组设计的两因素方差分析;若
不符合正态分布和方差齐性,则考虑变量变换或选用随机区组设计的的秩和检
2、两样本率比较
运用四格表的条件:
当N>40且T>5,运用专用公式,即Pearson Chi-Square;
当N>40且有一个格1<T<5,运用校正公式,即Continuity连续性校正公式;
当T<1或N<40时,需用确切概率计算法,即Fish百度文库r’s Exact Test。
3、配对样本率比较
设计类型:对一组观察对象,同时按照两个二项分类的特征进行交叉分类,分别观察其
应用场合
精确,易受极端值影响
均匀分布的小样本数据或近似正态分布数据
稳定,不受特大或特小值的影响
应用范围广,特别是大样本偏态分布资料
粗糙,不受极端数值的影响
小样本的探索性数据
G
同一资料,几何均数<均数
近似对数正态分布数据,等比级数资料
CV
标准差与均数的比值,无单位
比较不同资料或同类资料均数相差悬殊时变异程度
OR值的解释与RR相同。
四、单因素组间比较(一)
一、统计方法的选择
第一:影响因素是单因素还是多因素;
第二:判断拟分析的资料属于哪种类型:定量变量、无序分类变量或有序等级变量;
第三:资料是单一样本、两组样本还是多组样本;
第四:判断资料所属的设计方式,是完全随机设计、配对设计、随机区组设计还是其他
设计类型;
样品进行测定,检测结果按照等级进行划分)
分析目的1:两种检测方法的一致性一致性检验(或称Kappa检验)
分析目的2:考察两个有序分类变量间是否存在线性变化趋势线性趋势检

分析目的3:配对四格表两种检测方法的差异性检验配对四格表x2检验
双向有序属性不同
3、实验设计基本原则:对照原则、随机化原则、重复的原则、均衡原则
4、常用实验设计方法:
完全随机设计:
优点:简单易用、处理组数和各组样本量不受限制、统计分析方法简单
缺点:非处理因素仅依靠随机化分组在组间平衡,实验误差较高
应用:只用于实验对象同质性较好的研究
配对设计:
优点:严格控制非处理因素对实验结果的影响,组间均衡性高,实验误差小、实验效率
(1)、有1/5以上格子的理论频数小于5;
(2)、一个理论频数小于1;
(3)、总样本例数小于40
当有以上三种情况或之一存在时,均不适宜进行x2检验,有三种处理方法:
(1)、增加样本含量
(2)、根据专业知识,删除理论频数过小的行或列,或将理论频数过小的行
或列与性质相近的行或列合并(不推荐,应慎重)
(3)、Fisher确切概率法(可用SAS软件实现)
(5)若资料符合正态分布和方差齐性,则选用单因素方差分析(0ne-way ANOVA);
若不符合正态分布和方差齐性,则考虑变量变换或选用成组设计多样本秩和检验
(Kruskal-Wallis test)。
(6)若检验结果有统计学意义,则还需进行两两比较(LSD)。不能用t检验(会导致
Ⅰ型错误概率增大)
采用希腊字母表示:μ、π、ρ、β
统计量(statistic):由样本观察值计算出来的反映样本分布特征的指标。
如样本均数,样本率,以及检验统计量
采用拉丁字母表示:、u、t、F、
随样本不同而不同,存在抽样误差
1、统计资料的类型
计量资料(measurement data)定量测量获得的定量结果,如体重、年龄、脉搏
(2)、若P>α,结论为按所取检验水准不拒绝H0,差别没有统计学意义。
不拒绝H0,但不能下“无差别”或“相等”的结论,只能下“根据目前试验结果,尚不能认为有差别”的结论。
P和α本质相同,都为概率,P是根据当前试验计算的概率,α是预先给定的概率,为检验水准,是定义了的小概率上限。因此计算得到的P值要与α进行比较才能给出假设检验的结论。
计数资料(count data)某种属性的定性观测结果,二分类和无序多分类变量,如性别、血
型、民族
等级资料(ordinal data)某种属性的不同程度的半定量观测结果
有序多分类变量,如病情(轻、中、重)、尿蛋白(-、±、+、++、+++)
2、实验研究的基本要素
三要素:1.处理因素;2.受试对象;3.实验效应
相关文档
最新文档