医学统计学总复习_科学学位
《医学统计学》复习重点总结
计量数据比较的统计公式
X 0 t Sx
样本均数与标准值的比较 *配对数据的比较(不做方 差齐性检验 *两样本均数的比较,例数 较小时(做方差齐性检验)
d d t Sd
X1 X 2 t S x1 x2
t检验与可信区间公式小结
X1 X 2 t , SX1X 2
两独立样本均数的t n1 n2 2 检验公式
病变性质
肿瘤
恶性
1.层次不清,结构混乱,难于理解 2.线条过多,不符要求
修改后:
表 10 病变性质 良性肿瘤 恶性肿瘤﹡ 囊肿 瘤样病变 合 计
口腔颌面部不同病变构成情况 例 数 674 558 192 168 1592 构成比(%) 42.34 35.05 12.06 10.55 100.00
﹡包括癌437例,肉瘤101例,果用统计表表达。
统计表类型:
简单表和组合表
统计图: 要求掌握图形选择. 如线图、直条图、直方图、构成图
例: 简单表格式
某地1980年男女HBsAg阳性率的比较 性别 调查例数 男 4234 女 4530 合计 8764 阳性数 303 181 484 阳性率% 7.16 4.00 5.52
第14章基于秩次的统计方法
掌握概念: 1)何为非参数统计? 2) 什么样数据适合采用秩和检验,以及秩和 检验的优缺点。 3)秩和检验有那几种检验方法?
注意:结果(y)数据为等级时,两组比较采 用秩和检验效率高于χ2检验,应首选秩和检验.
表 某病两组疗效的比较 比较组 无效 有效 显效 痊愈 合计 试验组 18( 31.6) 18 (31.6) 15(26.3) 6 (10.5) 57 对照组 21 (46.7) 15( 33.3) 8(17.8) 1( 2.2) 45 Total 39 33 23 7 102
《医学统计学》总复习
§1 统计分析
一,定量资料的统计分析
定量资料的统计描述
反映集中趋势的指标: X 反映集中趋势的指标: 反映离散趋势的指标: 反映离散趋势的指标:
定量资料的统计推断
G
S
M
S2 Q CV
R
参数估计 假设检验
参数估计
点估计:用样本均数直接作为总体 点估计:
三,等级资料的统计分析(秩和检验) 等级资料的统计分析(秩和检验)
非参数检验的概念 非参数检验的优缺点 常用的秩和检验方法
(1) Wilcoxon符号秩和检验 配对设计 符号秩和检验(配对设计 符号秩和检验 配对设计) (2) Wilcoxon 两样本比较法 成组设计两样本 两样本比较法(成组设计两样本 成组设计两样本) (3) Kruskal-Wallis 法或 检验 (成组设计多样本 法或H 成组设计多样本) 成组设计多样本 (4) Friedman 法(随机区组设计 随机区组设计) 随机区组设计 (5) Nemenyi 法(成组设计多样本两两比较) 成组设计多样本两两比较) 成组设计多样本两两比较 (6) 随机区组设计两两比较的秩和检验
u 检验应用类型: 检验应用类型: 1)样本均数与总体均数的比较 2)完全随机设计的两样本均数的比较 ANOVA 检验应用类型: 检验应用类型: 1)完全随机设计的方差分析 2)随机区组设计的方差分析 3)交叉设计的方差分析 4)析因设计的方差分析 5)重复测量资料的方差分析
二,计数资料的统计分析
t 检验 t'检验 检验 ′
t
u 检验 ANOVA
正态分布的经验判断方法
若 若 , S ≥ 3X可认为资料呈偏态分布
S ≥ ,有理由怀疑资料呈偏态分布 X
2023年医学统计学总结重点笔记复习资料
第一章2选1总体:总体(population)是根据研究目的拟定的同质观测单位(研究对象)的全体,事实上是某一变量值的集合。
可分为有限总体和无限总体。
总体中的所有单位都可以标记者为有限总体,反之为无限总体。
总体population根据研究目的而拟定的同质观测单位的全体。
样本:从总体中随机抽取部分观测单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
样本sample从总体中随机抽得的部分观测单位,其实测值的集合。
3选1小概率事件:我们把概率很接近于0(即在大量反复实验中出现的频率非常低)的事件称为小概率事件。
P值:P 值即概率,反映某一事件发生的也许性大小。
记录学根据显著性检查方法所得到的P 值反映结果真实限度,一般以P ≤ 0.05 认为有记录学意义, P ≤0.01 认为有高度记录学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
P值是:1) 一种概率,一种在原假设为真的前提下出现观测样本以及更极端情况的概率。
2) 拒绝原假设的最小显著性水平。
3) 观测到的(实例的) 显著性水平。
4) 表达对原假设的支持限度,是用于拟定是否应当拒绝原假设的另一种方法。
小概率原理:一个事件假如发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不也许性原理。
记录学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1)(1)计量资料:对每个观测单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。
计量资料measurement data定量资料quantitative data数值变量资料numerical variable为观测每个观测单位某项指标的大小,而获得的资料。
《医学统计学》复习资料
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
2024年度-医学统计学重点笔记一复习必备
即标准正态分布,当样本量足够大时(n>30),t分布近似u分布。
14
总体均数置信区间估计
置信区间的概念
按一定的置信水平(1-α),根据样 本统计量估计总体参数所在的范围。
置信区间的计算
根据样本均数、标准差和样本量计算 置信区间。常用的置信水平为95%和
99%。
置信区间的意义
表示总体参数有100(1-α)%的可能性 落在此区间内。
适用条件
01
R×C列联表资料,即多行多列列联表,用于分析两个多分类变
量之间的关联。
检验统计量
02
卡方值,计算公式为χ2=∑(O-E)2/E,其中O为观察频数,E为
理论频数。
拒绝域
03
根据自由度和显著性水平确定拒绝域,自由度为(R-1)(C-1)。
29
配对设计四格表资料卡方检验
01
适用条件
配对设计四格表资料,即两个相 关样本的二分类变量之间的关联 分析。
26
06
卡方检验
27
四格表资料卡方检验
适用条件
四格表资料,即2×2列联表,用于分析两个二分类变量之间的关联。
检验统计量
卡方值,计算公式为χ2=(ad-bc)2N/(a+b)(c+d)(a+c)(b+d),其 中N为样本总量。
拒绝域
根据自由度和显著性水平确定拒绝域,自由度为1。
28
R×C列联表资料卡方检验
正态分布在医学中的应用 许多医学指标如身高、体重、血压等服从或近似服从正态 分布;在估计医学参考值范围、质量控制等方面有广泛应 用。
正态性检验方法 图形法(直方图、P-P图、Q-Q图)、计算法(偏度系数 和峰度系数检验、Shapiro-Wilk检验、KolmogorovSmirnov检验等)。
医学统计学-总复习
2021/9/24
47
四格表资料卡方
根据以下三条件选择具体方法: • 若n>40,T>5时,直接计算2值;
• 若n > 40 ,此时有 1< T 5时,需计算
Yates连续性校正2值;
• T <1,或n≤40或P≈α时,应改用Fisher
确切概率法直接计算概率。
2021/9/24
48
配对四格表资料卡方
2021/9/24
51
第十二章 基于秩的非参数检验
2021etric test)
信区间要么包含了总体均数,要么不包 动范围。“正常人”指排除了影
义
含。但可以说:当=0.05 时,95%CI 估 响所研究指标的疾病和有关因
计正确的概率为 0.95,估计错误的概率小 素的同质人群。“大多数”是指
于或等于 0.05,即有 95%的可能性包含 90%,95%,99%等。
了总体均数。
总体均数的波动范围
• 正态分布概念:
是一种重要的连续型分布,若以计量值为横轴绘 制一条频数分布曲线,这条曲线呈现对称的、中间 高、两侧逐渐下降的形状,其位置与均数有关,形 状与标准差有关。
记作 X N(, 2) ,μ为 X 的总体均数, 2 为总体方差。
医学中常见的正态分布:
正态分布的参数
• 变量服从正态分布。记做 X ~ N (, 2 )
• 总体均数(位置参数) :描述正态分布的集中趋
势的位置
• 总体标准差(变异度参数) :描述正态分布离散 趋势, 越小,分布越集中,曲线形状越“瘦 高”;反之越“矮胖”。
• 正态曲线的形状由
两个参数决定
正态分布曲线的对称性质
• 设X服从 N(, 2) ,则正态曲线在X =处对称,正态曲线(-∞, )处的曲线下 面积为0.5,
(完整版)医学统计学复习要点
(完整版)医学统计学复习要点第⼀章绪论1、数据/资料的分类:①、计量资料,⼜称定量资料或者数值变量;为观测每个观察单位某项治疗的⼤⼩⽽获得的资料。
②、计数资料,⼜称定性资料或者⽆序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后⽽得到的资料。
③、等级资料,⼜称半定量资料或者有序分类变量。
为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后⽽得到的资料。
2、统计学常⽤基本概念:①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population)指的是根据研究⽬的⽽确定的同质观察单位的全体。
③、医学统计学(medical statistics):⽤统计学的原理和⽅法处理医学资料中的同质性和变异性的科学和艺术,通过⼀定数量的观察、对⽐、分析,揭⽰那些困惑费解的医学问题背后的规律性。
④、样本(sample):指的是从总体中随机抽取的部分观察单位。
⑤、变量(variable):对观察单位某项特征进⾏测量或者观察,这种特征称为变量。
⑥、频率(frequency):指的是样本的实际发⽣率。
⑦、概率(probability):指的是随机事件发⽣的可能性⼤⼩。
⽤⼤写的P表⽰。
3、统计⼯作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个⽅⾯。
第⼆章计量资料的统计描述1. 频数表的编制⽅法,频数分布的类型及频数表的⽤途①、求极差(range):也称全距,即最⼤值和最⼩值之差,记作R;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统⼀定为L≤X<U,最后⼀组包括下限。
医学统计学总复习
医学统计学总复习1、几种集中趋势指标的适用条件均数—正态分布或近似正态分布;几何均数—呈正偏态分布,但数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料;中位数—偏态分布资料以及频数分布的一端或两端无确切数据资料。
几种离散程度指标的适用条件:极差(全距)—常用于描述单峰对称分布小样本资料的变异程度或用于初步了解资料。
四分位数间距—常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
方差和标准差—正态分布和近似正态分布。
变异系数—比较计量单位不同以及均数相差悬殊的几组资料。
21.标准正态分布(u分布)与t分布的异同:相同点;集中位置都是0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布是一簇分布曲线,t分布的曲线形态是随自由度的变化而变化,标准正态分布的曲线的形态不变,是固定不变的,因为它的形状参数为1。
3.为什么不可以说“总体均数有95%的概率落在这个区间里”?样调查的成本会更高5.t检验的应用条件为:▪①在单样本检验中,总体标准差未知且样本含量较小(n<50)时,要求样本来自正态分布总体;▪②成组检验要求两组资料相应的总体分别服从正态分布且方差齐。
当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。
两小样本均数比较时,若两总体方差不相等,还可使用t’检验。
6.假设检验中的注意事项▪要保证组间的可比性▪要根据研究目的、设计类型和资料类型选用适当的检验方法▪正确理解假设检验中概率P值的含义▪结论不能绝对化▪单、双侧检验应事先确定7.方差分析的基本思想把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
8.方差分析的应用条件▪ 1. 各样本是相互独立的随机样本,均服从正态分布▪ 2. 各样本的总体方差相等,即方差齐性独立、正态、方差齐性如果方差不齐时,可采用F’检验或秩和检验。
《医学统计学》复习重点总结-PPT文档资料
X
、 S、 CV ,
表达: x s
几何均数(G)
2) 描述计量数据变量值(x)分布范围
正态分布法
X 1 .96 S (正态或近似正态分布资料)
百分位数法 P2.5%-P97.5%
(偏态分布资料)
作用:①估计变量值分布范围 ②评价个体的指标正常与否
2、计数资料统计描述指标
相对数指标及含义: 率指标:说明事物发生的频率和强度。 构成比:说明各类别所占的构成比。说明事物 的组成和分布情况。 相对比:两事件的相对关系(增长速度)。 掌握: ①相对数指标意义及计算 ②应用时的注意问题
54
男
B
16.80
37.6
无效
实验与观察研究要求掌握概念
1.实验与观察研究二者的主要区别。 2.实验设计的三原则及意义和作用。 3.实验设计的三要素是什么? 4.观察研究中有那几种概率抽样方法? 5.观察研究有几种研究类型?主要回答那些 问题? 6.何为随机化分组与随机化抽样?
第四、六章 数据特征与统计描述
定性数据的频数表
两组疗效的比较 比较组 (x) 实验组 对照组 痊愈 20 2 疗效(y) 显效 25 5 有效 10 15 无效 2 30 合计 57 52
1.计量资料统计描述指标
1) 描述计量数据(X)几个特征值:
平均水平、变异程度指标 正态或近似正态分 布资料
描述指标:
偏态分布资料
中位数(M) 、四 分位间距(QR) 表达 :M (QR) 等比关系资料
相对数指标
不同职业各年龄(岁)组冠心病发 病率比较
年 龄 (岁 ) 50 病人数 % 9 25.7 4 23.5
职业
40病人数 % 干部 21 60 工人 12 70
医学统计学复习资料
医学统计复习资料一、名词解释[1].总体:根据研究目得确定得同质观察单位得全体。
就是同质所有观察单位得某种变量值得集合。
总体可分为有限总体与无限总体。
总体中得所有单位都能够标识者为有限总体,反之为无限总体。
[2].样本:从总体中随机抽取部分观察单位,其实测值得集合。
[3].计量资料:又称定量资料或数值变量资料。
为观测每个观察单位得某项指标得大小,而获得得资料。
其变量值就是定量得,表现为数值大小,一般有度量衡单位。
根据其观测值取值就是否连续,又可分为连续型或离散型两类。
[4].计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,就是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到得资料。
其变量值就是定性得,表现为互不相容得性或类别。
分两种情形:(1)二分类:两类间相互对立,互不相容。
(2)多分类:各类间互不相容。
[5].等级资料:又称半定量资料或有序分类变量资料,就是将观察单位按某种属性得不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到得资料。
其变量值具有半定量性质,表现为等级大小或属性程度。
[6].随机误差(偶然误差):就是一类不恒定得、随机变化得误差,由多种尚无法控制得因素引起,观察值不按方向性与系统性变化,在大量重复测量中,它可呈现或大或小,或正或负得规律性变化。
[7].概率:概率(probability)又称几率,就是度量某一随机事件A发生可能性大小得一个数值,记为P(A),P(A)越大,说明A事件发生得可能性越大。
0﹤P(A)﹤1。
频率:在相同得条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现得频率(freqency)。
当试验重复很多次时P(A)= m/n。
[8].平均数:描述一组变量值得集中位置或水平。
常用得平均数有算术平均数、几何平均数与中位数。
[9].算术均数(arithmetic mean)描述一组数据在数量上得平均水平。
医学统计学考试复习资料
医学统计学考试复习资料一、统计学(statistics) ---是搜集资料、整理资料、分析资料,并且据此作出决策的一门学科。
医学统计学(medical statistics) --- 是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理、分析,并且作出决策。
从而掌握事物内在客观规律的一门学科。
二、医学统计工作可分为四个步骤:1、统计设计(第一步也是关键一步);2、搜集资料(资料来源:统计报表,医疗卫生工作记录,专题调查或实验研究);3、整理资料(审核,分组,汇总);4、分析资料(统计描述,统计推断)。
三、频数分布图的步骤,用途:步骤:1、计算全距;2、确定组距;3、划分组段;4、统计频数;5、频率与累计频率。
用途:①反映频数分布的类型。
②描述频数分布的特征。
③便于发现极端值:如极大值、或极小值。
④便于进一步进行统计分析。
四、集中趋势与离散趋势的概念、特点及应用条件:集中趋势:反映一组数据的平均水平的指标。
(1)算术均数:应用条件:①正态分布的数据;②对称分布的数据。
(2)几何均数:适用条件:对于变量值呈倍数关系或呈对数正态分布。
(3)中位数:应用条件:①偏态分布②分布不明③有极端值④有开口的资料。
特点:不受极端值影响。
(4)百分位数:应用条件:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
(5)众数:一组观察值中出现次数最多的那个数值,可以没有也可以不止一个。
离散趋势:反映一组数据离散或分散的水平的指标。
(1)极差:全距=最大值-最小值。
优点:计算简单方便,应用广范,容易理解。
缺点:只反映两端数据最大最小值的差别,易受极端值的影响,不能反映组内其他变量离散情况。
(2)四分位数间距:Q=P75-P25。
优点:不受极端值影响,比极差R 稳定。
缺点:计算繁琐、不易理解、只反映中间50%的数据的两端的差值(3)方差的特点:①充分反映了每一个数据与平均数的差别;② S2指标很稳定;③S2应用广泛;④S2计算比较麻烦;⑤S2单位是原单位的平方,在实际应用时不太方便。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(4)分析资料(data analysis)
统计分析
统计描述 参数估计
假设检验 点估计 区间估计
统计推断
统计推断
用样本的信息来推断总体的特征叫统计
推断
统计分析的主要目的是由样本推断总体, 故统计学的主体是统计推断
1)正态近似法:当n足够大,且np及n(1-P) 均大
于5时,的抽样分布近似正态分布,(1-)总 体率的双侧可信区间近似为: ( p Z / 2 S p , p Z / 2 S p ) 2)查表法:对于小样本资料(n≤50),尤其是p很接近 0或100%时,直接查附表C3(百分率的置信区间),即 可得到其百分率的置信区间。
统计描述
1、描述偏态分布集中趋势(尿氟均值)
的指标:中位数
2、比较几组量纲不同的资料的离散程度
的指标:变异系数
1、统计描述——统计表与统计图
1)统计表
简单表 组合表 条图 圆图 线图 直方图 散点图
…….
2)统计图
*类型、适用条件*
2、区间估计
正常值(参考值)范围 总体均数的可(置)信区间 正态分布(normal distribution) 可信区间(confidence interval, CI)
医学科研中的 统计学方法
宋曼殳 首都医科大学 公共卫生学院 流行病与卫生时间:
2015.12.11,上午10:00-11:30
方式:半开卷笔试
各自带计算器,不可考场借用 带1页A4纸 记参考公式
关于考试
总成绩100分:理论(80分)+上机(20分) 题型与分值: 1)填空题(20分) 2)选择题(30分) 3)简答与计算题(30分)
有4个模块:
1、统计描述 2、区间估计 3、假设检验 4、相关与一致性分析
1、统计描述
率(rate)
相对数
比(ratio)
百分比(构成比) 相对比 动态数列的定基比、环比
2、区间估计(interval estimation)
总体率的可信区间(置信区间) (confidence interval, CI)
线性回归
直线相关与回归分析
应用条件: 研究两个定量变量间的相互关系或 依存关系
y 。 。 。 。。 。 。
。
。。
━━┻━━━━┻━━━━┻━━━> X 散点图
线性相关
是用相关系数r来表示两个变量X,Y间的 直线关系 相关系数r没有单位,在-1~+1范围内波动 其绝对值愈接近1,两个变量间的直线相关 愈密切,愈接近0,线性相关愈不密切
方差分析(ANOVA)
亦称F 检验,应用条件:
1)单因素或多因素定量效应指标 2)要求各组正态分布 3)要求方差齐性
如不满足条件,需采用变换或非参数方 法作统计分析
(1) 完全随机设计的方差分析
三种“变异”之间的关系
离均差平方和分解:
SS总 = SS 组间 + SS 组内 ,
且
ν总 =ν组间 +ν组内
非参数检验
非参数方法应用的条件:
①未加精确测量的资料(包括等级资料) 如 “>50mg”、“<0.01mg”; ②偏态分布且无法转化为正态分布的资料; ③分布不清的资料。
需采用变换或非参数方法作统计分析
非参数检验的类型
(1) 配对设计的wilcoxon符号秩和检验 (2) 两样本的wilcoxon秩和检验 (3) 多个样本的Kruskal-Wallis秩和检验
点估计 统 计 推 断
参数估计
区间估计 参数
假设检验
z 检验 t 检验 F 检验 直线相关与回归 卡方检验
非参
秩和检验
等级相关
2.资料类型
(1)定量资料
计量资料(measurement data):
对每个观察单位用定量方法测定某项指标
的数值大小所得的资料
2.资料类型
(2)定性资料
计数资料(enumeration data)按性质 或类别进行分组,然后再清点各组数目所 得的资料 等级资料(ranked data)将观察单位按 某项指标的等级顺序分组,再清点各组 观察单位的个数所得的资料
计算题要求:1)统计分析方法
2)给出整理的统计结果表 3)结果解释及结论
一、概述 1. 科研统计工作的步骤
( 1 )研究设计 ( research design): 根据研究的目的,从统计学的角度对各 步提前做出的周密的计划和安排 调查设计 实验设计 科研设计 (临床设计、 新药设计)
一、概述 1. 科研统计工作的步骤
2检验的适用条件
二、配对
2
检验
2 配对 检验专用公式为:
(b c) bc
2
2
若b+c<40,应该对上式进行校正,校正公式为:
2
( b c 1) 2 bc
例:某医生用复合氨基酸胶囊治疗肝硬化 病人,观察其对改善实验室指标的效果, 见表5。试对两组的改善及恢复正常率进 行比较。 表5 复合氨基酸胶囊对改善实验室指标的效果 分组 改善 未改善 合计 试验组 23 2 25 对照组 11 6 17 合计 34 8 42
t 检验的类型
主要用于下列三种情况:
(1) 样本均数与总体均数比较;
(2) 配对数值变量资料的比较;
(3) 两样本均数的比较。
3、假设检验(hypothesis test)
完全随机设计(completely random design) 随机区组设计(randomized block design)
解:
(1)建立检验假设和确定检验水准 H0: π1=π2 ,即两总体恢复正常率相等;
H1: π1≠π2 ,即两总体恢复正常率不等;
α=0.05 。 (2)计算统计量χ2 值 各位置上的理论值见表5,因为有理论数小于5,样本 总例数大于40,所以使用四格表卡方检验的校正公式
n 2 ( ad bc ) n 2 2 (a b )( c d )( a c )( b d ) 42 2 ( 23 6 11 2 ) 42 2 34 8 25 17 3.2790
组内变异 SS 组内: 随机误差 组间变异 SS 组间:处理因素 + 随机误差
(2) 随机区组设计的方差分析
变异分解
(1) 总变异: 所有观察值之间的变异
(2) 处理间变异:处理因素+随机误差 (3) 区组间变异:区组因素+随机误差 (4) 误差变异: 随机误差
SS总 SS处理 SS区组 SS误差
3、假设检验 (hypothesis test)
四格表资料 基本公式 专用公式 校正公式 确切概率法
差异性 一致性 基本公式 专用公式 确切概率法
计数资料
检验
2
Chi-square test
配对四格表 行×列表
卡方检验方法
卡方检验在不同的条件下有不同的计算 方法,常用的有 Pearson 卡方、校正的 卡方和Fisher精确概率 当四格表中 n≥40 ,但有 1≤Tij < 5 时, 应选用校正卡方 当四格表中出现n<40或Tij<1两种情形 之一时,需用Fisher的确切概率法
4、相关与一致性分析* (correlation and consistency analysis)
相关: 可采用spearman秩相关
(适用于双项有序且属性不同的列联表资料)
一致性分析: 可采用kappa一致性检验
(适用于双项有序且属性相同的列联表资料)
四、非参数检验的概念
参数检验(Parametric test) 基于总体为某一特定分布的前提下,对 参数进行的检验。 如:t检验、F检验等。 非参数检验(Nonparametric test) 不依赖于总体分布类型,也不对总体参 数进行统计推断的假设检验。 如:秩和检验、Ridit等。
总 处理 区组 误差
4、线性相关与回归
(linear correlation and regression)
线性相关
相关系数r (correlation coefficient) r的假设检验
回归方程 y a bX (regression equation) 其中a为截距(intercept); b为回归系数(coefficient of regression)
(3)确定P值,作出统计推断 自由度为:ν=1,查χ2 界值表得,P >0.05 按α=0.05的水准不拒绝H0 ,尚不能认为用复 合氨基酸胶囊对肝硬化病人实验室指标的改 善和恢复方面是有效的。
3、假设检验 (hypothesis test)
秩和检验 (rank sum test)
等级资料
Ridit 分析*: 是relative to an identified distribution 中3个字头 和unit的词尾缩写而成。
二、定量资料的基本统计方法
有4个模块:
统计描述 区间估计 假设检验
相关与回归
1、统计描述——统计指标
描述集中趋势指标:
算术均数(简称均数)( X ) 几何均数(G) 中位数(M)
描述离散程度指标: