医学统计学总结经典(精品)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
---------------------------------------------------------------最新资料推荐------------------------------------------------------
医学统计学总结经典(精品)
Chapter 基本概念显著性检验(test of significance):计算 P 值医学统计工作的内容:
1、实验设计:
最关键最重要 2、收集资料:
最基础原始资料:
实验数据现场调查资料医疗卫生工作记录报表报告卡质
量控制精度和偏倚 3、整理资料(1)资料的逻辑检查(坏数)(2)
一致性检查(3)原始数据加工:
频数分布表 4、分析资料:
统计描述(表、图、离散趋势、集中趋势)和统计推断统计
描述类型的选择:
集中趋势离散趋势对称、正态, x SSS,,对数正态 G S lgX 偏态及其他
M Q, R 单位不同或均数差别大 CV 医学统计的
资料类型:
计量资料、计数资料、等级分组资料医学统计学的对象:
有变异的事物总体和样本:
总体(population)的特性:
同质性、大量性、差异性。
抽样的要求:
1 / 14
代表性、随机性、可靠性、可比性。
样本的三性:
代表性、随机性、可靠性。
可靠性(reliability):
实验的结果要具有可重复性。
即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。
两样本间具有:
可比性。
误差的类别:
1、系统误差(system error):
在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。
必须克服。
2、随机测量误差(random measurement error):
在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。
3、抽样误差(sampling error):
由于抽样造成的的样本统计量与总体参数之间的差别。
不可避免。
样本含量越大,抽样误差越小。
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 如均数的抽样误差:
|-。
概率(probability):
P(A)小概率事件:
P0.05 (有统计学意义)或 P0.01(有高度统计学意义)。
Chapter 集中趋势的统计描述手工整理资料频数表(frequency table)的步骤:
1、求极差(全距)
2、确定组数、组距参考组距=全距 / 组数
3、确定组段
4、手工编制划记表直方图(histogram):抽样总体样本参数统计量推断高度:
各组的频数纵轴宽度:
组距横轴表示组限均数(average):
适用:
对称分布或偏度不大的资料,尤其适合正态分布。
1、算术均数(mean ):
、加权均数:
、几何均数:
,中位数(median):观察值按照从小到大排列时,居中心位置的数值。
适用于 1、分布明显成偏态时, 2、频数分布的一端或两端无确切数值时。
3 / 14
不便于统计计算。
iffn5 . 0() M:
中位数; LM:
M 所在组的上限; f L:
M 所在组之前积累的频数; fM:
M 所在组的频数; i:
组距。
百分位数(percentile):
Px。
在一组中找到这样一个数值 P,全部观察值的 x%小于 P。
P75、 P25描述资料离散程度。
i)(众数:
一组观察值中,出现频率最高的那个观察值。
若为分组资料,则为频率最高组的组中值。
适用于大样本,但粗糙。
Chapter 离散程度的统计描述离散的表述指标:
1、按间距计算:
极差、四分位数间距 2、按平均差距:
离均差平方和、方差、标准差、变异系数极差(range, R):即全距。
粗略。
适用于任何分布。
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 四分位数间距(quartile, Q):
一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的 25%。
去掉两端含有极端数值的25%,取中间的 50%的观察值的数据范围即为~。
越大则数据变异越大。
适用于偏态分布。
Q=P75 - P25 离均差平方和(sum of square of deviation):
-XSS222)()(方差(variance):样本方差1-nX-XSS)(总体方差NX-)(标准差(standard deviations):
适用于近似正态分布。
p.s.1、可用于合并资料的直接计算 2、与均数结合可以完整概括一个正态分布。
变异系数(CV):
用于均属相差交大或单位不同的几组数据观察值的比较。
正态分布(normal distribution):
1、正偏态分布:
高峰向左,长尾向右负偏态分布:
高峰向右,长尾向左。
2、和是正态分布总体的两个参数,对应样本统计量中的 S
5 / 14
和 X。
实际应用中和通常未知,可以将 S 和 X 作为总体参数的估计量使用。
注意对比:
1-nX-)( N-)(、是位置参数,是变异参数。
描述方法:
N(, 2) 3、曲线下面积的意义:
X1~X2出现的概率。
68.3% 1. 96 (单侧 1. 645) 95% 2. 58(单侧 2. 33)99% 标准正态分布(standard~):
是 =0, =1 的正态分布。
对于任何参数为、的正态分布,都可以通过变量变换转化成标准正态分布:
-。
医学参考值范围(reference value range)的制定方法:
1、选择足够数量的正常人作为参照样本
2、对选定的参照样本进行准确的测定
3、决定取单侧范围还是双侧范围值
4、选择适当的百分范围
5、估计参考值范围的界限 Chapter 抽样误差与可信区间中心极限定理:
在样本含量很大的情况下(n50),无论样本测量量(X)服从什么分布,样本均数X 的抽样分布都近似服从以为均数的正态分
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 布 N(, 2/n)标准误(standard error):
样本均数X 之间变异的标准差。
实际工作中总体标准差未知,,用样本的标准差 S 代替:
标准差与标准误的区别:
标准差标准误含义描述观察值的变异程度的大小的指标描述样本均数的抽样误差大小的指标公式1-nX-)(()意义标准差较小,表示观察值围绕均数波动较小,说明样本均数代表性好小,表明样本均数围绕总体均数的波动较小,说明样本均数可靠性好应用1、表示观察值变异程度2、结合样本均数描述正态分布资料特征,确定医学参考值范围 3、计算标准误 4、计算 CV 1、估计样本均数抽样可靠程度 2、估计总体均数的可信区间 3、进行假设检验 n 趋于稳定()逐渐减小标准误(公式)的意义:
1、与标准差的联系:
在样本含量一定的情况下,标准误与标准差成正比。
(1)当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用 X 估计的可靠性较好(2)当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与总体均属可能相差较大,用 X 估计的可靠性较差。
7 / 14
2、与样本含量的关系:
与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。
3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。
参数估计(parameter estimation):
指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。
常用方法有点估计、区间估计。
点估计(point ~):
使用单一数值直接作为总体参数的估计值。
适用于各种资料。
区间估计(interval ~):
按照预先给定的概率计算出一个区间,使它能够包含总体参数。
给定的概率(1- )称为可信度。
计算得到的区间称为可信区间(confidence interval, CI)可信区间通常包括两个数值界定的可信限(confidence limit),分别为上限、下限。
总体均数估计的 95%可信区间表示:
该区间有95%的概率包含总体均数。
注意不可以说总体均数有 95%的概率落在这个区间里。
可信区间估计效果的比较:
---------------------------------------------------------------最新资料推荐------------------------------------------------------
9 / 14
1、(1- ) 越接近 1 越好, 概率
2、 区间宽度越窄越好, 精确度 但两者是矛盾的。
一般选择(1- ) =95%。
t 分布(t distribution ):
是以 0 为中心的对称分
时, t
分布的极限分布就是标准正态布; 当分布。
在正态分布的总体中进行抽样,n/S-
服从自由度的 t 分布。
t 的大小与 、 自由度有关。
可信区间的计算:
( ,)若 n50, 则 t 分布接近标准正态分布, 则简化 ( ,)
若 已知, 则可简化为 ( ,)
,
假设检验 假设检验(hypothesis test ): 目的:
比较总体参数有无差别 基本思想:
首先对所需比较的总体提出一个无差别的假设, 然后通过样本数据推断是否拒绝这一假设。
基本方法:
反证法和小概率事件。
基本步骤:
1、建立假设和确定检验水准无效假设(null hypothesis): H0:
=0(或 d=0),总体均数无差别。
备择假设(alternative ~):
H0:
0(或 d0),总体均数有差别假设有单侧和双侧两种。
应用单侧检验一定要有过硬的专业知识。
一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;然而反之不亦然。
检验水准亦称显著性水准(significance level),用表示,是预先设定的拒绝域的概率值。
一般取0. 05。
2、选择检验方法和计算检验统计量 t 来自正态分布(或近似)的小样本(n50)u 1、无论何种分布的大样本(n50 时) 2、已知的正态分布小样本 F 方差分析 1、独立的,水平 k3 2、均来自于正态分布的总体
3、方差齐推断 2 个或 2 个以上总体率、构成比之间的差别非参 1、总体分布偏态或未知 2、个别数据偏大或某段不确定 3、等级资料 3、确定 P 值、做出统计推断结论 P 值的意义:
假设检验下结论的主要依据,指在原假设成立的条件下,观察到的样本差别是由机遇所致的概率。
结论:
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 1、 p , 样本数据差异显著,有统计学意义,拒绝 H0,接受 H1 2、 P ,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝 H0(不等于接受 H0)。
单样本的 t 检验:
条件:
, X , S, n 1、 H0:
=0 , =0. 05,双侧检验 2、 t=n/S-,、配对样本 t 检验:
条件:
n,指标 1、指标 2(d, d, d2) 1、 H0:
d=0, =0. 05 2、3、成组设计实验的两样本均数比较条件:
n1, n2, X 1, X 2, S1, S2 1、 H0:
1=2 , 2、、,58.
检验:
条件:
表格略 1、 H0:
各组总体均数相同, H1:
各组总体均数不全相同 2、,vTR=k-1, vE=n-k 3、 F 符合自由度为(k-1, n-k)的 F 分布。
F 值接近 1,则可认为均值只来源于随机波动。
11 / 14
若 F1,且 FF,(k-1,n-k),则 P , 。
假设检验中的两类错误:
1、第一类错误:
当 H0为真时,拒绝 H0接受 H1。
又称假阳性错误(阳性指两者总体参数有差异)。
检验水准是预先规定的犯第一类错误的概率的最大值。
2、第二类错误:
当 H0为假时,不拒绝 H0。
又称假阴性错误。
概率大小用表示,只取单侧,一般未知。
可证,越大越小,越小越越大。
若要同时减少第一类错误和第二类错误,唯一方法是增大样本含量。
简单四格表的检验:
有效无效合计药物 1 a ba+b=n1药物 2 c dc+d=n0合计a+c=m1 b+d=m0 N 1、 H0:
, =0. 05 2、当 n40,且所有 T5 时,四格表专用公式 ))()(c)((a2n2dbcadb)(当 n40,但有1T5 时,使用四格表校正公式)(当 n40,或有 T1 时,使用 Fisher 确切概率公式 !!n!d!ca)(b!)(a!)c (!)(a2bdcdb!!、2105. 0,,2101. 0,
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 配对四格表检验:
对照组病例组合计有暴露史无暴露史有暴露史 a ba+b=n1无暴露史 c dc+d=n0合计 a+c=m1 b+d=m0 N 1、 H0:
, =0. 05 2、,当 b+c40 时,cbc-)(当 b+c40 时,-)(、2105. 0,,2101. 0,行*列资料的检验:
有效无效合计药物 1ab n1药物 2cd n2药物 3ef n3合计m1m2 N1、 H0:
各组有效率相同, H1:
各组有效率不全相同 2、)(,(行数-1)(列数-1) 3、, Chapter 相对数及其应用相对数(relative number):
是两个有关的据对数之比,也可以是两个有关的统计指标之比。
常用的有:
率、比值比、构成比。
率(rate):
表示在一定的范围内某现象的发生数与可能发生的总数之比。
构成比(constitute ratio):
表示某事物内部组成部分在总体中的比重。
相对比(relative ratio):
A、 B 两有关联的指标之比,用以描述两者的对比水平。
13 / 14
如 RR。