医学统计学期末复习总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学期末复习总结
名词解释
1.参数Patameter:是指总体的统计指标,如总体均数、标准差,,采用希腊字母分别记为μ、σ。是固定的常数。多数情况下,总体参数是不易知道的,但可以通过随机抽样抽取具有代表性的样本,用算得的样本统计量估计未知的总体参数。
2.统计量statistic:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为X、S。样本统计量是在总体参数附近波动的随机变量,可用来估计总体参数。
3.系统误差systematic error:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是克制的或可能掌握的。(受确定因素影响,大小变化有方向性)4 随机误差random error:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。(影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析)
5 I 型错误type I error:拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概
率大小用α来表示。
(1-a)即可信度:重复抽样时,样本区间包含总体参数(m)的百分数。
6 II 型错误type II error:“接受”了实际上不成立的H0,这类“取伪”的错误称为II 型错误,
其概率大小用β来表示。
(1-β)即把握度(或检验效能):两总体确有差别,被检出有差别的能力。
7 P 值P-value:在H0 成立的前提下,用样本数据获得的样本统计量,及比样本统计量总计更极端的曲线下的面积。
8 置信区间confidence bound / confidence interval, CI:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。
9 多重共线性Multicollinearity:是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
10 哑变量dummy variable:用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0 或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。如果是多分类指标,假定有g 类,则用g-1 个取值为0,1 或-1 的变量,称为哑变量。
11 偏相关系数partial correletion coefficient:表示在一组变量中,任一两个变量在其它变量固定不变时,他们之间相关的密切程度和方向。或者说,扣除其它变量对它们的影响后,两个变量之间的线性相关情况。
12偏回归系数(partial regression coefficient):在多元回归分析中,随机应变量对各
个自变量的回归系数,表示各自变量对随机变量的影响程度。
13标准化回归系数:将回归方程进行标准化,其回归系数即为标准化回归系数,可以用来比较各个自变量X i对Y的影响程度,通常在有统计学意义的前提下,标准化回归系数的绝对值越大,说明相应自变量对Y的作用越大。
14 决定系数coefficient of determination:回归平方与总平方和之比,0≤R2≤1,说明自变量X 能够解释Y 变化的百分比,其数值反映了回归贡献的相对程度,其值越接近1,说明模型对数据的拟合程度越好。
15相关系数(coefficient of correlation):又称Pearson积差相关系数,用来说明具有
直线关系的两变量间相关的密切程度与相关方向。用r表示样本相关系数,用ρ表示其总体相关系数。
16复相关系数(multiple c orrelation coefficient):可用来度量应变量Y与多个自变量
间的线性相关程度,亦即观察值Y与估计值Y hat之间的相关程度。
17 随机对照试验Randomized Controlled Trial,RCT:将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。在研究对象数量足够的情况下,这种方法可以确保已知和未知的混杂因素对各组的影响相同。特征为:随机分组、设置对照、施加干预、具有前瞻性、论证强度为最强。
18 接受者工作特征曲线receiver operator characteristic,ROC 曲线:以不同截断点的(1- 特异度)为横轴,灵敏度为纵轴,作的真阳性率与假阳性率曲线。
19 医学参考值(reference value):是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
20 二项分布(binomial distribution):是指在只会产生两种可能结果如“阳性”或“阴性”
之一的n 次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数
x=0,1,2…n 的一种概率分布。
21交互作用(interaction e ffect):当某一自变量对Y的作用大小与另一个自变量的取值
有关时,则表示两个自变量有交互作用。
22中位生存时间(median survival time):又称为生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。它是生存分析中最常用的概括性统计量。
简答题:
1. 标准差与标准误的区别与联系。√
区别:
(1)含义不同:
①标准差S 描述个体变量值x 之间变异度的大小,S 越大,变量值x 越分散;反之变量越集中,均数的代表性就越强;
②标准误是描述样本均数之间变异度的大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n 关系不同:
n 增大时,①S-σ(恒定);②标准误减少并趋于0(不存在抽样误差);
(3)用途不同:
①标准差s 表示x 变异度的大小,计算CV,估计正常值范围,计算标准误等;
②标准误x:参数估计和假设检验。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
2. 数据的分类及统计学方法处理(描述、推断)√
数据分类:计数资料(定性资料)、计量资料(定量资料)、等级资料。
统计描述:计数资料——相对数(率),结构相对数(构成比)、百分比相对比(OR、RR);
计量资料——均数±标准差;
等级资料:中位数、四分位数间距等。
统计推断:计数资料——卡方检验;计量资料——t 检验、方差分析;等级资料——非参数检验。
①定量数据:又称计量数据或区间数据或数值数据,由观测每个观测单位某项指标的大小而获得。允许计算均数、标准差等(可采用t、F 检验等,可当做有序或定性数据处理)
②定性数据:又称(二项与多项)分类数据或计数数据,将观察单位按某种属性或类别分