医学统计学复习资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小;③要注意分子分母正确选用;④要注意率与比的正确应用;⑤要注 意平均率的计算方法;⑥要注意资料的可比性;⑦率和构成比比较时作 假设检验。 7. 简述直线回归与直线相关的区别。 (1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随 机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布 的资料。 (2) 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存 关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快; 相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越 大,两个变量的关联程度越大。 9. 假设检验的理论依据是什么?请简述假设检验的基本步骤。 答:假设检验的理论依据是小概率事件原理,步骤为: (1)根据研究目的建立假设,确定检验水准 (2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验 统计量 (3)确定P值,做出推断结论 10.方差分析应用广泛,可用于:①两个或多个样本均数间的比较;②分 析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元 线性回归分析中偏回归系数的假设检验等。本章主要介绍完全随机设计 资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分 析。 11. 完全随机设计的两样本率比较时,如何正确选择统计分析方法 (写出相应的计算公式)。 (1)当总例数n≥40且所有格子的T≥5时,用2检验的基本公式或四格表 资料2检验的专用公式; (2)当n≥40但有1≤T<5时,用四格表资料2检验的校正公式;或改用四 格表资料的Fisher确切概率法的连续性校正法: (3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。 12. 什么是医学参考值范围?估计医学参考值范围如何正确选用统计 方法? 答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的 波动范围,亦称正常值范围。如95%的参考值范围包括了95%的观察 值,而有5%的观察值不在这一范围内。 估计医学参考值范围确定方法:
察个体,故变异亦称为个体变异(individual variation)。
14. 组间变异(variation between group):用各组均数与总均数的
离均差平方和表示
15. 组内变异(variation within group):用各组均数与总均数的离
均差平方和表示
18. 百分位数(percentile):是一种位置指标,以Px表示,一个百分
(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的
可信区间,又称置信区间。
12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范
围(CI)。常用的可信度为95%和99%,故Biblioteka Baidu用95%和99%的可信区间。
13. 变异(variation):同质事物间的差别。由于观察单位通常即为观
它包括两种:点估计(point
estimation)和区间估计(interval
estimation)。
31. 点估计(point estimation):直接用样本统计量作为对应的总体
参数的估计值。
32. 区间估计(interval estimation):按一定的概率或可信度(1-
α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可
H0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概
率用α表示。
35.Ⅱ类错误(typeⅡerror):统计学上规定,不拒绝实际上不成立的
H0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概
率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别, 按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。 这类统计推断的方法叫参数统计或参数检验。 参数检验:假定比较数据服从某分布,通过参数的估计量(, s)对比较总 体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如 t、u检验、方差分析。 38. 非参数检验:适用于任意分布(distribution free)的统计方法, 这种方法称为非参数统计。这种假设检验方法,比较的是分布而不是 参数,故称为非参数检验。 非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估 计量,直接对比较数据的分布进行统计检验的方法,称为非参数检验 (nonparametric test). 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。 常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表 示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组 成部分所占的比重或分布,常以百分数表示,其计算公式为: 41. 比(ratio):又称相对比,是A、B两个有关指标之比,说明A为B的 若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B。 二、问答题和简答题 5. 标准差与标准误有何区别和联系? 区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越 大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。② 标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数 与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均 数,抽样误差越小。 (2)与n的关系不同: n增大时,①s→σ(恒定)。②标准误减少并趋 于0(不存在抽样误差)。 (3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计 算标准误等②:参数估计和假设检验。 联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差 与标准误成正比。 6. 应用相对数时的注意事项有哪些? ①要注意绝对数与相对数结合应用;②要注意观察单位样本数不宜过
信区间(confidence interval, CI),又称置信区间。这种估计方法
称为区间估计。
33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样
本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95
个包含了总体参数,还有5个未估计到总体均数。
34.Ⅰ类错误(typeⅠerror):统计学上规定,拒绝了实际上成立的
位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有
(1-x%)的观察值大于Px。
19. 变异系数(coefficient of variance, CV):亦称离散系数
(coefficient of dispersion),为标准差与均数之比,常用百分数表
示。, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相
种类型。非对称分布又称为偏态分布,是指观察值偏离中央的分布。
当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,如人体
中一些重金属元素的分布等。反之,尾部偏向数轴负侧(或左侧)时,
则称为负偏态(或左偏态)分布。
28. 统计推断(statistic inference):从总体中随机抽取一定含量
常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正
常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素
的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化
等各种数据的波动范围。习惯上是确定包括95%的人的界值。
27. 正偏态和负偏态分布:频数分布可分为对称分布和非对称分布两
的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程
称为统计推断。
29. 标准误(standard error, SE):在统计理论上将样本统计量的标
准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准
差称为标准误。
30. 参数估计(parameter estimation):由样本信息估计总体参数。
24. 相关系数(correlation coefficient):用以说明具有直线关系
的两个变量间相关关系的密切程度和相关方向的指标,称为相关系
数,又称为积差相关系数(coefficient
of
product-moment
correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r
表示,取值范围均为[-1, 1]。
医学统计学复习资料
一、名词解释题 1. 总体(population):根据研究目的所确定的同质观察单位的全体。 只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总 体(finite population)。假想的,无时间和空间概念的,称为无限总 体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是 事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的 特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随 机变量(random variable),简称变量(variable)。变量的取值称为变 量值或观察值(observation)。根据变量的取值特性,分为数值变量和 分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指 构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单 位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别 清点各组观察单位的个数。 分类变量(categorical variable):或称定性变量,其取值是定性 的,表现为互不相容的类别或或属性,有两种情况: 1)无序分类(unordered categories):包括①二项分类,如上述“性 别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变 量,表现为互不相容的多类结果。 2)有序分类(ordered categories):各类之间有程度上的差别,或等 级顺序关系,有“半定量”的意义,亦称等级变量。 等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法 测量得到。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的 差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指 标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度
频率是概率的估计值。
22. 概率(probability):在重复试验中,事件A的频率,随着试验次
数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的
概率(probability),记作P(A)或P。
描述随机事件发生的可能性大小的数值,常用P来表示。
23. 统计量(statistic):由样本所算出的统计指标或特征值。
25. 回归系数(regression coefficient):直线回归方程= a+bX的系
数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个
单位,Y 平均改变 b 个单位。
26. 参考值范围(reference range):也称为正常值范围(normal
range),医学上常把绝大多数正常人的某指标值范围称为该指标的正
(1)正态分布法:适用于正态或近似正态分布的资料 双侧界值;单侧上界;单侧下界 (2)对数正态分布法:适用于对数正态分布的资料 双侧界值;单侧上界;单侧下界 (3)百分位数法:用于偏态资料 双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P5 13. 什么是假设检验中的两类错误?什么是检验效能?其大小与哪些因 素有关? 答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所 犯的错误,当H0成立时犯第一类错误的概率等于检验水准α。假设检验 中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误, 其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有 关。 1-β为假设检验的检验效能,也就是两个总体确实有差别时检出 该差别的能力; 16. 简述t检验的具体步骤,如何进行检验结果判断? 步骤:(1)建立假设和确定检验水准α;(2)计算统计量;(3)确定P值; (4)判断结果。结果的判断:P >α,不拒绝H0,差异无显著性,可认为 差异是由抽样误差所致。P ≤α,拒绝H0,差异有显著性,可认为样本 间存在差异。 18. 抽样研究中如何才能控制或减小抽样误差? 答:合理的抽样设计,增大样本含量。 19. 何谓抽样误差?为什么说抽样误差在抽样研究中是不可避免的? 答:由抽样造成的样本统计量与样本统计量,样本统计量与总体参数间 的差异 因为个体差异是客观存在的,研究对象又是总体的一部分,因此这部分 的结果与总体的结果存在差异彩是不可避免的 20. 能否说假设检验的p值越小,比较的两个总体指标间差异越大?为 什么? 答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大 小除与总体差异大小有关,更与抽样误差大小有关,同样的总体差异, 抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作中主 要反映在样本量大小上。 21.在秩和检验中,为什么在不同组间出现相同数据要给予“平均秩 次”,而在同一组的相同数据不必计算平均秩次? 答:这样编秩不影响两组秩和的计算,或对两组秩和的计算不产生偏
差悬殊的两组或多组资料的离散程度。
21. 频率(relative frequency):在n次随机试验中,事件A发生了m
次,则比值
称为事件A在n次试验中出现的频率(relative frequency)。m称为出现
的频数(frequency)。
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。