《卫生统计学》 案例版丁元林课后思考题问题详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章:ECDBB
第二章:BDABC
第三章:DEBCD AEA
第四章:DCCDD DCBD
第五章:DCBDB AEEEC
第六章:CBEDC DDDDA
第七章:ACCBB DACEA
第八章:ABCDD BDADB
第九章:DDBCD AEA
第十章:BDCCE BDAEA
第十一章:CAEDC DBCCD
第十二章:BCAEE BA
第十三章:DDBCC BCDE
第十四章:无
第十五章:无
第十六章:无
第十七章:DBABC BDE
第十八章:无
第十九章:BDCDC CCADC
《卫生统计学》思考题参考答案
第一章绪论
1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?
答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?
答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计
1、调查研究有何特点?
答:(1)不能人为施加干预措施
(2)不能随机分组
(3)很难控制干扰因素
(4)一般不能下因果结论
2、四种常用的抽样方法各有什么特点?
答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。
3、调查设计包括那些基本容?
答:(1)明确调查目的和指标
(2)确定调查对象和观察单位
(3)选择调查方法和技术
(4)估计样本大小
(5)编制调查表
(6)评价问卷的信度和效度
(7)制定资料的收集计划
(8)指定资料的整理与分析计划
(9)制定调查的组织措施
4、调查表中包含那几种项目?
答:(1)分析项目直接整理计算的必须的容;
(2)备查项目保证分析项目填写得完整和准确的容;
(3)其他项目大型调查表的前言和表底附注。
第三章实验设计
1、简述实验设计的特点。
答:(1)研究者能人为设置处理因素(2)受试对象可以接受何种处理因素或水平是由随机分配而定的。
2、简述一般选择受试对象的原则。
答:(1)受试对象能从临床试验中受益(2)受试对象具有代表性(3)受试对象具有依从性(4)受试对象可以是志愿者。
3、什么是混杂因素?设计时怎样控制混杂因素?
答:混杂因素是指影响实验效应并与处理因素同时存在的非处理因素。
可以通过采取排除、平衡、或标准化的办法来控制混杂因素的影响。
4、什么是随机化?怎样实现随机抽样和随机分组?
答:随机化就是使样本具有较好的代表性,使各组受试对象在重要的非处理因素方面具有较好的均衡性,提高实验结果的可比性。
一般用随机数字表、随机排列表或统计软件包来实现随机抽样和随机分组。
第四章定量资料的统计描述
1、常用的平均数指标有哪些?各适用于何种类型资料?
答:(1)有算术均数、几何均数和中位数、众数、调和数等。
(2)算术均数:适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势
几何均数:等比资料、对数正态分布资料
中位数:偏态分布资料、分布类型不明确的资料、“开口资料”(即一端或两端无确切数值的资料) 2、如何描述定量资料的离散趋势?
答:(1)极差:极差越大,单峰对称分布小样本资料的变异程度越大,只局限于初步描述;
(2)四分位数间距:四分位数间距越大,偏态分布及分布的一端或两端无确切数值资料的离散程度越大,但不能全面概括所有观察值的变异情况;
(3)方差和标准差:方差和标准差越大,对称分布特别是正态分布或近似正态分布资料的变异程度越大;
(4)变异系数:变异系数越大,不同度量衡单位或者均数相差悬殊的资料的变异度越大。
3、正态分布有哪些基本特征?
答:(1)概率密度函数曲线在均数处最高;
(2)以均数为中心左右对称,且逐渐减少;
(3)正态分布有两个参数,即μ和σ;
(4)曲线下的面积分布有一定规律。
第五章定性资料的统计描述
1、相对数适用于何种类型的资料进行统计描述?
答:相对数适用于定性资料的统计描述。
2、率和构成比在应用上主要区别是什么?
答:率反映事物发生的强度与频率;构成比表示事物部各组成部分的频数所占的比重和分布。
3、什么情况下需要对率进行标准化?直接标准化法与间接标准化法在应用上有何区别?
答:若要对比的两组对象部构成的差别足以影响结论时,需要对率进行标准化。
直接法:已知被观察人群中各年龄组的患病率等资料,适用于两组资料中某事物发生率的互相对比
间接法:适用于仅已知各年龄组的观察单位数和总患病率的资料
4、什么是动态数列?分析动态数列有哪些基本指标?
答:动态数列(dynamic series)是一系列按时间顺序排列起来的统计指标,用以说明事物在时间上的变化和发展趋势。
常用动态数列分析指标有绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
第六章总体均数和总体率的估计
1、样本均数的标准误的意义是什么?
答:反映抽样误差的大小。
越大,样本均数的分布越分散,样本均数与总体均数差别越大,由样本均数估计总体均数的可靠性就越小;反之,样本均数分布就越集中,样本均数与总体均数差别就越小,由样本均数估计总体均数可靠性就越大。
2、标准误与标准差有何区别?
答:①意义不同:
标准差:表示观测值的变异程度
标准误:反映抽样误差的大小
②用途不同:
标准差:确定医学参考值围
标准误:用于统计推断(参数估计、假设检验)
③公式不同:标准差:标准误:
3、正常值围与总体均数的可信区间有何区别?
答:(1)意义不同:总体均数的可信区间是按预先给定的概率,确定的未知参数的可能围;正常值围是描述“正常人”的解剖、生理、生化、某项指标的波动围
(2)公式不同
可信区间:σ已知:或σ未知但n ≥50:或σ未知:
正常值围:正态分布:或偏态分布:PX ~ P100-X
(3)用途不同:总体均数的可信区间是用于估计总体均数;正常值围是用于判断观察对象的某项指标正常与否。
4、二项分布、Poisson分布与正态分布之间有何区别与联系?
答:区别:二项分布和Poisson分布是离散型概率分布,用概率函数描述其分布状况;而正态分布是连续性概率分布,用密度函数描述其分布状况。
联系:Poisson分布可以看作是发生概率π很小而观察例数n很大的二项分布;在λ>20时,Poisson分布的平均计数近似正态分布;在n较大,且nπ与n(1-π)均大于5时,二项分布接近于正态分布。
第七章假设检验
1、假设检验的意义何在?应用假设检验时要注意哪些问题?
答:意义:用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。
通过假设检验来分析样本指标和总体指标之间是否存在显著差异,从而作出判断是否接受原假设。
应用假设检验时注意的问题:1应有严密的研究设计,即总体应有同质性,样本应有代表性及组间具有可比性;2正确理解a水准和P值的意义,P值越小,越有理由拒绝H0,而a是说明P值小到何种程度才拒绝H0;3正确理解结论的统计学意义,有统计学意义并不一定有实际意义;4假设检验的结论不能绝对化。
2、答:(1)由抽样误差所致
(2)由于两样本均数来自不同的总体,这两不同的总体参数之间存在显著性差异。
3、假设检验与区间估计有何区别及联系?
答:区别:(1)可信区间用于说明量的大小,即推断总体均数的围;假设检验用于推断质的不同,即判断两总体均数是否不同;(2)可信区间比假设检验可提供更多的信息:可信区间不但能回答差别有无统计学意义,而且还能提示差别有无实际的专业意义。
联系:可信区间亦可回答假设检验的问题:可信区间包含H0,按α水准,不拒绝H0;若不包含H0,则按α水准,拒绝H0,接受H1。
4、I型错误与II型错误的区别及联系何在?检验效能的含义是什么?
答:(1)区别:I型错误是H0实际上是成立的,但由于抽样的原因,拒绝了H0,称“弃真”,概率用a表示;II型错误是实际上是不成立的,但假设检验没有拒绝它,称“取伪”,概率用β表示。
联系:当样本含量固定时,a增大,β减小;反之亦然;若同时减小a和β,则只能增大样本含量。
(2)检验效能的含义:当两总体参数确实有差别时,按a水准能够发现这种差别的能力。
5、怎样正确运用单侧检验和双侧检验?
答:首先应考虑所要解决问题的目的,根据专业知识来确定。
若从专业知识判断一种方法的结果不可能低于或高于另一种方法的结果时,可用单侧检验;尚不能从专业知识判断两种结果谁高谁低时,则用双侧检验。
第八章t检验
1、两样本均数比较时为什么要做统计检验?
答:两样本均数分别代表的总体均数μ1与μ2相等时,也可能会因抽样误差而导致两样本均数不相等,因此需要做统计检验。
2、两样本均数检验比较的t检验中,什么情况下做单侧检验?什么情况下做双侧检验?
答:若从专业知识判断一种方法的结果不可能低于或高于另一种方法的结果时,可用单侧检验;尚不能从专业知识判断两种结果谁高谁低时,则用双侧检验。
3、t检验要求满足哪些基本条件?
答:(1)资料服从正态分布(2)方差齐性(3)未知且n 较小(n<50)
4、在两样本t检验,如果方差不齐,但两组样本量相同并且很大,能否忽略t检验对方差不齐的要求?答:能。
n1和n2均大于50时,可不必做方差齐性检验;若两总体方差不具有齐性,可采用t’或者进行变量转换或者用秩和检验来处理。
5、对样本均数与某已知的总体均数或两样本均数的差别做统计检验,可信区间与t检验有什么关系?答:可信区间包含H0,按α水准,不拒绝H0;若不包含H0,则按α水准,拒绝H0,接受H1。
第九章方差分析
1、为什么不能用两两比较的t检验进行多个样本均数的比较?
答:用两两比较的t检验进行多个样本均数的比较时,需要进行多次检验,根据概率乘法法则,全部判断正确的概率大大降低,犯I类错误的概率也就增大,甚至远远大于检验水准。
因此,多组均数之间的两两比较不能直接用t检验。
取而代之的是,必须在方差分析结果为拒绝H0接受H1的基础上,进行多个样本的两两比较。
2、方差分析为何是单侧检验?
答:F统计量(F=组间均方/组均方)
若原假设成立,即各处理组的样本来自于同一总体,则组间均方应与组均方差不多,即F统计量在1
附近波动;否则,若原假设不成立,即不同处理的作用不同时,组间均方(处理因素的作用)一般大于组均方(随机误差),因此,F统计量一般往大于1的方向趋化,从而在作结论时,若F统计量大到一定程度,就拒绝原假设。
因此,F统计量在0侧是不可能的,因此只会在另一侧,从而认为方差分析是单侧检验。
3、为什么说随机区组设计方差分析的效率高于完全随机分组设计的方差分析?
答:由于随机区组设计利用区组控制了可能的混杂因素,并在进行方差分析时,将区组间变异从原组变异种分离出来,当区组间变异有统计学意义时,由于减少了误差均方使处理组间的F值更容易出现显著性,从而提高了实验效率。
因此,随机区组设计方差分析的效率高于完全随机分组设计的方差分析。
第十章卡方检验
1、简述检验的用途。
答:①两个样本率或构成比的比较
②多个样本率或构成比的比较
③两个分类指标之间的关联性检验
④频数分布的拟合优度检验
2、2 x 2表资料,如何正确使用检验?
答:(1)当n≥40且所有T≥5时,用2 x 2表的检验的基本公式或者专用公式计算;
(2)当n≥40但有、1≤T<5时,需要用校正公式计算值;
(3)N<40或T<1时,不宜计算值,需要用Fisher 确切概率计算概率。
3、简述R x C表的检验的注意事项。
答: (1)不允许有T<1,或者1<T<5的格子数不能超过总格子数的1/5
(2)当1<T<5的格子数超过总格子数的1/5时,可以采取方法:
1增加样本含量以增论频数
2将理论频数太小性质相近的行或列合并
3删去理论频数太小的格子所在的行或列
(3)单向有序列联表资料不能采用卡方检验
4、简述双向有序属性不同的R x C表资料分析的注意事项。
答:(1)若研究目的是分析两个有序分类变量间有无差别时,可视为单向有序R x C表,选用秩和检验;
(2)若研究目的是分析两个有序分类变量间是否存在相关关系时,则选用等级相关分析或积差相关分析;
(3)若研究目的是分析两个有序分类变量间是否存在线性变化趋势,则用有序分组资料的线性趋势
检验。
第十一章非参数检验
1、何为非参数检验?与参数检验有何区别?它们各有何优缺点?
答:(1)非参数检验是不依赖总体的分布类型,不对总体参数进行推断,只是通过样本观察值比较总体的分布或分布位置的推断方法。
(2)区别:参数检验是一类依赖于总体分布的具体形式的统计推断方法,一般在样本所来自的总体分布型已知(如:正态分布)的基础上,对总体参数进行估计或检验。
(3)参数检验:优点是能充分利用提供的信息,检验效能较高;缺点是对总体分布类型有比较严格的要求,适用围受到限制。
非参数检验:优点是分布类型不作要求,适用围广,可用于任何类型资料;缺点是一般犯II类错误的概率β比参数检验大。
2、什么是基于秩转换的非参数检验?它适用于哪些情况?
答:(1)基于秩转换的非参数检验称为秩和检验,是用秩和作为统计量进行假设检验的方法。
其中“秩”又称等级、即按数据大小排定的次序号,次序号的和称“秩和”。
秩和检验是对从两个非正态总体中所得到的两个样本之间的比较,其零假设为两个样本从同一总体中抽取的。
(2)适用围:1不满足参数检验条件(如正态分布、方差齐同等)的资料及无法经变量转换满足参数检验条件的资料;
2未加精确测量的资料,如一端或两端为不确定数值的资料、等级资料;
3分布类型未知的资料。
3、为何秩和检验在编秩时,若不同对比组间出现相同数据要给予“平均秩次”,而同一组的相同数据可不必计算“平均秩次”?
答:因为在不同符号或者对比组不取平均秩次会增大或减小某一组的秩和,而在同一符号或者同一组出现同一数据,秩和不受影响。
4、完全随机设计两样本比较的秩和检验,当n1>10,n2-n1>10时,采用z检验,这时检验属于参数检验还是非参数检?
答:是非参数检验,两样本并非来自正态分布资料,所以是采用近似正态法的非参数检验。
这时的z
检验是比较两样本的非正态分布总体均数的差别。
5、完全随机设计两组或多组的等级资料的比较,何时宜用秩和检验?而何时宜用检验?
答:如果源始资料不满足参数检验条件,并不能精确测定,只能以严重程度优劣等级、次序先后等表示时,用秩和检验;如果源始资料的分布是一种连续型随机变量的概率分布,并服从标准正态分布,能精确测定和比较两组或多组间的率、构成比、关联性或者频数分布的拟合优度等时,用检验。
第十二章双变量关联性分析
r和r s的应用条件有何不同?
答:直线相关系数r:1要求两随机变量要符合双变量正态分布,而且不分主次,处于同等地位2散点有线性趋势3两随机变量相关分析有实际意义;
等级相关系数rs:1不服从双变量正态分布的资料2总体分布类型未知的资料3等级资料
2、分类变量配对的2 x 2 表,分别在什么情况下使用McNemer 检验与Pearson 检验?
答:若是作两组频率比较,则用McNemer 检验;若是作两变量间关联性分析,则用Pearson 检验。
3、简述Person相关与Spearman相关的区别与联系。
答:区别:1Person相关要求数据服从二元正态分布,属于参数统计量;而Spearman相关不要求正态分布,属于非参数统计量2两者总体参数的假设检验方法不完全相同
联系:1两者都可用于刻画两变量间线性相关的方向与密切程度,其取值围与数值大小的统计学意义解释也相同2两者都要求个体间满足独立性3Spearman秩相关系数的计算可采用对秩次的Pearson积距相关系数的计算来实现4样本含量大时,两者的假设检验方法近似。
第十三章直线回归分析
1、用什么方法考察回归直线图示是否正确?
答:(1)连出的回归直线不应超出x的实测围;
(2)所绘的回归直线必然通过(, );
(3)将直线的左端延长与纵轴的焦点的纵坐标比等于截距a。
2、剩余标准差的意义和用途?
答:剩余标准差是指扣除了x对y 线性影响后,y的变异,可用来说明估计值的精确性。
S y.x越小,
表示回归方程的估计精度越高。
3、应用直线回归和相关分析时应注意哪些问题?
答:(1)作回归分析要有实际意义
(2)应绘制散点图
(3)两变量间有线性关系存在,不一定确有因果关系
(4)以自变量的取值围为限,不可随意外延
(5)满足线性、独立、正态和方差齐性条件
(6)绘制散点图后,若出现特大特小值,则应及时复核检查
4、举例说明如何用用直线回归方程进行预测和控制?
答:(1)预测:例如直线回归分析8岁男童心脏横径与体重之间关系的回归方程为y=4.2121+0.2041x,据个体Y 值的容许区间,可估计体重为25kg的8岁健康男童,其心脏横径有95%的可能性在(8.6692,9.9610)cm的围。
(2)控制:例如某市环境监测大气NO与车流量x的回归方程为y=-0.064866+0.000133x,据个体Y 值的上限Y x=x0 + t a(n-2) S Y,NO最大容许度为0.15mg/m^3时汽车流量应控制在1209辆/h。
5、直线回归分析时怎样确定因变量与自变量?
答:(1)因变量依赖于自变量的变化而变化;
(2)因变量为来自正态分布的随机变量;而自变量可以是规律变化的或人为选定的一些数值,也可以是随机变量;
第十四章生存分析
1、生存分析中出现截尾数据常见的原因有哪些?
答:(1)失访(失去联系)
(2)退出(死于其它原因)
(3)终止(观察结束时病人尚存活)
2、生存率与生存概率有何区别与联系?死亡率与死亡概率有何区别与联系?
答:(1)区别:生存概率表示在某单位时段开始时存活的个体,到该时段结束时仍存活的可能性大小;而生存率是指观察对象经历t 个单位时段后仍存活的可能性,即活过t k时刻的概率。
联系:生存率实质上是累积生存概率,是多个时段的累积结果,S(t n)=P1 * P2 *P3 * …P n。
(2) 区别:死亡概率表示被观察对象死于某时段的可能性大小;而死亡率表示在某单位时间里的死亡频率或强度(整体或归因于指定因素)。
联系:都是描述与死亡有关的统计量,个体死亡概率影响整体死亡率。
3、为什么两个样本比较的生存时间资料不适宜采用t检验或检验进行分析?
答:(1)样本生存时间资料中会带有截尾数据,导致两个样本的总体分布不明确,不满足t检验或检验的应用条件。
(2)生存时间资料的比较包括事件的结局和发生这种结局所经历的时间这两个因素,t检验或检验只能分析生存时间有无差别,并不能分析结局有无差别。
第十六章Mate分析
Mate分析的目的是什么?
答:(1)提高检验效能
(2)解决若干单个研究结论不一致问题
(3)改善效应量的估计
(4)提出新的研究问题和研究方向
Mate分析的基本步骤又哪些?
答:(1)明确研究目的,制定研究计划;
(2)建立检索策略,收集所有相关的研究文献和资料;
(3)制定文献的纳入和排除标准;
(4)评价纳入文献的质量;
(5)提取必要的数据信息;
(6)资料的统计学分析;
(7)敏感性分析;
(8)报告结果。
Mate分析中统计分析模型有哪些?如何选择?
答:(1)固定效应模型和随机效应模型
(2)需要根据同质性检验的结果来确定统计分析模型
固定效应模型(fixed effect model):同质性检验无统计学意义时选用
随机效应模型(random effect model):同质性检验有统计学意义时选用
4、发表偏倚的含义、产生原因及对Mate分析的影响是什么?
答:(1)含义:发表偏倚是指有统计学意义的研究结果较无统计学意义或无效的研究结果被报告和发表的可能性大。
(2)产生原因:1研究者认为无统计学意义的研究意义不大,不发表或推迟发表;2作为杂志编辑则更有可能对此类研究不予以发表。
(3)影响:使Mate分析提高或夸大实验效应量及危险因素的关联强度,并引发偏倚。
Mate分析中应注意的问题有哪些?
答:(1)偏倚的识别和控制;
(2)所有类型的Mate分析都采用相同的基本步骤;
(3)提高纳入研究的质量,在Mate分析各个环节中防止和减少系统误差和随机误差;
(4)在应用Mate分析结果时,须注意到干预对象特征、生物学变异、场所、措施、依从性以及辅助治疗等对结果的影响;
(5)Mate分析的结果仅仅是对现有的纳入研究综合分析得出的,研究者需要不断收集新的研究资料以及时更新结论。
第十八章生命统计的常用指标
1、平均死亡年龄与预期寿命有何区别?为什么预期寿命可以综合反映不同国家和地区的经济和卫生
水平?
答:(1)平均死亡年龄是该地区实际存活的平均年数;预期寿命是假定同时出生的一批婴儿如果按现有该地区的年龄组死亡率而死亡,所能存活的平均年数。
(2)社会经济条件、卫生医疗水平、体质、遗传因素、生活条件等个人差异限制着人们的寿命。
预期寿命的提高同医疗技术的进步和卫生环境的改善是分不开的,特别是抗生素的发现和免疫接种术的应用,扑灭了曾使古代人口大批死亡的各种流行性传染病。
2、发病率与患病率在计算时有什么不同,在实际选择指标时应该注意哪些问题?
答:(1);
患病率的分子为特定时间所调查人群中某病新旧病例数,而不管这些病例的发病时间。
发病率的分子为一定期间暴露人群中新发生的病例数。
(2)患病率是由横断面调查获得的疾病频率,是衡量疾病的存在或流行情况。
而发病率是由发病报告或队列研究获得的疾病频率,是衡量疾病的出现情况。
3、常见的反应疾病死亡的统计指标有哪些?各有何优缺点?
答:(1)测量死亡水平的指标
1粗死亡率:具有资料易获得,计算简单的优点,但受人口的年龄、性别构成情况的影响。
2年龄别死亡率:年龄别死亡率消除了人口的年龄构成不同对死亡水平的影响,不同地区同一年龄组的死亡率可以直接进行比较。
3婴儿死亡率:是反映社会卫生状况和婴儿保健工作的重要的指标,不受年龄的影响,可直接比较。
4新生儿死亡率:是反映妇幼卫生工作质量的重要指标。
5围生儿死亡率:是衡量孕前、孕期、产期、产后保健工作质量的敏感指标之一。
65岁以下儿童死亡率:是综合反映儿童健康水平和变化的主要指标。
7孕产妇死亡率:这一指标不仅可以评价妇女保健工作,而且间接反映一个国家的卫生文化水平。
8死因别死亡率:是死因分析的重要指标,反映各类病伤死亡对居民生命的危害程度。