卫生统计学考试重点总结复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、绪论
1.总体:根据研究目的确定的同质观察单位的全体,确切的说是同质的所有观察单位某种变量值的集合。
2.样本:从总体中随机抽取部分观察单位所组成的集合。
3.参数:用样本的指标来推算或估计出来的,用来说明总体情况的统计指标。
4.统计量:根据观察值计算出来的量,是用来描述和分析样本的统计指标。
5.变量的类型及其转换:
①定性变量:a.分类变量(计数资料)i.二分类变量
ii.多项无序分类
b.有序变量(等级资料)
②定量变量:a.连续型变量
b.离散型变量
变量只能由“高级”向“低级”转化:定量→有序→分类→二值。
6.概率:是描述随机事件发生的可能性大些的数值。
7.卫生统计学的内容包括:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
8.卫生统计学:运用概率论和数理统计的原理和方法并结合医学实践来研究医学资料的搜集、整理、分析与推断的一门学科。
9.卫生统计学的研究对象:有变异的事物。
10.统计工作的一般步骤:设计资料、搜集资料、整理资料、分析资料。
11.同质:指同一总体中个体的性质、影响条件、背景相同或非常相近。
12.变异:同一总体内的个体间存在差异又是绝对的,这种现象称为变异。
13.误差可分为:系统误差、随机测量误差、抽样误差。
14.抽样误差:由于个体差异的存在,从某一总体中随机抽取一个样本,所得样本统计量与总体参数之间可能存在差异,这种差异称为抽样误差。
二、定量资料的统计描述
1.频率分布表的编制步骤:
①计算极差R、②确定组段数与组距(一般为8-15组)、③确定各组段的上下限、④列表。
2.频率分布表的用途:
①揭示频数分布的分布特点和分布类型,文献中常将频数表作为陈述资料的形式。
②便于进一步计算统计指标和进行统计分布处理。
③便于发现某些特大和特小的可疑值。
④当样本含量比较大时,可用各组段的频率作为概率的估计值。
3.中位数:指将原始观察值从小到大或从大到小排序后,位次居中的那个数。
4.四分位数间距:表示百分位数P75和百分位数P25之差,定义为Q=P75-P25,恰好包括总体中50%的个体观察值,用来描述偏态分布资料的离散趋势的指标。
5.标准差:即方差的算术平方根,是衡量对称分布资料的离散程度的指标,标准差大,则离散度大,标准差小,则离散度小。
6.变异系数:变异的大小S相对于其平均水平X的百分比,主要用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。
三、定性资料的统计描述
1.构成比:说明一事物内部各组成部分在总体中所占的比重或分布,常用百分数表示。
=某一组成部分的观察单位数/同一事物内部各组成部分的观察单位总数×100% 2.相对数的类型:
①频率型指标:近似的反映某一事件出现的机会大小,如发病率、死亡率。
=某事件发生的个体数/可能发生某事件的个体数×K
②强度型指标:反映单位时间段内某现象发生的频率,多用于大人群长时间随访的资料,如人时发病率、人时感染率。
=某事件发生的个体数/∑(可能发生某事件的个体数×时间)×K
③相对比型指标:是AB两个有联系的指标之比,对比的两个指标可以性质相同,也可以不同。
=A指标/B指标(常见男女性别比)
3.应用相对数时的注意事项:
①防制概念混淆。
②计算相对数时,分母应有足够的数量。
③正确的合并估计频率型指标。
④相对数的对比应注意可比性。
⑤对样本相对数的统计推断,应进行参数估计和假设检验。
⑥注意率和构成比之间的差别。
4.标准化法的基本思想:
标准化法是指当比较两个或多个总率时,若比较的两组或多组内部构成明显不同,需按统一指标进行调整,使之具有可比性的方法。
基本思想:采用统一标准构成以消除某因素的内部构成不同对总率的影响,使通过标准化后的标准化率具有可比性。
四、统计表和统计图
1.统计表的种类:简单表、复合表。
2.统计图的分类:
①条图:用等宽直条的长度来表示参与比较的指标的大小,分为单式和复式两种。表示指标数值的坐标尺度必须从0点开始。
②百分条图:用于表示事物中各部分的比重或构成。
③圆图:同上。
④线图:用线段的升降来表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于连续型变量资料。纵横的尺度可以不从0开始,一般纵横比例5:7。
⑤对半数线图:用于表示事物的发展速度(相对比)。
⑥散点图:用点的密集程度、趋势表示两变量间的相对关系,
⑦直方图:常用于表示连续型变量资料的频数或频率分布。纵轴的刻度必须从0点开始。
⑧统计地图:主要用于表示某种现象在地域空间上的分布,根据不同地方某种现象的数值大小,采用不同密度的线条或不同颜色绘在地图上,有助于分析该现象的地理分布特征,为进一步研究提供线索。
⑨箱式图:用于描述连续型变量资料的分布特征,它表现连续型变量资料的5个百分位数,即P2.5、P25、P50、P75、P97.5。
3.统计表的构成:标题、标目、线条、数字和备注。
五、常用的概率分布:
1.二项分布的图形特征:
①高峰在μ=nπ处或附近。
②π为0.5时,图形是对称的。π离0.5愈远,对称性愈差。
③对同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或者1,二项分布趋于对称。
2.Poisson分布的特性:
①Poisson分布的总体均数与总体方差相等,均为λ。
②Poisson分布的观察结果有可加性。
3.正态分布的图形特点:
①关于x=μ对称。
②在x=μ处取得该概率密度函数的最大值,在x=μ±σ处有拐点。
③曲线下面积为1。
④μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ越小,曲线沿横轴向左移。
⑤σ决定曲线的形状,当μ均衡定时,σ越大,数据越分散,曲线越“矮胖”;σ越小,数据越集中,曲线越“瘦高”。
4.正态分布的应用:
①概率估计②确定医学参考值范围③实验误差的质量控制④统计处理方法的理论基础
5.95%医学参考值范围:指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中95%个体的取值所在的范围。
6.二项分布的应用:概率估计、累积概率计算。
7.Poisson的应用:概率估计、累积概率计算。
8.二项分布、Poisson分布、正态分布的区别与联系:
二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。Poisson分布可以视为n很大而π很小的二项分布。当n很大而π和1-π都不是很小的时候二项分布渐近正态分布,但λ≥20的时候Poisson分布渐近正态分布。
六、参数估计基础
1.抽样误差:由于生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得样本统计量与相应的总体参数往往是不同的,这种差异称为抽样误差。
2.标准误:用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。
3.参数估计:统计学中通过抽样来估计总体参数,称为参数估计。
4.样本均数的标准误与原变量的标准差的区别:
样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。样本均数的标准误与原变量的标准差的区别在于:前者是表示均数变异的指标,后者是表示观察值变异的指标。两者的联系是,当样本量n一定时,标准误随标准差的大小而变化。
5.t分布是总体均数的区间估计和假设检验的基础。
6.t分布图形的特征:①单峰分布,以0为中心,左右对称。
②ν越小,t值越分散,曲线的峰部越矮,尾部越高。
③随着ν逐渐增大,t分布逐渐接近标准正态分布。
④t分布不是一条曲线,而是一簇曲线,当n确定时,t分布为一条曲线。
7.置信区间:按预先给定的概率1-α,估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间。
8.区间估计:将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。
9.CI的两个要素:①准确度:反映置信度1-α的大小,即区间包含总体均数的概率大小。
②精度:反映区间的长度,在置信区间确定的情况下,提高样本例数可以提高精度。