统计学重点(8)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

名词解释：
1.参数（p a r a me t e r）：总体的统计指标，如总体均数、标准差，采用希腊字母分别记为μ、σ。

是固定的常数统计量(s t a t i s t i c)：样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为X、S。

是参数附近波动的随机变量。

2.系统误差(s y s t e m e r r o r)：实验过程中产生的误差，它的值或恒定不变，或遵循一定的变化规律，其产生原因往往是可知的或能掌握的。

（受确定因素影响，大小变化有方向性）
随机误差(r a n d o m e r r o r)：一类不固定的、随机变化的误差，由多种尚无法控制的因素引起。

（影响因素众多，变化无方向性，不可避免，但可用统计方法进行分析）
医学参考值（r e f e r e n c e v a l u e）：是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数，也称正常值。

可信区间（c o n f i d e n c e b o u n d/c o n f i d e n c e i n t e r v a l,C I）：按预先给定的概率（1－a）所确定的包含未知总体参数的可能范围。

3.I型错误（弃真）：拒绝实际上成立的H0，这类“弃真”的错误称为I型错误。

（1－a）即可信度:重复抽样时，样本区间包含总体参数（m）的百分数。

I I型错误（纳伪）:接受了实际上不成立的H0，这类“取伪”的错误称为I I型错误，记为β。

（1－β）即把握度（或检验效能）:两总体确有差别，被检出有差别的能力。

4.P值：H0成立的前提下，用样本数据所获得的检验统计量，及比样本数据绝对值更为极端的某曲线下的面积。

二项分布（b i n o mi a l d i s t r i b u t i o n）:是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中，当每次试验的“阳性”概率π保持不变时，出现“阳性”次数x=0,1,2…n的一种概率分布。

7.决定系数（c o e f f i c i e n t o f d e t e r mi n a t i o n）：回归平方和与总平方和之比。

0≤R2≤1，说明自变量X能够解释Y 变化的百分比，其值越接近1，说明模型对数据的拟合程度越好。

相关系数（c o e f f i c i e n t o f c o r r e l a t i o n）:又称P e a r s o n积差相关系数，用来说明具有直线关系的两变量间相关的密切程度与相关方向。

用r表示样本相关系数，用ρ表示其总体相关系数。

复相关系数（mu l t i p l e c o r r e l a t i o n c o e f f i c i e n t）:可用来度量应变量Y与多个自变量间的线性相关程度，亦即观察值Y与估计值Y h a t之间的相关程度。

偏相关系数（p a r t i a l c o r r e l a t i o n c o e f f i c i e n t）：表示在一组变量中，任意两个变量在其他变量固定不变时，它们之间相关的密切程度和方向。

6.偏回归系数(p a r t i a l r e g r e s s i o n c o e f f i c i e n t)：在多元回归分析中，随机应变量对各个自变量的回归系数，表示各自变量对随机变量的影响程度。

标准化回归系数：将回归方程进行标准化，其回归系数即为标准化回归系数，可以用来比较各个自变量X i对Y 的影响程度，通常在有统计学意义的前提下，标准化回归系数的绝对值越大，说明相应自变量对Y的作用越大。

8.哑变量(D u mmy V a r i a b l e s)：用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。

引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。

5.多重共线性（Mu l t i c o l l i n e a r i t y）:线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

交互作用（i n t e r a c t i o n e f f e c t）:当某一自变量对Y的作用大小与另一个自变量的取值有关时，则表示两个自变量有交互作用。

中位生存时间（me d i a n s u r v i v a l t i me）:又称为生存时间的中位数，表示刚好有50%的个体其存活期大于该时间。

它是生存分析中最常用的概括性统计量。

9、R O C（受试者工作特征r e c e i v e r o p e r a t o r c h a r a c t e r i s t i c）：以不同截断点的（1-特异度）为横轴，灵敏度为纵轴，作真阳性率与假阳性率曲线。

10.R C T实验（随机对照试验r a n d o mi z e d c o n t r o l l e d t r i a l）：将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。

在研究对象数量足够的情况下，这种方法可以确保已知和未知的混杂因素对各组的影响相同。

特征为：随机分组、设置对照、施加干预、具有前瞻性、论证强度为最强。

简答
1.标准差与标准误的区别及联系。

区别：（1）含义不用①s描述个体变量值（x）之间的变异度大小，s越大，变量值（x）越分散；反之变量值越集中，均数打代表性就越强②标准误是描述样本均数之间的变异度大小，标准误越大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越接近总体均数，抽样误差越小
（2）与n的关系不同：n增大时，①s→σ（恒定）②标准误减少并趋于0（不存在抽样误差）
（3）用途不同①s：表示x的变异度大小，计算c v，估计正常值范围，计算标准误等②x：参数估计和假设检验联系：二者均为变异度指标，样本均数的标准差及为标准误，标准差与标准误成正比
2数据的分类及如何用统计学处理。

①定量数据：又称计量数据或区间数据或数值数据，由观测每个观测单位某项指标的大小而获得。

允许计算均数、标准差等（可采用t、F检验等，可当做有序或定性数据处理）
②定性数据：又称（二项与多项）分类数据或计数数据，将观察单位按某种属性或类别分组计数，分组汇总各组观察单位后而获得。

编码是任意的，不能对编码执行均数标准差等计算，但可计算率或比（可采用卡方检验等）③等级数据：又称有序数据或半定量数据，将观察单位按某种属性的不同程度分成等级后分组计数，分组汇总各组观察单位数后而获得。

允许基于顺序的计算，如计算中位数、百分位数（可当做定性数据处理）
数据分类：计数资料（定性资料）、计量资料（定量资料）、等级资料。

统计描述：计数资料——相对数（率），结构相对数（构成比）、百分比相对比（O R、R R）；计量资料——均数±标准差；等级资料：中位数、四分位数间距等。

统计推断：计数资料——卡方检验；计量资料——t检验、方差分析；等级资料——非参数检验。

3样本含量与哪些因素有关？是如何影响的？
样本含量的估计取决于：
①假设检验的Ⅰ型错误概率α大小：Ⅰ型错误概率α越小，所需样本含量越多。

对于相同α，双侧检验比单侧检验所需样本含量多；
②假设检验的Ⅱ型错误概率β或检验效能（1-β）的大小：Ⅱ型错误概率β愈小或检验效能（1-β）愈大，所需样本含量愈多；
③容许误差δ的大小：容许误差δ愈大，所需样本含量愈小；
④总体的相关信息：总体标准差σ愈大，所需样本含量愈多；总体率π越接近0.05，所需样本含量越多；总体相关系数ρ愈小，所需样本含量愈多；变异指标C V愈大，所需样本含量愈多。

4多重回归、l o g i s t i c、c o x回归的区别与联系
相同：①自变量可以为连续变量、有序分类变量、无序分类变量，为了将无序分类变量代入回归方程，需要进行哑变量化，哑变量在回归模型中是一个整体，必须同时引入模型或同时从模型中剔除；②当自变量之间存在较强相关关系时可能会导致共线性现象；③自变量之间很可能会存在交互作用，通常采用两个或两个以上的自变量乘积作为交互作用项；④均可采用逐步回归筛选变量；⑤均可进行影响因素的分析、混杂因素的校正、预测分析等。

5相关与回归有什么区别与联系
区别：
意义：相关反映两变量的相互关系，即在两个变量中，任何一个的变化都会引起另一个的变化，是一种双向变化的关系。

回归是反映两个变量的依存关系，一个变量的改变会引起另一个变量的变化，是一种单向的关系。

应用：研究两个变量的相互关系用相关分析。

研究两个变量的依存关系用回归分析。

研究性质：相关是对两个变量之间的关系进行描述，看两个变量是否有关，关系是否密切，关系的性质是什么，是正相关还是负相关。

回归是对两个变量做定量描述，研究两个变量的数量关系，已知一个变量值可以预测出另一个变量值，可以得到定量结果。

相关系数r与回归系数b：r与b的绝对值反映的意义不同。

r的绝对值越大，散点图中的点越趋向于一条直线，表明两变量的关系越密切，相关程度越高。

b的绝对值越大，回归直线越陡，说明当X变化一个单位时，Y 的平均变化就越大。

反之也是一样。

联系：r与b值可相互换算；r与b正负号一致；r与b的假设检验等价；回归可解释相关。

相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比，故回归平方和是引入相关变量后总平方和减少的部分。

6.非参数检验用于哪些情况，有什么优缺点？
适用范围：(1)总体分布为偏态或未知的计量资料(2)数据两端出现不确定值（3）等级资料（4）各组离散程度相差悬殊，总体方差不齐。

优点：不受总体分布的限制，适用范围广。

缺点：结果对总体分布的形状差别不敏感，只对总体分布的位置差别敏感。

检验效率低，增加犯I I类错误的概率。

7.相对数注意事项
(1)结构相对数不能代替强度相对数（2）计算相对数应有足够数量，分母不宜太小（3）正确计算合计率（4）注意资料的可比性（5）对比不同时期资料应注意客观条件是否相同（6）样本率（或构成比）的抽样误差。

8.生存分析资料有什么特点？包含哪些统计学方法？
特点：
1.同时考虑生存时间（从起始时间到终点时间所经历的时间）和生存结局（终点时间的出现或者删失，均为生存结局的一种）
2含有删失（截尾）数据删失：在规定的研究期间内，观察对象未被观察到“感兴趣”终点事件的发生，无法
确定生存时间的情形完全数据：研究期间内，观察到了“感兴趣”结局事件的发生。

不完全数据：存在删失（截尾）数据
方法：1.K a p l a n-M e i e r法（极限乘积法）估计生存率2.K-M法与寿命表（l i f e t a b l e）法
3.生存率比较的l o g-r a n k检验
4.C o x比例风险模型
统计学方法：①描述分析：常用K a p l a n-M e i e r法（也叫乘积极限法、K M法），计算生存率需要考虑生存时间的顺序，属于非参数统计方法；②比较分析：常用l o g-r a n k检验与B r e s l o w检验，检验无效假设是两组或多组总体生存时间分布相同，而不对其具体的分布形式做要求，所以也属于非参数统计方法；③影响因素分析：常用的半参数法为C o x比例风险模型，常用参数法为指数分布法、We i b u l l分布法、G o mp e r t z分布法和对数l o g i s t i c 分布法等。

9置信区间与参考值范围的区别和联系
10.统计表需要注意哪些条件？
1编制原则：
重点突出，简单明了；主谓分明，层次清楚；数据准确、可靠，文字和线条尽量从简
2.结构
标题：概括表的主要内容，包括研究的时间、地点和研究内容，放在表的上方。

标目：分别用横标目和纵标目说明表格每行和每列内容或数字的意义，注意标明指标的单位。

线条：至少用三条线，表格的顶线和底线将表格与文章的其它部分分隔开来，纵标目下横线将标目的文字区与表格的数字区分隔开来。

部分表格可再用横线将合计分隔开，或用横线将两重纵标目分割开。

其它竖线和斜线一概省去。

数字：用阿拉伯数字表示。

无数字用“—”表示，缺失数字用“ ”表示，数值为0者记为“0”，不要留空项。

数字按小数位对齐。

备注：表中数字区不要插入文字，也不列备注项。

必须说明者标“*”号，在表下方说明。