《高级生物统计学》考核题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《高级生物统计学》考核题
1.何为多重共线性?它对资料分析有何影响?如何处理?(10分)
答:多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。对多重共线性的两点认识:1)在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。
2)多重共线性是针对固定的解释变量而言,是一种样本的特征,而非总体的特征。
自变量之间存在较强的线性关系,这些自变量通常是相关的,如果这种相关程度非常高,使用最小乘法建立回归方程就有可能失效,引起不良后果:
1)参数估计值的标准误变得很大,从而使t值变得很小;
2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化;
3)t检验不准确,误将应保留在方程中的重要变量舍弃;
4)估计值的正负符号与客观实际不一致。
消除多重共线性有多种方法,消除多重共线性的方法:
1)增加样本容含量;
2)定义新的自变量代替高度多重共线性的变量,或将一组具有多重共线性的自变量合并成一个变量;
3)删除不必要的解释变量:如在自变量中剔除某个造成共线性的自变量,重新建立回归方程;
4)其它方法:逐步回归法和主成分分析法;采用逐步回归方法也能有效限制有较强相关关系的自变量同时进入方程。
2.如何评价所建立的多元线性回归方程的优劣?(10分)
答:评价所建立的多元线性回归方程的优劣,可以采用方差分析法对所有自变量X1,X2…...等作为一个整体来检验他们与应变量Y之间是否有线性关系,并对回归方程的预测或解释能力做出综合评价。除了方程分析法,另外可以用决定系数(R2),R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。还有复相关系数等。对各自变量的假设和评价可以采用偏回归系数、t检验法和标准化回归系数等方法。另外,可以采用残差分析来检查资料是否符合模型。
3.logistic回归与线性回归有什么不同?两种方法各有什么特点?(10分)
答:logistic回归属于概率型非线性回归,它是研究二分类或多分类观察结果与一些影响因素之间关系的一种多分类方法,可用于分析疾病与各危险因素之间的定量关系。
logistic回归可用于流行病学危险因素分析、临床试验数据分析、分析药物或毒物的剂量反应和预测与判别。其变量选择可用前进法、后退法和逐步回归法筛选变量,可以用模型拟合优度检验自变量的预测能力。
而线性回归主要适用于计量资料,是一个或一组变量对应一个应变量之间具有线性关系的方程。线性回归可以用回归方程进行估计和预测,也可进行影响因素,统计控制。
在应用线性回归方程分析前,需要绘制散点图,可以用残插图来考察数据是否符合模型假设条件。
4.对量表的评价有哪些指标及其统计学方法?(10分)
答:量表考评包括量表的定性考评,如通过专家座谈或专家咨询的方式对量表及各条目进行定性评价,目的是完善量表的结构、修饰条目的措辞,筛选条目和确定各条目的权重。
量表的信度是评价量表的精密度、稳定性和一致性,即测量过程中随机误差造成测定值的变异程度的大小,常用的信度指标有重测信度、分半信度和克朗巴赫系数。效度是评价量表的准确度、有效性和正确性,即测定值与目标值真实值的偏差大小。效度指标有内容效度、标准关联效度和结构效度。量表的反应度指量表能测出不同对象、不同时间目标特征能力变化的能力,即反映对象特征值变化的敏感度。统计学方法包括统计描述和统计推断,前者采用统计图或统计量来描述量表测定值的分布、时间变化趋势和主要特征比较,后者包括横向比较和纵向比较。横向比较包括单变量分析和多变量分析,单变量分析包括t检验、方差分析和秩和检验等比较两组或多组量表总分和各领域或多方面的得分。多变量分析可以采用综合评价方法,如模糊判别法、Obrien综合法、秩和比法、TOPSIS法。纵向资料比较包括重复测量资料的方差分析。
5.生存分析的主要用途及其统计学方法有哪些?(20分)
答:生存分析时将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短、因此该类方法也被称为事件时间分析。它广泛应用于社会学、经济学、工程学等领域。
其统计方法有描述分析,即根据样本生存资料估计总体生存率及其他有关指标;比较分析,即是对不同组生存率进行比较分析,如比较使用与不同某药物的HIV阳性患者的生存率是否有所不同。常采用Log-rank检验与Breslow检验。影响因素分析,可以通过生存分析模型来探讨生存时间的因素,通常以生存时间和生存结局作为应变量,而将其影响因素,比如年龄、性别、药物使用作为自变量。通过拟合生存分析模型,筛选影响生存时间的保护因素和有害因素。方法有半参数法和参数法。半参数法有Cox比例风险模型,参数法有指数分布法、Weibull分布法、Gomertz分布法和对数logistic分布法。
6.比较甲、乙、丙、丁四种饲料对小白鼠体重的影响。实验对象为8窝小白鼠,每窝4只,
应采用何种实验设计方法?如果四种饲料是由脂肪含量和蛋白含量两个因素符合组成,研究目的是要分别分析脂肪含量高低、蛋白含量高低对小鼠体重的影响,应采用何种实验设计方法?试写出两种设计方法方差分析表中的部分内容?(20分)
答:第一种试验方案采用随机区组设计,该设计考虑了四种饲料和窝别的影响因素,方差分析表如表1所示。计算处理间和区组间的F值,检验P值。
表1 随机区组设计的方差分析表
变异来源df SS MS F
组间变异
组内变异
误差e
总变异
第二种试验考虑脂肪含量和蛋白含量两因素的交互作用,采用析因设计,可以计算单独