方积乾《卫生统计学》18 logistic回归-h
中山大学-《卫生统计学》教学大纲
《卫生统计学》教学大纲(预防医学专业)课程名称:卫生统计学 Health Statistics课程类别:专业基础必修课编号:51101045 学时:100学时主编姓名:凌莉单位:公共卫生学院职称:教授主审姓名:方积乾单位:公共卫生学院职称:教授授课对象:本科学生专业:预防医学年级:三年级编写日期:2005年4月一、课程的目的与教学基本要求1. 课程目的卫生统计学是数理统计与预防医学相结合的一门应用学科,是预防医学专业学生的专业基础必修课。
通过学习,使学生掌握统计设计、资料收集、整理和分析的基本理论和基本方法,培养学生的统计思维能力和应用技能,为其学习其它课程和阅读专业书刊、从事预防医学实践、进行科学研究打下必要的统计学基础。
卫生统计学教学大纲将卫生统计学理论分为要求牢固掌握、一般掌握和一般了解三个层次,以指导师生教与学。
2. 教学基本要求1)要求牢固掌握第一章统计学基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。
第二章描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件;描述定量资料离散趋势的极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件;掌握常用统计图表的制作方法。
第三章三类相对数(频率、强度和比)及常用指标、应用相对数的注意事项、动态数列常用指标(绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度)。
第四章三个常用概率分布(正态分布、二项分布和Poisson分布)的概念;二项分布及Poisson分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。
第五章均数及频率抽样误差的概念和标准误的计算;总体均数95%和99%置信区间的计算及适用条件;正态近似法计算总体概率的95%和99%置信区间及适用条件;标准差与均数标准误的区别。
第六章正态分布资料的t 检验、二项分布资料的Z 检验以及Poisson 分布资料的Z 检验的分析与计算过程,包括每种检验方法的适用条件和不同类型;学会综合考虑研究目的、设计类型、变量类型、样本含量等要素选择合适的假设检验方法的技巧。
108716-大学-公共卫生-8 生存分析
7 36 1 0 8 1/8=0.1250 0.8750 0.5715×0.8750=0.5001 0.1336
8 40 1 0 7 1/7=0.1429 0.8571 0.5001×0.8571=0.4286 0.1323
9 42 1 0 6 1/6=0.1667 0.8333 0.4286×0.8333=0.3571 0.1281
1. 完全数据
起点到终点事件发生所经历的时间,称为完全数据(complete data)
2. 删失数据
在规定观察期内未能观察到终点事件发生,并不知道确切的生存
时间,称为生存时间的删失数据(censored data)
4
二、死亡概率与生存概率 ▲ 频率描述过去的情况,概率预测今后的机会
1、死亡概率(probability of death)表示某时段开始时存活的个体,
2 64 1 0 0 03/05/1996 08/12/2000 54 1 死亡
3 52 2 0 1 04/09/1996 12/03/1999 44+ 0 失访
4 60 1 0 0 06/06/1996 10/27/2000 53+ 0 死于其它
5 59 2 1 0 07/20/1996 06/21/1998 23 1 死亡
生存时间(月)如下,试估计两组生存率。
肿瘤<3.0cm: 肿瘤≥3.0cm:
14 19 26 28 29 32 36 40 42 44+ 45 53+ 54 59+ 6 7 9 10 11 12 13 20 23 25
27 30 34 37 43 50
计算步骤如下: 1. 将生存时间(ti)由小到大顺序排列 2. 列出时间区间[ ti , ti+1 )上的死亡数 di 和删失数 ci 3. 计算恰在每一时刻 ti 之前的生存人数,即期初例数 ni 4. 计算各时间区间上的死亡概率 qˆi 和生存概率 pˆi 5. 按式(194)计算生存率 Sˆ (ti )
2023年大学_生物医学研究的统计方法(方积乾著)课后答案下载
2023年生物医学研究的统计方法(方积乾著)课后答案下载2023年生物医学研究的统计方法(方积乾著)课后答案下载一、基础篇1绪论1.1为什么要学习统计学1.2生物医学数据的________与类型1.3常用的基本概念1.4统计工作贯穿医学研究的全过程1.5结果报告1.6案例辨析1.7电脑实验1.8常见疑问与小结思考与练习2统计描述2.1定量资料的统计描述2.2定性资料的统计描述……生物医学研究的统计方法(方积乾著):图书信息《生物医学研究的统计方法》鉴于国内外生物医学论文普遍存在统计学缺陷的严峻局面,一批长期投身科研、热爱教学,战斗在第一线的医学统计学教授们合作编写了这本新型的教科书。
依据国际学术界对生物医学论文的统计学要求精选内容,以实际问题的“原型”为中心组织统计学概念和方法的教学。
全书分三篇26章:基础篇介绍统计学的思维逻辑与基本方法,应用篇进一步传授全面解决实际问题的本领,专题篇介绍生物医学研究若干热点领域常用的'统计方法。
每章在传授统计学知识之后,均设“结果报告”(中英文对照)、“案例辨析”、“电脑实验”、“常见疑问与小结”和“思考与练习”等5个节目。
附录中有统计软件sPSS和Excel的简介。
随书附送一片光盘,内有“电脑实验”的程序和输出、“案例辨析”以及“思考与练习”的参考答案。
生物医学研究的统计方法(方积乾著):内容简介点击此处下载生物医学研究的统计方法(方积乾著)课后答案生物医学研究的统计方法(方积乾著):目录书名: 生物医学研究的统计方法作者:方积乾出版社:高等教育出版社出版时间:ISBN: 9787040208412开本: 16定价: 69.00 元。
卫生统计学7版方积乾主编二定量资料的统计描述课件
2023/10/16
26
(2 ) 频率表法 当例数较多时,先将变量值从小到大编 制频率表,并分别计算累计频数和累计频率(见表2-5)。先
从累计频率找出M所在的组段,然后按下式计算。
式中L 为中位数所在组段的下限, i 为该组段的组距, fm 为 该组段的频数,ΣfL为小于L的各组段累计频数。
例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5, 试计算潜伏期的中位数。
A组
. . ...
B组
.....
C组
. ... .
常用的离散指标有:
极差、四分位数间距、方差、标准差和变异系数,最常 用的指标为标准差。
2023/10/16
33
一、极差和四分位数间距
1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最 小值之差。R值大,离散度就大; R值小,离散度就小。
用中位数表示平均水平主要适用于: ① 变量值中出现个 别特小或特大的数值;②资料的分布呈明显偏态,即大部分 的变量值偏向一侧;③变量值分布一端或两端无确定数值, 只有小于或大于某个数值;④资料的分布不清。
2023/10/16
24
(1)直接法 当例数较少时,先将变量值由小到大 顺序排列,再按以下公式计算。
2.频率表法: 当资料中相同变量值的个数f (即频数) 较多时,可通过频率表法计算几何均数,公式为
表2-4 52例慢性肝炎患者的 HBsAg滴度资料
2023/10/16
19
本例ΣflgX= 108.06977 , Σf=52 ,代入公式得
52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75
式中L为Px所在组段的下限, i为该组段的组距, fx为该组段
卫生统计学选择题(方积乾)
一、选择题(一)A1题每一道题下面有A、B、C、D、E五个被选答案,请从中选择一个最佳答案。
1.下面的变量中,属于分类变量的是(B)A.脉搏B.血型C.肺活量D.红细胞计数E.血压2.下面的变量中,属于定量变量的是(B)A.性别B.体重C.血型D.职业E.民族3.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于(A)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为(C)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断,样本应是(C)A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明(二)A2型每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择3一个最佳答案。
1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。
有180万儿童参与,约有1/4参与者得到了随机化。
这180万儿童是(C)A.目标总体B.研究总体C.1份样本D.1份随机样本E.180万份样本2.上述试验最终肯定了索尔克疫苗的效果。
请问此结论是针对(C)而言。
A.180万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。
(×)2.假变量可以参与计算,所以假变量是定量变量。
方积乾《卫生统计学》临床试验研究统计分析ppt课件
五、基线特征描述
基线定义为随机入组时间
病例特征一般包括:人口学信息、饮食运动情况、疾病情
况等
分中心 /处理组别进行描述
基线描述分析采用FAS数据集
基线描述的统计指标
定量资料:
正态---均数、标准差、最小、最大值
非正态---中位数、四分位数间距、最小、最大值
定性资料: 各分类频数(阴性数、阳性数)、构成比 等级资料: 各等级频数、构成比
FAS/ PPS /SS
全分析集(Full Analysis Set,FAS):指尽可能 接近符合意向性治疗原则的受试者集 符合方案集(Per Protocol Set,PPS):充分依从 于试验方案的受试者集,全分析集的子集
安全性数据集(Safety Set,SS):包括所有随机 化后至少接受一次治疗的受试者集
例
随机入组
入组病例及安全性、有效性分析集
试验组(%) 120(100.0) 114(95.00) 6(5.00) 对照组(%) 120(100.0) 110(91.67) 10(8.33) 合计(%) 240(100.0) 224(93.33) 16(6.67)
完成试验
试验期间脱落 脱落原因 不良事件 失访 其它
233(97.08) 215(89.58)
试验期间脱落病例清单
中心号
1 2 2
药物号
096 023 101
治疗分组
A组 A组 A组
入组时间
20020526 20020430 20020424
中止试验时间
脱落原因
失访 不良事件 不良事件
5 5 2 3
3(2.50)
2(1.67) 1(0.83) 118(98.33)
医学研究中logistic回归模型的正确应用(一)
医学研究中logistic回归模型的正确应用(一)
方积乾;陈和年
【期刊名称】《中国卫生统计》
【年(卷),期】1993(010)004
【摘要】logistic回归模型现已广泛应用于医学领域,计算机软件也甚普遍。
随之而来,应用不当乃至错用亦属常见。
本文拟从模型的来龙去脉、相对机会比的计算、方法的选用和参数的统计推断等几个方面阐述其在医学研究中正确应用的根据,并指出常见错误之处。
【总页数】4页(P54-57)
【作者】方积乾;陈和年
【作者单位】中山医科大学卫生统计学教研室
【正文语种】中文
【中图分类】R195.1
【相关文献】
1.医学研究中logistic回归模型的正确应用(二) [J], 方积乾;陈和年
2.医学研究生在当代医学研究中“代谢组学分析技术平台”应用能力的培养 [J],
王媛;王雪;刘燕;檀鑫;王绿娅;杜杰
3.加权Logistic回归模型在斑岩铜矿预测中的应用——以中—哈边境扎尔—玛萨
吾尔成矿带为例 [J], 努丽曼古·阿不都克力木;张晓帆;陈川;徐仕琪;赵同阳
4.生物统计学在临床医学科研中的正确应用(一)——方差分析的正确应用 [J], 李
河;谭宁;孙家珍
5.浅议医学研究中t检验与方差分析的正确应用 [J], 孙维权
因版权原因,仅展示原文概要,查看原文内容请购买。
精品课程医学统计学教学课件-logistic回归分析
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
生物医学研究的统计学方法课后习题答案主编方积乾
思考与练习参考答案第1章绪论一、选择题1.研究中的基本单位是指(D)。
A.样本B.全部对象C.影响因素D.个体E.总体2.从总体中抽取样本的目的是(B)。
A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例D.研究总体统计量E.计算统计指标3.参数是指(B)。
A.参与个体数B.描述总体特征的统计指标C.描述样本特征的统计指标D.样本的总和E.参与变量数4.下列资料属名义变量的是(E)。
A.白细胞计数B.住院天数C.门急诊就诊人数D.患者的病情分级E.ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制B.无方向性C.也称为偏倚D.不可避免 E.增加样本含量可降低其大小二、名称解释(答案略)1.变量与随机变量2.同质与变异3.总体与样本4.参数与统计量5.误差6.随机事件7.频率与概率三、思考题1.生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。
而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。
2.某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。
卫生统计学第7版 方积乾主编 课件第三章 定性资料的统计描述
为年龄别生育率;Lx为女性寿命表中各年龄组平均存活率。
NRR>1,表明未来人口将增加,NRR<1,表明未来人 口将减少。
2018/3/7 24
9.婴儿死亡率(infant mortality rate , IMR)
同年 1周岁死亡人数 IMR 1000/ 1000 同年活产儿总数
活产的世界卫生组织(WHO)定义为:新生儿分娩 后有呼吸、心跳、脐动脉搏动等生命现象者称为活产。婴
个月内某病发生84人,月发病率=84/10000×3=28/万
2018/3/7
7
三、相对比
相对比( relative ratio )简称为比( ratio ),是 A , B 两个有关指标之比,说明A是B的若干倍或百分之几,通常 用倍数或分数表示。计算公式为
A 比 (或× 100%) B
两个比较指标可以性质相同,也可以性质不同。如相 对危险度(RR)、变异系数(CV)等;A、B两个指标 可以是绝对数、相对数或平均数等。
分为时点人口数和平均人
时点人口数:7月1日零时人口数。
平均人口数:相邻两年年末人口数的平均值。常用于 计算出生率、死亡率、发病率等指标的分母。
2.人口构成及其统计指标 (1)人口金字塔(population pyramid) 人口金字塔是以图形的方式表达人口的性别和年龄构成。
2018/3/7
13
2018/3/7
儿死亡率被公认为是反映居民健康水平、社会经济及卫生
服务水平,特别是妇幼卫生服务质量的敏感指标。它不受 人口构成的影响,不同的国家和地区可直接进行比较。同
时婴儿死亡率是编制寿命表的重要指标,直接影响到预期
寿命的高低。
2018/3/7 25
卫生统计学第二版习题册方积乾答案与解析
卫生统计学第二版习题册方积乾答案与解析第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施;(2)不能随机分组;(3)很难控制干扰因素;(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便:缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小:缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计:缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查:缺点是抽样误差大。
3、调查设计包括那些基本内容?答:(1)明确调查目的和指标;(2)确定调查对象和观察单位;(3)选释调查方法和技术;(4)估计样本大小;(5)编制调查表;(6)评价问卷的信度和效度;(7)制定资料的收集计划;(8)指定资料的整理与分析计划;(9)制定调查的组织措施。
4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。
医学统计学logistic回归
方积乾 中山大学公共卫生学院
2013.5
第一节 Logistic回归模型 Logistic regression model
例18-1 大肠癌患者的年龄可能影响5年生存状态 (存 活:0, 死亡: 1)。现有158例经手术治疗大肠癌患者, 欲 分析生存状态 Y 和年龄 X 的关系。
1.1872 1.0094 X1 0.0430 X 2 1.3605X 3 ... 2.0213X 7 P(Y 1 X1, X 2,..., X 7 )
1 e 1 (1.18721.0094X10.0430X 2 1.3605X 3 ...2.0213X 7 )
二、假设检验和区间估计
)
0
X
1
e(0X ) e(0X
)
1 1 e(0 X )
最后两式的右端系 logistic 函数,故均称为 logistic 回归模型。
更复杂的实际问题!
例18-1 大肠癌患者临床病理因素对可能影响预后。 现有158例经手术治疗大肠癌患者: 性别 (女:0 , 男:1)、年龄、 组织学分类 (乳头状腺癌: 0, 管状腺癌: 1) 肿瘤大小 (6cm及以上: 0, 6cm以下: 1) Dure’s分期 (A: 1, B: 2, C: 3, D: 4) 淋巴管浸润 (无: 0, 有: 1)、血管浸润 (无: 0, 有:1) 5年生存状态 (存活:0, 死亡: 1) 欲预测经手术治疗大肠癌患者5年生存概率。
Y
1 0 1 1 0 ...
1 0 1 1 1
自变量扩展到 P 个, X ( X1 , X 2 ,..., X p )
一般的 logistic 回归模型:
ln(Odds) 0 1 X 1 p X p 或 log it( ) 0 1 X1 p X p
Logistic逐步回归分析方法在模拟专家辨证诊断中的应用研究
Logistic逐步回归分析方法在模拟专家辨证诊断中的应用研究刘凤斌;郝元涛;方积乾【期刊名称】《中国中医基础医学杂志》【年(卷),期】2001(007)002【摘要】目的:模拟专家辨证诊断的经验,便于编制电脑专家诊断系统。
方法:运用现代多元统计Logistic逐步回归分析方法,按照诊断树的步骤计算出诊断树各枝杈和尾端各证型的诊断指数和Logistic回归方程。
按诊断树各枝杈证型出现的概率连乘求出尾端证型(总的辨证分型)的概率。
结果:Logistic逐步回归分析预测虚和实的结果与专家诊断的总符合率为88%;主证的总的符合率为93.8%;兼证的总符合率为79.7%。
结论:Logistic逐步回归分析方法充分考虑了每一个变量和诊断树每一个枝杈对证的贡献度,符合专家临床逻辑思维过程和接近临床实际。
【总页数】2页(P58-59)【作者】刘凤斌;郝元涛;方积乾【作者单位】广州中医药大学第一附属医院,广东广州 510405;中山医科大学卫生统计学教研室,广东广州 510000;中山医科大学卫生统计学教研室,广东广州510000【正文语种】中文【中图分类】R256.304【相关文献】1.多变量统计分析方法在制冷故障检测与诊断中的应用研究 [J], 康嘉;谷波;韩华2.关联维数分析方法在液压泵多故障诊断中的应用研究 [J], 吴胜强;陈海燕;刘思远3.脏腑辨证专家系统在中医诊断教学中的使用研究 [J], 年玮4.聚类分析方法在泥沙粒径分级模拟中的应用研究 [J], 韩玉梅;包芸;任杰5.基于BIM的建筑性能化模拟分析方法在地铁车站中的应用研究 [J], 张洪伟;李惠因版权原因,仅展示原文概要,查看原文内容请购买。
多元logistic回归的共线性分析
多元logistic回归的共线性分析
赵宇东;刘嵘;刘延龄;肖峰;张扬
【期刊名称】《中国卫生统计》
【年(卷),期】2000(017)005
【摘要】目的探讨多元logistic回归分析中共线性诊断的评价指标.方法通过对logistic模型求解算法的分析,把线性回归中的共线诊断工具推广至非线性,详细介绍了评价过程、诊断标准及解决途径,最后应用到儿童奶瓶龋影响因素分析的实例中加以验证.结果获得了logistic回归模型中关于共线性的重要信息.通过实例对详细过程进行了解答.结论诊断方法能有效地检测到共线关系,为进一步采取备择方法提供准确依据,从而避免了错误结论的得出.
【总页数】3页(P259-261)
【作者】赵宇东;刘嵘;刘延龄;肖峰;张扬
【作者单位】中国医科大学卫生统计教研室,110001;中国医科大学卫生统计教研室,110001;中国医科大学卫生统计教研室,110001;鞍山市卫生防疫站;沈阳市皇姑区牙病防治所
【正文语种】中文
【中图分类】R1
【相关文献】
1.多元分析中的多重共线性及其处理方法 [J], 杨梅;肖静;蔡辉
2.多因子共线性的主成分logistic回归分析 [J], 陈雄飞;董晓梅;汪宁;方积乾
3.胃癌危险因素研究中多因子共线性的logistic回归分析 [J], 鞠振宇;姜又红;肖峰
4.多元回归分析中多重共线性的处理 [J], 孟庆和
5.通径分析在林业多元线性模型共线性分析中的应用研究 [J], 吴明山;胥辉
因版权原因,仅展示原文概要,查看原文内容请购买。
方积乾卫生统计学多重线性回归与相关课件
21
第四节 自变量筛选
2021/4/4
方积乾卫生统计学多重线性回归与相关
23
一、自变量筛选的标准与原则
1.残差平方和缩小或决定系数增大 R2 1 SS残 SS总
2021/4/4
方积乾卫生统计学多重线性回归与相关
24
2.残差均方缩小或调整决定系数增大
MS残
n
SS残 p1
Ra2
1
MS残 MS总
2021/4/4
方积乾卫生统计学多重线性回归与相关
28
2.前向选择(forward selection)
该方法从仅含常数项的模型开始,首先对每个变量计算 反映其进入模型后该变量对新模型贡献量的F值,然后 将最大F值与预先指定的临界值(Fin)比较,如果最大 F值超过Fin, 则将最大F值所对应的自变量引入模型,否 则,停止运行;然后在已有一个自变量的模型基础上, 重复以上比较过程…… 这样,每次给模型增添一个变量, 直到剩下的变量再不能使最大F值超过Fin值为止。
2021/4/4
方积乾卫生统计学多重线性回归与相关
17
调整的R2 (Adjusted R-Square)
Ra2d1M M残 总 SS差 R2p n( 1pR 21)
R
2 a
0.7312
4(1 0.7312) 30 4 1
0.7312
0.0430
0.6882
2021/4/4
方积乾卫生统计学多重线性回归与相关
R 2 1773.343 1 651.958 0.7312 2425.301 2425.301
2021/4/4
方积乾卫生统计学多重线性回归与相关
16
复相关系数(multiple correlation coefficient)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“发生出血症状”的优势是参照类(X=0)“发生出血症状”优势的 1.5306 倍。
p1 p0 时, Odds1 Odds0 , OR 1
p1 p0 时, Odds1 Odds0 , OR 1
For easy understanding:
优势比 (OR)反应了某暴露(或者某因素)是否容易导致
某结局(如发病)
32
1
肿瘤大 Dure’s 分
小
期
X4
X5
0
2
1
4
1
3
1
2
1
2
... ...
1
3
1
3
0
3
1
1
1
2
淋巴管
浸润
X6
0 1 1 0 0 ...
0 0 0 0 0
血管浸
润
X7
0 0 1 0 0 ...
1 0 1 0 0
5 年生存
状态
Y
1 0 1 1 0 ... 1 0 1 1 1
该研究旨在建立大肠癌患者 5 年死亡率与临床病理因素间的数量关系模型,通过临 床病理因素预测患者 5 年死亡概率。
用 2检验(或 t 检验)的局限性: ➢ 分析较少的影响因素; ➢ 混杂因素的作用未加以控制; ➢ 对因素的作用只能得出定性结论。
精选ppt课件
8
第一节 logistic 回归模型
一、logistic 回归模型
例 18-1 大肠癌患者临床病理因素对其预后可能产生影响。某研究者收集了 158 例经 手术治疗大肠癌患者的资料,通过因素分析,以预测经手术治疗大肠癌患者 5 年生 存概率。患者有关资料整理结果见表 18-1。
在医学研究中, 经常要分析某种结果的产 生与哪个或哪些因素有关。
例如:生存与死亡, 发病与未发病, 阴性 与阳性等结果的产生可能与病人的年龄(连 续型变量)、性别(二分类变量)、生活习 惯(无序多分类变量)、体质、遗传等许多 因素有关。
如何找出其中哪些因素对结果的产生有显 著性影响呢?Logistic回归分析能较好地解 决这类问题。
未出血例数( Y =0) 合 计
46 981(b)
47 136(a+b)
44 538(d)
44 634(c+d)
服用药组(有暴露史),发生出血症状的条件概率:
p1
=
a
a
b
;
服用药组(有暴露史),不发生出血症状的条件概率:1
p1 =
a
b
b
,
优势:
Odds1
P(pY1 =1 Xa 1P(Yp1 0 Xb
变量及其取值
变量
取值
X1 性别 X2 年龄 X3 组织学分类 X4 肿瘤大小 X5 Dure’s 分期 X6 淋巴管浸润 X7 血管浸润 Y 5 年生存状态
女:0,男:1
乳头状腺癌:0,管状腺癌:1 6cm 及以上:0,6cm 以下:1 A:1,B:2,C:3,D:4 无:0,有:1 无:0,有:1 存活:0,死亡:1
精选ppt课件
9
表 18-1 158 例经手术治疗大肠癌患者临床病理因素及 5 年生存状态资料
组织学
患者 性别 年龄(岁) 分类
编号
X1
X2X311ຫໍສະໝຸດ 64120
47
1
31
41
1
41
77
1
51
59
0
... ... ... ...
154 1
49
1
155 0
43
1
156 1
70
1
157 1
72
1
158 0
第十八章 logistic回归分析
郝春 中山大学 公共卫生学院
精选ppt课件
Y
0
1 X1
2 X 2
m X m
Y: 血压值 or 血红蛋白含量 or 白细胞数 or BMI值…
But if 发病/不发病,生存/死亡,无效/好转/ 痊愈…
X:年龄、性别、治疗药物、生活习惯、遗 传…
精选ppt课件
2
Logistic回归分析
Y
0
1 X1
2 X 2
m X m
Logistic回归:
Y
??
0
1 X1
2 X 2
m X m
精选ppt课件
12
0 P 1
P 1 P :0~+∞
1P
00..55
ln( P ) :-∞~∞ 1 P
0
Z
-4 -3 -2 -1 0 1 2 3 4
logistic函数的图形
ln( P ) 1 P
Y
log it(P)
=10).0033,1服用药组“发生出血症状”比“不发生出血症状”的优势, 1) 11
取值范围 0 至+ 。
未服用药组(无暴露史),发生出血症状的条件概率:
p0
=
c
c d
;
未服用药组(无暴露史),不发生出血症状的条件概率:1
p0 =
c
d
d
,
优势: Odds0
P(pY0 = 1 Xc 1P( Yp0 0 Xd
• 分析:关键是自变量与因变量的关系问题(简单回归与多重回归)
因变量二分类
精选ppt课件
10
应变量Y
1 0
发生 未发生
,自变量 X1, X 2 ,
, Xm
在m个自变量的作用下阳性结果发生的概率记作:
P P(Y 1| X1, X 2, , X m ) 0 P 1
精选ppt课件
11
多重线性回归:
精选ppt课件
3
优势与优势比 (Odds, Odds Ratio)
考察非甾体抗炎药品是否引起上消化道出血不良反应。调查47 136例 服用该药的患者中,有155例上消化道出血;同期没有服用该药的44 634例对照中,有96例上消化道出血。
表 18-1 上消化道出血症状与非甾体抗炎药物的关结系局
服用该药( X =1) 未用该药( X =0)
出血例数(Y =1)
155(a) 96(c)
未出血例数(Y =0) 合 计
46 981(b)
47 136(a+b)
44 538(d)
44 634(c+d)
暴露、关
心的因素
精选ppt课件
4
上消化道出血症状与非甾体抗炎药物的关系
服用该药( X =1) 未用该药( X =0)
出血例数( Y =1)
155(a) 96(c)
精选ppt课件
6
Logistic回归
概念: 属于概率型非线性回归,常用于研究1个二分类观察结果与1 个或多个影响因素之间关系的一种多变量分析方法。
资料特征: •1个因变量(二分类,多分类) •1个或多个自变量,可以是连续型变量或离散型变量(包括 等级变量或分类变量)
精选ppt课件
7
用途:研究某疾病或现象发生与否,和一个或者多 个影响因素(危险因子或保护因子)的数量关系。
=00.)0022, 0为未服用药组“发生出血症状”比“不发生出血症状”的优势。 0) 10
精选ppt课件
5
优势比:Odds Ratio (OR)
OR Odds1 ,
OR
p1 /(1 p1 ) = ad =1.5306
Odds0
p0 /(1 p0 ) bc
其含义是:以未服用该药品人群 (X=0) 作为参照类,服用该药品人群 (X=1)