基于logistic模型的恶性肿瘤影响因素分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA (SCIENCE AND TECHNOLOGY )
中国传媒大学学报(自然科学版)
第26卷,第6期Vol 26,No 62019年12月
Dec ,2019
基于Logistic模型的恶性肿瘤影响因素分析
张姝ꎬ张辉ꎬ刘珉慧
(中国传媒大学数据科学与智能媒体学院ꎬ北京100024)
摘要:目前危害我国居民乃至人类生命健康的主要威胁就是 恶性肿瘤 也就是 癌症 ꎬ而公认的综合治疗恶性肿瘤的方法之一就是中医疗法ꎮ本文将利用Apriori模型对乳腺癌患者的病理信息进行关联分析ꎬ找出六个乳腺癌中医证型与TNM分期之间的关联规则ꎬ在此基础上ꎬ通过建立logistic回归模型并进行分析ꎬ重点研究了各中医证型对乳腺癌病程阶段的影响因素构成以及各因素影响效果和作用ꎮ本文希望通过发现各证型与乳腺癌相关病情的微妙联系及影响规律ꎬ为预测病情㊁分析病因以及各阶段的临床治疗提供指导和参考ꎮ关键词:中医证型ꎻ乳腺癌ꎻ关联分析ꎻLogistic模型
中图分类号:O213.9㊀文献标识码:A㊀文章编号:1673-4793(2019)06-0067-06
AnalysisofInfluencingFactorsofMalignantTumors
BasedonLogisticModel
ZHANGShuꎬZHANGHuiꎬLIUMin ̄hui
(SchoolofDataScienceandIntelligentMediaꎬCommunicationUniversityofChinaꎬBeijing100024)
Abstract:Atpresentꎬthemainthreattothelivesandhealthofourresidentsandhumanbeingsis malig ̄
nanttumors ꎬthatisꎬ cancer ꎬandoneofthegenerallyacceptedmethodsforcomprehensivetreatmentofmalignanttumorsistheChinesemedicinemethod.ThisarticlewillusetheApriorimodeltoanalyzethepathologicalinformationofbreastcancerpatientsꎬfindouttheassociationrulesbetweenthesixTCMsyn ̄drometypesofbreastcancerandTNMstaging.BasedonthisꎬbyestablishingalogisticregressionmodelandanalyzingꎬStudyonthecompositionofinfluentialfactorsofTCMsyndromesonthecourseofbreastcancerꎬandtheeffectsandeffectsofeachfactor.Thisarticlehopestodiscoverthesubtleconnectionbe ̄tweenthevarioustypesofsyndromesandTNMstagesItalsoprovidesguidanceandreferenceforpredic ̄tingtheconditionꎬanalyzingtheetiologyandclinicaltreatmentofeachstage.
Keywords:TCMsyndromesꎻbreastcancerꎻassociationanalysisꎻlogisticmodel
1㊀引言
如今ꎬ不仅是年长的人也不仅是中国人接受并喜爱中医ꎬ这是一个中医在全世界都很火热的时代ꎬ
中医治疗讲究先归纳证型再以辨证论制定治疗原则ꎮ世界卫生组织于2018年10月1日首次在其具有全球影响力的医学纲要中加入了中医部分[1]ꎬ针对中医的数据进行科学的建模ꎬ可以对病情的预测㊁
病因的确定㊁治疗方法的制定提供更多科学性的帮收稿日期:2019-11-29
作者简介:张姝(1996-)ꎬ女(汉族)ꎬ河北唐山人ꎬ中国传媒大学硕士研究生ꎬE-mail:zs1009@cuc.edu.cn
中国传媒大学学报(自然科学版)第26卷
助ꎮ在对中医证型进行关联分析的基础上构建Lo ̄gistic模型ꎬ可以通过对病人的信息建立数据库ꎬ进而从大量的数据中找出某些因素之间妙不可言的关联ꎬ尤其对研究对象的影响因素进行更加深入和深刻的分析ꎮ
目前ꎬ很多医学上的危险因素分析和病情预测都利用到了构建Logistic模型ꎮ李嘉ꎬ徐继威等人(2018)在研究脾切除术后门脉系统血栓形成的高危因素时ꎬ根据63例脾切除术案例建立了多元Lo ̄gistic回归模型ꎬ最终发现影响脾切除术后门脉系统血栓形成的危险因素ꎬ尤其发现了影响术后血栓形成的独立高危因素ꎬ此项研究可以为不同患者的个性化治疗提供参考ꎬ有助于预防门脉血栓的形成以及帮助患者尽早恢复[2]ꎻ阮承兰㊁张骏飞等人(2014)利用Logistic模型找到了肝衰竭预后的预测模型ꎬ筛选出了可能影响肝衰竭预后的因素ꎬ在此基础上建立了二项Logistic回归模型ꎬ并且了绘制ROC曲线ꎬ得到了准确率较高的拟合回归方程ꎬ对肝衰竭预后的预测有一定的指导作用[3]ꎻ侯丕华㊁陈改玲(2014)基于311例老年高血压病患者进行中医证型研究ꎬ得到了老年人高血压病中医证型分布规律及相关影响因素[4]ꎻ汤巧玲(2014)利用进行了干支运气与疾病中医证型的关联性研究ꎬ通过探讨内科疾病六气㊁五脏相关证型的分布与干支运气推演出的疾病趋势之间的关联性ꎬ进而评价了干支运气对中医证型的影响程度ꎬ同时在现代气象学的角度研究了自然界的气象因子与中医的六气相关证型之间的关联性[5]ꎻ袁香凝(2010)总结了她对219例女性痤疮患者进行抑郁状态及中医证型的关联分析结果ꎬ为之后抑郁状态寻常痤疮的中医临床辨证治疗以及预防调摄提供了指导原则[6]ꎮ目前我国在西医的相关研究中常见Logistic模型的构建使用ꎬ但是在中医证型的影响因素及证型预测的研究中ꎬ鲜少见到Logistic模型的使用ꎬ本文就是利用Logis ̄tic模型对收集到的中医证型数据进行分析ꎬ希望为未来解决乳腺癌的预测问题提供帮助ꎮ
2㊀Logistic模型
2.1㊀模型简介
连续变量的分析一般会采用经典的线性回归ꎬ而在现实的分析中ꎬ因变量是离散变量的情况更加常见ꎬ为了解决因变量为离散变量的分类问题ꎬLo ̄
gistic模型就是很好的选择ꎬ它自身就是数据分析里很实用且应用广泛的分析技术ꎮLogistic模型在流行病学中的使用较多ꎬ其实它在风险预测㊁信息传播㊁商品销售预测等方面都有良好且广泛的应用ꎬ系统地说ꎬLogistic模型有以下三个用途: (1)找寻对研究对象影响较大的因素ꎬ例如本论文中便要利用Logistic模型来找到六证型对乳腺癌病程阶段的影响性分析ꎻ
(2)判别一件事情发生的概率ꎬ例如在医学中用来判别某人得了某种疾病的概率是多少ꎬ即判别某人有多少的可能性得了某种病ꎻ
(3)预测在不同解释变量的情况下ꎬ解释变量有怎样的概率发生ꎬ例如某人未来在不同的条件下ꎬ将会有多大的概率得某些疾病ꎮ
2.2㊀模型原理
设X为随机变量ꎬ若X服从Logistic分布ꎬ则
P(X)=ex
1+exꎬ其分布图像如下:
图1㊀Logistic分布图像
在二项Logistic回归中被解释变量取值为0或1ꎬLogistic模型为:
P(Y=0|x)=1
1+exp(w x)
P(Y=1|x)=exp(w x)
1+exp(w x)
其中ꎬx=(x1ꎬx2ꎬ ꎬxnꎬ1)为输入样本ꎬw=(w1ꎬw2ꎬ ꎬwnꎬb)(b为偏置)为权值向量ꎬ此模型可以求得二分类被解释变量的概率ꎬ将x分到概率较大的一类ꎮ在Logistic模型中使用最大似然法估计参数ꎬ训练集T={(x1ꎬy1)ꎬ(x2ꎬy2)ꎬ ꎬ(xnꎬyn)}ꎬ设P(Y=0|x)=1-pꎬP(Y=1|x)=pꎬ似然函数为:
86
第6期张姝等:基于Logistic模型的恶性肿瘤影响因素分析L=ᵑNi=1pyi(1-p)1-yi
将其取对数得到对数似然函数为:
L(w)=ðNi=1[yi(w xi)-log(1+exp(w xi))]
可利用梯度下降法对上式求最大值可估计参数ꎮ
二项Logistic模型只用于被解释变量二分类的
情况ꎬ但本文要研究的被解释变量是多元的ꎬ对于被
解释变量多类的情况下ꎬ可将二项Logistic模型推广
到多项Logistic模型ꎬ设Y的取值为{1ꎬ2ꎬ ꎬN}ꎬ
Logistic模型为:
P(Y=k|x)=
exp(wk k)
1+exp(wk k)ꎬk=1ꎬ2ꎬ ꎬ
N-1
P(Y=N|x)=1
1+ðN-1k=1exp(wk k)ꎬk=1ꎬ2 ꎬN-1其参数估计方法依旧可以从二项Logistic模型推广ꎮ
3㊀实证分析
3.1㊀数据描述
本论文数据来自«Python数据分析与挖掘实战»中实战部分第八章«中医证型关联规则挖掘»[7]给出的调查问卷数据ꎬ共有930条有效的乳腺癌病人病理数据ꎬ包括肝气郁结证型㊁热毒蕴结证型㊁冲任失调证型㊁气血两虚证型㊁脾胃虚弱证型和肝肾阴虚证型这六大中医证型的得分ꎬ还包括病程阶段㊁
TNM分期这两项乳腺癌相关描述ꎬ在本文中ꎬ除了对这六项中医证型与乳腺癌TNM分期进行关联分析外ꎬ重点是找出六个症候指标对乳腺癌病程阶段的影响规律ꎮ
3.2㊀数据关联性分析
3.2.1㊀数据预处理
数据进行有效性检查之后开始进行数据的属性构造ꎬ由于六项指标的数据均为证型的得分ꎬ是连续型的数值变量ꎬ无法使用Apriori算法将其进行关联分析ꎬ需要将数据进行离散化ꎮ首先将930条数据中六大指标的分数进行简单计算ꎬ将具体的证型得分用证型系数代替ꎬ证型系数计算原理是将该证型的得分除以该证型的总分得到该证型系数ꎬ继而在Python中对数据进行聚类分析ꎬ使用K-Means聚类法将数据化分为四组完成数据的离散化ꎬ其中A㊁B㊁C㊁D㊁E㊁F按顺序表示六个证型ꎬIn表示六证型在系数范围内的个数ꎬ离散表如下ꎮ
表1㊀数据离散表
1234
A[0ꎬ0.1793)[0.1793ꎬ0.2580)[0.2580ꎬ0.3518)[0.3518ꎬɕ)An24435228153B[0ꎬ0.1535)[0.1535ꎬ0.2982)[0.2982ꎬ0.4900)[0.4900ꎬɕ)Bn34238017929C[0ꎬ0.2019)[0.2019ꎬ0.2887)[0.2887ꎬ0.4233)[0.4233ꎬɕ)Cn29639320635D[0ꎬ0.1744)[0.1744ꎬ0.2535)[0.2535ꎬ0.3600)[0.3600ꎬɕ)Dn29836722144E[0ꎬ0.1527)[0.1527ꎬ0.2579)[0.2579ꎬ0.3761)[0.3761ꎬɕ)En27331924593F[0ꎬ0.1791)[0.1791ꎬ0.2614)[0.2614ꎬ0.3546)[0.3546ꎬɕ)Fn200237265228
㊀㊀以A和An行为例:A指标的930个数据中属于第一类(证型系数大于等于0且小于0.179)的数据共有244个ꎬ以此类推其他五个指标的聚类结果ꎮ目前得到了六个指标的分类界限ꎬ接下来再利用
96
中国传媒大学学报(自然科学版)第26卷
Excel对每一条指标的第一个数据进行是否的命名操作ꎬ使数据根据聚类分析得到的结果得到归类ꎬ例如在A指标下的第一个数据中设定:满足大于等于0且小于0.179的项命名为A1ꎬ以此类推A2㊁A3㊁A4ꎬ之后快速填充该列数据ꎬ就将该指标下的数值型数据全部转换为了4类ꎬ对其余五个指标的数据进行相同的操作ꎬ最终处理后的样本类型如下:
表2㊀数据样本类型表
变量名称变量代称样本类型
肝气郁结证型系数AA1A2A3A4
热毒蕴结证型系数BB1B2B3B4
冲任失调证型系数CC1C2C3C4
气血两虚证型系数DD1D2D3D4
脾胃虚弱证型系数EE1E2E3E4
肝肾阴虚证型系数FF1F2F3F4
病程阶段SS1S2S3S4
TNM分期HH1H2H3H43.2.2㊀数据关联分析
为了说明哪些情况容易产生疾病以及疾病所处分期ꎬ基于Apriori算法的流程[8]在spssmodeler中建立模型ꎬ创建连接数据㊁依据支持度和置信度进行剪枝迭代多次直到搜索完成ꎬ得到三个以乳腺癌TNM分期为相关结果的关联规则:
(1)A3-F4-H4ꎬ其支持度为7.85%㊁置信度为87.95%ꎻ
(2)C3-F4-H4ꎬ其支持度为7.52%㊁置信度为87.5%ꎻ
(3)B2-F4-H4ꎬ其支持度为6.23%㊁置信度为79.45%ꎻ
这表示ꎬ肝气郁结证型系数在第三阶段㊁肝肾阴虚证型系数在第四阶段的人是乳腺癌TNM分期的H4期的可能性为87.95%ꎬ而该事件发生的可能性为7.85%ꎬ同理有冲任失调证型系数在第三阶段㊁肝肾阴虚证型系数在第四阶段的人是乳腺癌TNM分期的H4期的可能性为87.5%ꎬ而该事件发生的可能性为7.52%ꎻ热毒蕴结证型系数在第二阶段㊁肝肾阴虚证型系数在第四阶段的人是乳腺癌TNM分期的H4期的可能性为79.45%ꎬ而该事件发生的可能性为6.23%ꎮ3.3㊀乳腺癌病程阶段影响因素分析
将处理后的离散化数据输入spss软件中开始进行多项Logistic回归分析ꎬ建立主效应模型[9]ꎮ对因变量是病程阶段ꎬ自变量为肝气郁结证型系数㊁热毒蕴结证型系数㊁冲任失调证型系数㊁气血两虚证型系数㊁脾胃虚弱证型系数和肝肾阴虚证型系数的模型进行了分析ꎮ
个案处理摘要给出了样本在乳腺癌病程阶段与六项指标上的分布情况ꎬ其中ꎬ病程阶段位于S2阶段的样本较多ꎬ肝肾阴虚证型分布大致均匀ꎬ其余五项指标的样本分布都表现出了在第二阶段达到最多且大于35%㊁第四阶段达到最少且小于等于10%的情况ꎮ
表3㊀伪R方结果
Cox&Snell0.738
Nagelkerke0.792
McFadden0.498
Cox&SnellR2和NagelkerkeR2在0.7到0.8之间ꎬ且McFadden统计量位于0.3到0.5之间ꎬ体现出该模型的拟合度较为理想ꎮ从零模型和当前模型的回归方程显著性检验结果可以看出似然比卡方值为1248.348ꎬ概率P值为0ꎬ本文设定显著性水平α为0.05ꎬ说明本次模型选择正确ꎮ
Spss软件中选取病程第一阶段S1和六大证型系数的第四阶段I4作为参照类进行模型参数估计ꎬ则根据输出结果可以得到以下广义Logit方程:
LogitPS2=ln[P(y=S2|X)
P(y=S1|X)]
=3.463+0.729A1+1.050A2+0.362A3
+0.609B1-0.512B2+0.218B3
-0.971C1-0.877C2-0.685C3
+0.037D1+0.018D2-0.166D3
-4.167E1-3.246E2+0.23E3
-1.088F1-0.503F2-0.122F3
该式是乳腺癌病程处于S2阶段与病程处于S1阶段概率比例的自然对数模型ꎬ可见: (1)当热毒蕴结㊁冲任失调㊁气血两虚㊁脾胃虚弱和肝肾阴虚这五项证型系数所处阶段相同时ꎬ肝气郁结证型系数处于第一㊁二㊁三阶段的比率自然对数分别比参照类(肝气郁结证型系数处于第四阶段)平均增加0.729㊁1.05和0.362个单位ꎬ肝气郁
07
第6期张姝等:基于Logistic模型的恶性肿瘤影响因素分析
结证型系数处于第一㊁二㊁三阶段的概率比率分别是参照类的2.073㊁2.858和1.436倍ꎮ肝气郁结证型系数处于前三个阶段比第四阶段对乳腺癌病程处于
S2阶段的影响大ꎬ但统计上不显著ꎬ即肝气郁结证型系数处于前三个阶段与第四阶段比较而言ꎬ对乳腺癌病程处于S2阶段的影响并无差异ꎮ(2)当肝气郁结㊁热毒蕴结㊁冲任失调㊁气血两虚和肝肾阴虚这五项证型系数所处阶段相同时ꎬ脾胃虚弱证型系数处于第一㊁二阶段的比率自然对数分别比参照类(脾胃虚弱证型系数处于第四阶段)平均减少4.167和3.246个单位ꎬ处于第三阶段的比率自然对数比参照类平均增加0.23个单位ꎬ脾胃虚弱证型系数处于第一㊁二㊁三阶段的概率比率分别是参照类的0.015㊁0.039和1.259倍ꎮ脾胃虚弱证型系数处于前两个阶段比第四阶段对乳腺癌病程处于S2阶段的影响小ꎬ且统计上显著ꎬ即脾胃虚弱证型系数处于前两个阶段与第四阶段比较而言ꎬ对乳腺癌病程处于S2阶段的影响差异显著ꎻ脾胃虚弱证型系数处于第三阶段比第四阶段对乳腺癌病程处于S2阶段的影响大ꎬ但统计上不显著ꎬ即脾胃虚弱证型系数处于第三阶段与第四阶段比较而言ꎬ对乳腺癌病程处于S2阶段的影响并无差异ꎮ
剩余证型系数因素对病程阶段的影响可以根据以上分析结果类推ꎬ最后得到:
(1)对乳腺癌病程处于第二阶段的影响:脾胃虚弱证型系数处于前两阶段小于第四阶段ꎬ肝肾阴虚证型系数处于第一阶段大于第四阶段ꎻ(2)对乳腺癌病程处于第三阶段的影响:肝气郁结证型系数处于第一阶段大于第四阶段ꎬ脾胃虚弱证型系数处于第一阶段小于第四阶段ꎬ肝肾阴虚证型系数处于前两阶段小于第四阶段ꎻ(3)对乳腺癌病程处于第四阶段的影响:肝气郁结证型系数处于前三阶段大于第四阶段ꎬ冲任失调证型系数处于前三阶段小于第四阶段ꎬ气血两虚证型系数处于第一阶段大于第四阶段ꎬ肝肾阴虚证型系数处于第一阶段小于第四阶段ꎮ
输出广义Logit模型样本预测结果如表4所示ꎮ实际病程处于第一阶段且正确预测为第一阶段的样本量为108ꎬ正确率为63.5%ꎻ实际病程处于第二阶段且正确预测为第二阶段的样本量为288ꎬ正确率为84.7%ꎻ实际病程处于第三阶段且正确预测为第三阶段的样本量为142ꎬ正确率为86.1%ꎻ实际病程处于第四阶段且正确预测为第四阶段的样本量为148ꎬ正确率为58%ꎮ可见ꎬ该模型对病程第三阶段的预测准确率较高ꎮ
表4㊀模型样本预测表
观测值
预测值
S1S2S3S4正确百分比S11080273563.5%S21628853184.7%S3801421586.1%S452292614858%
4㊀总结和展望
本文通过关联分析找到了中医证型与乳腺癌TNM分期之间的三条关联规则ꎬ并且对病程阶段和六证型建立了很好的Logistic回归模型ꎬ找出了六大证型对病程各阶段的影响程度大小ꎬ并且该模型得到了比较好的预测结果ꎬ希望以此使中医对乳腺癌的治疗得到指导㊁对病患的治疗进程起到参考作用㊁对过程中出现的变化得以预判ꎬ并且对腺癌病程阶段的预测起到一定的指导作用ꎮ中医越来越受全人类的欢迎ꎬ它凝结着中华民族自古以来的医学研究成果ꎬ若能够将更多科学的方法运用到医学方面ꎬ中医将给人类带来更大的福祉ꎮ削减乃至克服恶性肿瘤对人类生命安全的威胁是全人类的共同期望ꎬ相信随着医学的发达和科技的进步ꎬ在医学和科学的共同努力下ꎬ通过对中医各方面进行科学的分析ꎬ恶性肿瘤的规律会被人类发现并且层层击破ꎮ
参考文献
[1]温斌ꎬ吕剑.中医好医生 寻访魏医堂[J].陕西画报ꎬ2018ꎬ(6):128-129.
[2]李嘉ꎬ徐继威ꎬ张彩云.脾切除术后门脉系统血栓形成的高危因素多元Logistic回归模型分析[J].临床医学ꎬ2018ꎬ38(08):1-3. [3]阮承兰ꎬ张骏飞ꎬ宋海燕ꎬ董静ꎬ陈照林ꎬ陈曦ꎬ刘波ꎬ陈从新.肝衰竭预后影响因素的Logistic回归分析[J].中华疾病控制杂志ꎬ2014ꎬ18(06):537-540.
(下转第59页)
17
第6期张红等:太阳影子定位的模型构建及求解
[5]吕林根.解析几何[M].北京:高等教育出版社ꎬ2005.
[6]WRND333太阳赤纬角[EB/OL].http://www.docin.com/p-724201430.htmlꎬ2015-9-11. [7]杨高波.MATLAB图像|视频处理应用及实例|MATLAB图像处理[M].北京:电子工业出版
社ꎬ2010.
[8]教育部基础出版社.高中物理第二册[M].北京:北京师范大学出版社ꎬ2005. [9]赵静.数学建模与数学实验[M].北京:北京高等教育出版社ꎬ2007.
(责任编辑:龙学锋)
(上接第71页)
[4]侯丕华ꎬ陈改玲ꎬ谷万里ꎬ王大伟ꎬ等.老年高血压病中医证型分布规律及相关因素分析[J].中国中西医结合杂志ꎬ2014ꎬ34(05):536-540. [5]汤巧玲.干支运气与疾病中医证型的关联性研究[D].北京中医药大学ꎬ2014.
[6]袁香凝.219名女性寻常痤疮患者抑郁状态的调查及与中医证型相关性研究[D].成都中医药大学ꎬ2010.[7]张良均著.Python数据分析与挖掘实战[M].北京:机械工业出版社ꎬ2016.
[8]李英杰ꎬ王芮.试论基于数据挖掘Apriori算法实现与应用[J].吉林工程技术师范学院学报ꎬ2019ꎬ35(04):89-91.
[9]薛薇.基于SPSS的数据分析[M].中国人民大学出版社ꎬ2006.
(责任编辑:龙学锋)
95。

相关文档
最新文档