无创型健康评估模型的通用建立方法及研发
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
无创型健康评估模型的通用建立方法
惠恒集团深圳市天信生物科技有限公司赵红谢国梁
【摘要】健康管理过程中,根据健康信息提供个体化亚健康干预手段是健康评估不可缺少的重要环节。
本文介绍了基于系统生物信息学,宏观检测人体整体系统变量,以流行病学前瞻性模型为示教标准,研发周期短,经济适用的无创型健康评估模型的方法。
并以缺血性心血管病发病危险因素为例,研发出无创型人体经络检测值评估模型,其外推预报结果初步显示了此方法的应用可行性。
【关键词】危险性评估;模型;机器学习;经络信息检测及处理
1引言
1.1亚健康检测和评估现状
亚健康的检测和评估是健康管理最终提供个体化的干预手段,是必不可少的先决条件。
由于绝大多数被市场“炒”作起来的亚健康检测与评估“产品”均没有经过科学系统的应用研究和实施数据支持,因而只呈昙花一现便无影无踪[1]。
1.2 现存的一些商业化亚健康检测评估手段分类
1.2.1以既存疾病验后诊断案例为基础的无创型评估模型
尽管此类亚健康检测评估手段的机理各异,但就其所获取的信息、所建立的评估模型而言,并非疾病预警意义上的严格的前瞻性健康风险评估。
因为其模型建立机制实质上是通过检测数据,归纳现存已产生疾病属性的回顾性提示(尽管此类检测评估系统的商业宣传称其对疾病具有早期提示作用)。
检测信息从既存疾病的非亚健康人群中获取,然后采用数据处理进行归纳,得出的结论实为既存疾病属性的标示。
因此,此类评估模型的方法论逻辑的建立比较含混,不同于亚健康状态下,具有疾病预警意义的前瞻性健康风险评估。
为解决以上弊端,有必要采用基于亚健康---疾病时间序列趋势统计分析,具有较严格的前瞻预报意义的有创型流行病学评估模型。
1.2.2以亚健康---疾病时间序列趋势统计分析为基础的有创型流行病学评估模型
任何一种慢性疾病都有其特有的生理病理变化,尽管这些变化是复杂的,但是很小的变
化都会在生物标记上有所体现。
这里的生物标记群不只是考虑单一指标的测量值,而是包括全面观察到的众多有意义的生物医学指标及其它指标,是对人身体健康状况的整体评估。
因此,如果在疾病发生前测得其生物标记模式,并连续观察疾病发展过程中时间序列趋势下生物标记的变化情况,采用流行病学统计分析方法,如Cox比例风险模型[2]等,建立评估模型,就可发现导致疾病发生及发展的关键因素,也就是在亚健康人群检测评估中真正有意义的前瞻性健康风险评估的检测信息判据。
将某个体的生物标记群录入计算机,基于评估模型的预测软件系统就会自动将录入信息与软件的预测模式进行比较分析,确定该个体发生疾病的趋势及可能性,此过程为采取有效的预防措施创造了条件。
这种检测评估手段的遗憾之处是必须包括有创性血生化指标,因而增加了诸多不便。
2 交叉综合评估方法
通过综合评估的手段使以上两类机制不同的检测评估模型“杂交”,扬弃各自的优缺点是必要的。
由于所构造的新模型来源于两类产生机制全然不同的源模型的“杂交”,因此新模型不可能通过两类模型算法的合成来获取,也不可能借助原来产生两类模型的临床案例的汇合重新构建,只能通过原创的交叉试验设计积累足够的临床案例来获取。
这里笔者提供一个采用系统生物信息学[3]的计算机学习获取无创型评估模型的交叉综合对照试验的方案(如图1),通过有创型基于时间序列的流行病学疾病预报模型作标准,开发出无创型健康评估(疾病预警)模型。
此模型可不断地伴随临床案例的积累而优化。
下面以缺血性心血管评估模型[4]为对照,简述基于人体经络检测值无创型评估模型的开发过程,并对初步应用结果进行分析。
3 以人体经络检测为基础,建立缺血性心血管病发病危险无创型评估模型
3.1经络检测原理
采用经络测量信息作为亚健康状态主要连续量生物标记之一。
根据国内外电生理学实验发现,如经穴处存在Ca ,Fe 元素和Ca 离子的富聚,以及经络循经传导线上与经穴点有关線粒三磷(ATP )较多的细胞集聚等实证结果[5-12],Ca 离子作为细胞间质中第一、第二信使,参与细胞生长发育重要过程,在人体生命过程中扮演着重要的角色,因此经络测量可能成为采集生命科学信息的重要手段。
在血生化数值等诊断指标变化前,经络信息[13]与其他“生物-心理-社会”的综合标记群的合参综合可能会更准确地揭示一些生命现象的量化本质,如亚健康状态。
本研究正是通过宏观电子检测多处经络穴位点的皮肤表面电阻值,经系统生物信
图1
获取无创性评估模型的交叉综合对照方案
健康评估个体
有创检测属性 无创检测属性
有创流行病学评估模型
评估结果
机器学习训练案例
机器学习
无创评估模型
再学习
息学的计算机学习(supervisor based learning),获取模式发现(pattern discovery),综合挖掘提取机体功能状况特征信息,深刻揭示经络信息表达的微观生命科学本质。
与其他商业化的无创型检测手段相比,经络皮肤表面电阻检测具有较为经济简便的优越性。
3.2示教标准源模型——缺血性心血管病发病危险的评估模型
中国医学科学院阜外心血管病医院流行病学研究室武阳丰教授研究认为,缺血性心血管病发病危险的评估模型能较好地反映发生心血管病的综合危险,预测个体未来十年内罹患缺血性心血管病(ischemic cardiovascular diseases, ICVD)的危险等级[4]。
此评估模型由年龄、血压、体重指数、是否吸烟、血糖与血脂含量六大因素共同决定。
其中年龄、是否吸烟通过填写问卷获得,血压通过血压计测量获得,体重指数通过测量身高和体重获得,只有血糖和血脂含量必须通过有创抽血化验才能获得。
3.3 利用神经元网络算法,建立有示教的计算机机器学习,获取无创型评估模型
由图1所示,计算机机器学习获取无创型评估模型的交叉综合对照试验方案,通过以上有创型ICVD流行病学疾病预报模型作为示教标准,选取神经元网络算法实现计算机机器学习,开发出无创性健康评估(疾病预警)模型,因为神经元网络算法非常适合处理含复杂噪声的传感器数据,如经络皮肤表面电阻检测值。
在此实现过程中,我们以297个例行体检中获取的经络受检者的数据作为神经元网络机器学习的训练集,而以另外227个数据作为测试集用于测试所建模型的预报精度。
由于训练集和测试集来自于取样时间和地点完全不同的群体,因此在统计上是完全独立的。
这些检测者的数据包括年龄、性别、血压、身高、体重、血糖血脂含量、吸烟与否以及人体皮肤表面24个主要穴位的经络电阻等详细信息。
根据心血管疾病评估模型中的计算方法[4](参见图2和图3),我们可以计算出每个检测者未来十年ICVD发病危险(%)。
通过与同性别、同年龄段人群未来十年ICVD发病平均危险(%)进行对比,我们把未来十年ICVD 发病危险(%)超过同性别、同年龄段的人群定义为心血管疾病高危倾向者。
为此,我们在模型中引进了一个目标变量“是否高危”,对未来十年ICVD发病危险(%)超过同性别、同年龄段的人群,目标变量取值1(高危),否则为0(非高危)。
如在缺血性心血管病发病危险的有创评估模型(示教标准源模型)中代入297个数据训练集例行体检获取的相应信息,可得出197个数据取值0,100个数据取值1为示教标准,运用神经网络算法[14]训练得到模型,
再把模型结果运用到测试集上进行预报,以检验模型的预测精度。
神经网络模型可以大致表述为如下函数:
某个体心血管疾病预报风险“是否高危”=f(年龄、性别、收缩压、体重指数、吸烟与否、及人体皮肤表面24个主要穴位的经络电阻值)
由此可知,此模型为不包含血糖及血脂的无创型模型。
227数据测试集的预测结果如下:
1.用原来297个数据做训练集得到模型,再用该模型对227个数据进行预测;
实际预测
| 0 | 1 | 总计
---------+--------+--------+
0 | 153 | 14 | 167
---------+--------+--------+
1 | 1
2 | 48 | 60
---------+--------+--------+
总计 165 62 227
从以上混淆矩阵看出, 227个数据中,实际取值为“0”的167个数据通过模型预报后153个仍为“0”, 14个误报为“1”,实际取值为“1”的60个数据通过模型预报后48个仍为“1”,12个误报为“0”。
其中有201个数据模型预报值与实际值吻合,26个数据不吻合,模型的预测准确率为88.55%。
2.因训练数据集和测试数据集的统计分布差异会导致模型外推预报精度降低,为了克服这一点,基于集群表决理论[15],对原来的297个数据的训练集重新训练得到新模型,再用该新模型对227个数据做出预测。
实际预测
| 0 | 1 | 总计
---------+--------+--------+
0 | 152 | 15 | 167
---------+--------+--------+
1 | 8 | 5
2 | 60
---------+--------+--------+
总计 160 67 227
从以上混淆矩阵我们知道, 227个数据中,实际取值为“0”的167个数据通过模型预报后152个仍为“0”, 15个误报为“1”;实际取值为“1”的60个数据通过模型预报后52个仍为“1”,8个误报为“0”。
其中有204个数据模型预报值与实际值吻合,23个数据不吻合,模型预测准确率为89.87%。
通过比较上述两种预测结果我们发现,这两种情况下预测结果的准确率都比较高,第二种情况下的预测准确率比第一种情况有较微小的提高。
3.序贯递加累积例行体检的临床数据,持续不断地进行再学习,即把原来的524(297+227)个训练及测试数据合起来做训练集得到学习模型,再用该模型对最新获取的另外878个数据做出预测。
实际预测
| 0 | 1 | 总计
---------+--------+--------+
0 | 636 | 31 | 667
---------+--------+--------+
1 | 27 | 184 | 211
---------+--------+--------+
总计 663 215 878
从以上混淆矩阵我们知道, 878个数据中,实际取值为“0”的667个数据通过模型预报后636个仍为“0”, 31个误报为“1”;实际取值为“1”的211个数据通过模型预报后184个仍为“1”,27个误报为“0”。
其中模型预报值与实际值吻合的有820个数据,不吻合的有58个数据,模型预测准确率为93.39%。
对比上述预测结果可知,训练数据持续增加的再学习过程可以使模型精度不断提高。
见图2缺血性心血管病十年发病危险度评估表(男)[4],图3缺血性心血管病十年发病危险度评估表(女)[4] 。
图2 图3
4 结论
4.1经人体经络检测缺血性心血管病发病危险无创型评估模型的研发及相应结果分析,初步显示了无创型健康评估模型建立方法的可行性。
作为生物信息学通用数据处理方案,此模型的建立方法与无创属性的类别和示教标准源模型的内容无关,因而该方法具有通用性。
4.2由于开发了有效的机器学习算法,克服了因训练数据集和测试数据集的统计分布差异所致的模型外推预报精度降低,因而可以通过训练数据集的积累、增大和持续再学习,使模型精度得以保持稳定甚至有所提高。
4.3本可行性模型的建立机制初步揭示了源于传统中医的宏观系统参数的经络信息与常规西医的血生化数值的关联,可能为基于系统生物学“宏微并举”的中西医药汇聚带来机遇。
致谢
谨此对参加与此工作相关的测试数据收集及整理的刘津、王学员、张京会、曹立欣、簡小强、梁凯林等诸位同仁及提供了有益的讨论的武阳丰教授及王珏教授表示衷心的感谢。
此项工作并得到深圳市科技和信息局20060107012科技项目资助。
[参考文献]
[1] 武留信等. 亚健康的检测与评估,亚健康学,北京:中国中医出版社,2007.79-126
[2] Cox DR. Regression models and life tables. J. R Stat Soc B, 1972,34:226-230
[3] 赵红. 以系统生物信息学促进中国特色的健康管理发展,东莞:第四届中国健康产业论
坛论文集
[4] 武阳丰等.国人缺血性心血管病发病危险的评估方法及简易评估工具的开发研究,中华
心血管病杂志,2003,31,12:893-901
[5] Guo Y, Xu T,Chen J, Zhang C, Jiang P.[The study on calcium ion concentration
specificity in meridian and acupuncture point in rabbit].[Chinese ]Chen Tzu Yen Chiu 1991;16:66-8
[6] Miao W ,Guo Y, Zhang Y, Xu T, Zhang C.[The influence of changing the Ca2+
concentrantion of the point quze(PC3)on the curative effect of puncturing neiguan (PC6) in experimental arrhythmic rabbits].[Chinese] Chen Tzu Yen Chiu1993;18:243
[7] Cooper MS,Schliwa M.Transmembrane. Ca2+ fluxes in the forward and reversed
galvanotaxis of fish epidermal cells .Prog Clin Biol Res 1986;210;311-318 [8] Becker RO,Marino AA. Electromagnetism and life. Albany:State Univ.of New
York ,1982
[9] Berridge MJ. Inositol triphosphate-induced membrane potential oscillations in
Xenopus oocytes .J Physiol1988;403:589-599
[10] Parker I, Miledi R. Changes in intracellular calcium and in membrane currents
evoked by injections of inositol trisphosphate into Xenopus oocytes. Proc Roy Soc London B 1986;228:307-315
[11] Cornell-Bell AH, Finkeiner SM, Cooper MS,Smith SJ. Glutamate induces calcium
waves in cultured astrocytes:long-range glial signaling.Science 1990;247:470-473
[12] Nedergaard M. Direct signaling from astrocytes to neurons in cultures of
mammalian brain cells.Science 1994;263:1786-71
[13] 谭支绍等. 实用经络穴位诊断. 广州:广东科技出版社, 2004
[14] Bishop,C.M. Neural networks for pattern recognition. Oxford, England: Oxford
University Press, 1996.
[15] Schapire, R.E. The boosting approach to machine learning an overview, in the
proceedings of MSRI Workshop on Nonlinear Estimation and Classification, 2002.。