数据挖掘期末论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学数据挖掘期末论文
数据挖掘技术在中医方剂研究中应用的
探讨
学生姓名________
专业_________________
学院__________________
2016年6月
数据挖掘技术在中医方剂研究中应用的
探讨
湛薇
摘要:现有的中医方剂数据存在冗余大的、不一致的、无效的噪声数据,降低了中医方剂数据的利用,且其方剂数据需要更加高效的存储、查询以及共享。而数据库技术融汇了人工智能、模式识别、模糊数学、数据库、数理统计等多种技术方法专门用于海量数据的处理[1],从而解决中医方剂研究中所存在的问题,提高利用效率并且发掘潜在信息。本文利用关联规则、聚类分析、分类模式等数据挖掘方法,揭示方剂配伍规律的研究,对中医方剂信息的问题进行探讨。
关键词:中医方剂;数据挖掘技术;关联规则;聚类分析;分类模式
Data mining technology applied in the study of prescription of
traditional Chinese medicine
Zhan Wei
【Absract】:Existing in traditional Chinese medicine prescription data redundancy, big noise, inconsistent, invalid data, reduces the use of traditional Chinese medicine prescription data, and the prescription data need to be more efficient storage, query and sharing. And the database technology of artificial intelligence, pattern recognition, fuzzy mathematics, database, mathematical statistics and so on the many kinds of technical methods specifically for mass data processing [1], so as to solve the problems in the research of TCM prescriptions and improve the utilization efficiency and explore potential information. Based on association rule, clustering analysis and data mining methods such as classification model, reveals the law of herbal research, discusses the problem of prescription of traditional Chinese medicine information.
【Key words】:Prescriptions of traditional Chinese medicine; Data mining technology; Association rules; Clustering analysis; Classification model
1引言
中医学信息化在这几年来发展迅速,大量中医方剂数据库已被构建与完善,但中医方剂的数据挖掘方面依然有很多亟待解决的问题。虽然众多已经构建的方剂数据库都是经过一系列的校正后的结构化数据库,但由于在浩瀚的中医历史之中,其年代跨度实在太大、朝代变更下使用的文字、记叙方式与特点的差异悬殊,使得方剂信息依然不可避免的会出现方剂数据不一致、错误、冗余等问题。
数据挖掘技术在数据中正规地发现有效的、新颖的、潜在有用的,并且最终可以被读
懂的模式的过程。具有善于挖掘超大型数据库、非手工地发现隐含知识、增进人类知识的
特点[2],因此,数据挖掘技术对于中医方剂研究所存在冗余的、不一致的、错误的等一系
列噪声数据的解决具有重大意义。另一方面,而中医方剂配伍从本质上来说表现在方与
方、药与药、方与药、药与剂量,以及方药与病、症之间的交叉错综的关联与对应。数据
挖掘正是通过数据特征、关系、聚类、趋向、偏差和特例现象深层的多维分析,来揭示数
据间复杂特殊的关系,发现隐含规则模式和规律。
2方剂配伍研究中的数据挖掘方法
2.1关联规则
关联规则是数据挖掘中的一项重要技术,反映大量数据中项目集之间的关联和相关联系。关联规则也是目前用于中医方剂配伍研究中最经典的一种方法,一般通过降维处理将复杂的病、症、方、药关系分解,研究药与药、方与方、药与症状等两者之间的关系。
基于关联规则的研究呈现如下特点:主要研究药与药之间的关联关系,其他病症、病方之间的关系研究得较少,研究对象包括某一类方或者治疗某一病症的方剂。研究方法不能证明具有普遍适用性;关联规则的算法参数,即最小支持度大部分为10%左右,支持度偏小,使得发现的关联关系的可信度不高。
2.2聚类分析
聚类分析即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的配伍规律进行分析。聚类分析的算法有很多种,如基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法等,不同算法在不同领域以及数据集上得到应用。在方剂配伍规律分析领域,使用较多的事层次聚类方法,也可采用模糊聚类方法建立模糊相似矩阵类分析药物之间的相似度。
模糊聚类方法以模糊数学中的聚类方法为理论基础,通过建立模糊矩阵最终获得聚类结果,其方法简单易行,在处理小数据量上可以收到较好效果。
层次聚类算法可以对给定的数据集进行层次的分解,直到某种条件满足为止,具体分为凝聚和分裂两种方法。该算法简单快捷而且能有效地处理大数据集,但是合并或者分裂点的选择至关重要,直接决定了聚类结果的质量。
采用模糊聚类的研究对象多是古代经典名方,研究内容是具体方剂的组成原则,即方中君臣佐使药物的确定,验证结果的方法是中医方剂的传统理论,此种研究尚处于探索阶段。而其结果的准确性未被广泛验证,但是该方法对于方剂配伍规律的理解以及配伍规范化具有重要作用。层次聚类算法的研究对象为治疗某一病症的复方,依据单味药功效进行聚类,获得若干个药物组合类别,结合病的临床症状推断证型和用药,这种研究方法在一定程度上研究了药证与药方之间的关系,并对临床治疗疾病具有指导意义。
2.3分类模式
分类模式是根据数据集的特点构造一个分类器,利用分类器对未知的样本赋予类别的一