数据挖掘在中医药中应用-精品文档

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019/6/10
11
数据挖掘的基本功能
关联分析分类聚类分析 …… 介绍上述功能的一些具体计算方法。
2019/6/10
12
关联分析
association analysis
关联分析是发现关联规则。
两个或两个以上变量的取值之间存在某种规律性，就称为关联。
关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。
顾客买东西很多，有很多购买收据记录。收据1：啤酒、面包、方便面、盐、收据2：陈皮、可乐、米、面包、盐收据3：面包、被子、枕头、收据4：椅子、笔记本收据5：可乐、椅子、枕头、面包收据6：面包、笔记本 ……
支持度（ｓｕｐｐｏｒｔ）计算公式
A商品和 B商品共同出现在一个收据次数 ——————————————————————
2019/6/10
9
数据挖掘与其他概念
数据挖掘和知识发现（KDD KNOWLEDGE DISCOVERY IN DATABASE）
有人认为是一样的只是不同领域称呼不同数据挖掘是知识发现的过程的一部分
数据挖掘与数据分析
数据挖掘是一个动态过程，能够比数据分析更智能地使用数据仓库
数据挖掘与统计学
收据1：啤酒、面包、方便面、盐、收据2：陈皮、可乐、米、面包、盐收据3：面包、被子、枕头、收据4：椅子、笔记本收据5：可乐、椅子、枕头、面包收据6：面包、笔记本
2 SUPPORT（枕头→面包）=—————=40%
5
置信度（congfidence：B→A）＝ A商品和 B商品共同出现在一个收据次数
—————————————————————— B商品出现次数
收据1：啤酒、面包、方便面、盐、收据2：陈皮、可乐、米、面包、盐收据3：面包、被子、枕头、收据4：椅子、笔记本收据5：可乐、椅子、枕头、面包收据6：面包、笔记本
2 SUPPORT（面包→枕头）=—————=100%
2
2019/6/10
22
频繁子集筛选-------获得挖掘结果
商品1，商品2 商品1，商品3 商品4，商品5 商品6，商品8 商品7，商品9 …….
总次数
收据1：啤酒、面包、方便面、盐、收据2：陈皮、可乐、米、面包、盐收据3：面包、被子、枕头、收据4：椅子、笔记本收据5：可乐、椅子、枕头、面包收据6：面包、笔记本
2 SUPPORT（面包、枕头）=——————=33.33%
6
置信度（confidenceｔ：A→B）＝
A商品和 B商品共同出现在一个收据次数 —————————————————————— A商品出现次数
数据挖掘的出现是数据库技术发展的必然
大型数据库涌现
数据库技术发展
数据库
统计学数据
模式识别
挖掘
机器学习
信息科学
可视化
用户不满足于数据库的查询功能
希望利用数据挖掘技术解决“数据丰富”与 “知识贫乏”之间的矛盾
借用挖掘金矿的名称
数数据据
挖掘
知识
数据挖掘的历史
1989年 11届国际人工智能研讨会首次提出了基于数据挖掘的知识发现由美国人工智能协会主办的知识发现国际研讨会已
啤酒与尿布
2019/6/10
请NCR公司构建数据仓库
记录销售数据 ——每一位顾客哪一天在哪一家连锁店购买了哪些商品
14
购物篮分析：即分析哪些商品最有希望被顾客一起购买。
2019/6/10
பைடு நூலகம்15
每逢周末与尿布一起购买最多的商品是
——啤酒！
原因：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
2019/6/10
8
数据挖掘的概念
数据挖掘:Data Mining. 数据中发现有效的、新颖的、潜在有用的，并且最
终可以被读懂的模式的过程模式，即pattern。其实就是解决某一类问题的方法
论。即把解决某类问题的方法总结归纳到理论高度，那就是模式。例如：比如：孙子说“至死地而后生”是战争模式三十六计“走为上”、“空城计”也是战争模式。
China Academy of Chinese Medical Sciences
数据挖掘在中医药研究中的应用
中医药信息研究所
2019/6/10
1
内容
数据挖课掘的相关概念程
数据挖掘在中医药领域中的应用
内
容
2
数据挖掘的产生
产生
3
什么激发了数据挖掘？ ——“数据爆炸”但“知识贫乏”
信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用 4
经召开了8次，规模由原来的专题讨论会发展到国际学术大会国内：1993年国家自然科学基金首次支持该领域的研究项目。目前，国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究，
2019/6/10
7
2019年国家自然基金资助数据挖掘研究
66项目数据挖掘项目
西医：基于多模式序列超声图像识别系统诊断乳腺癌的方法学
16
举例：
沃尔玛：通过关联分析这一数据挖掘方法，发现“啤酒”及“尿布”两件物品总是一起被购买。
此结果蕴含着巨大的商业价值：
两件商品放在一起
啤酒
尿布
两件商品间隔最远
如何完成？
通过支持度和置信度高低来衡量关联的强度。什么是支持度？如何计算？什么是置信度？如何计算？
沃尔玛超市为范例
研究——田家玮，哈尔滨医科大学
中医：
应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律— —向阳，中国人民解放军第210医院
基于智能计算的中医方剂基础治法模型的构建——任廷革，北京中医药大学
基于数据挖掘的针灸法效应特异性基本规律及特点的研究——贾春生，河北医科大学
中药新药有效核心处方发现的随机对照忙发设计方法研究——何丽云，中国中医科学院中医临床基础医学研究所
统计学推断是假设驱动的，即形成假设并在数据上验证它。而数据挖掘是发现驱动的，即自动地从数据中提取模式和假定
2019/6/10
10
数据挖掘的特点
数据挖掘的数量常常很巨大面临的常常是大型数据库，而且常常为
其他目的而收集好的数据。发现隐含的知识
数据挖掘工作者不愿把先验知识预先嵌入算法，是在没有前提假设的情况下，从事信息的挖掘与知识的提取。