数据挖掘在中医药中应用-精品文档
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019/6/10
11
数据挖掘的基本功能
关联分析 分类 聚类分析 …… 介绍上述功能的一些具体计算方法。
2019/6/10
12
关联分析
association analysis
关联分析是发现关联规则。
两个或两个以上变量的取值之间存在某种规 律性,就称为关联。
关联分析的挖掘过程就是发现大量数据中项 集之间有趣的关联或相关联系。
顾客买东西很多,有很多购买收据记录。 收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐 、椅子、枕头、面包 收据6:面包、笔记本 ……
支持度(support)计算公式
A商品和 B商品共同出现在一个收据次数 ——————————————————————
2019/6/10
9
数据挖掘与其他概念
数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE)
有人认为是一样的只是不同领域称呼不同 数据挖掘是知识发现的过程的一部分
数据挖掘与数据分析
数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓 库
数据挖掘与统计学
收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐、椅子、枕头、面包 收据6:面包、笔记本
2 SUPPORT(枕头→面包)=—————=40%
5
置信度(congfidence:B→A)= A商品和 B商品共同出现在一个收据次数
—————————————————————— B商品出现次数
收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐、椅子、枕头、面包 收据6:面包、笔记本
2 SUPPORT(面包→枕头)=—————=100%
2
2019/6/10
22
频繁子集筛选-------获得挖掘结果
商品1,商品2 商品1,商品3 商品4,商品5 商品6,商品8 商品7,商品9 …….
总次数
收据1:啤酒、面包、方便面、盐、 收据2:陈皮、可乐、米、面包、盐 收据3:面包 、被子、枕头、 收据4: 椅子、笔记本 收据5:可乐 、椅子、枕头、面包 收据6:面包、笔记本
2 SUPPORT(面包、枕头)=——————=33.33%
6
置信度(confidencet:A→B)=
A商品和 B商品共同出现在一个收据次数 —————————————————————— A商品出现次数
数据挖掘的出现是数据库技术发展的必然
大型数据库 涌现
数据库技术 发展
数据库
统计学 数据
模式 识别
挖掘
机器学习
信息科学
可视化
用户不满足 于数据库的 查询功能
希望利用数据挖掘技术解决“数据丰富”与 “知识贫乏”之间的矛盾
借用挖掘金矿的名称
数 数据 据
挖 掘
知识
数据挖掘的历史
1989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协会主办的知识发现国际研讨会已
啤酒与尿布
2019/6/10
请NCR公司构建数据仓 库
记录销售数据 ——每一位顾客哪一天在哪一家连锁店 购买了哪些商品
14
购物篮分析: 即分析哪些商品最有希望被 顾客一起购买。
2019/6/10
பைடு நூலகம்15
每逢周末与尿布一起购买最多的商品是
——啤酒!
原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布, 而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
2019/6/10
8
数据挖掘的概念
数据挖掘:Data Mining. 数据中发现有效的、新颖的、潜在有用的,并且最
终可以被读懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法
论。即把解决某类问题的方法总结归纳到理论高度, 那就是模式。 例如: 比如:孙子说“至死地而后生”是战争模式 三十六计“走为上”、“空城计”也是战争模式。
China Academy of Chinese Medical Sciences
数据挖掘 在中医药研究中的应用
中医药信息研究所
2019/6/10
1
内容
数据挖课掘的相关概念 程
数据挖掘在中医药领域中的应用
内
容
2
数据挖掘的产生
产生
3
什么激发了数据挖掘? ——“数据爆炸”但“知识贫乏”
信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用 4
经召开了8次,规模由原来的专题讨论会发展到国际学 术大会 国内:1993年国家自然科学基金首次支持该领域的研 究项目。目前,国内的许多科研单位和高等院校竞相开 展知识发现的基础理论及其应用研究,
2019/6/10
7
2019年国家自然基金资助数据挖掘研究
66项目数据挖掘项目
西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学
16
举例:
沃尔玛:通过关联分析这一数据挖掘方法,发 现“啤酒”及“尿布”两件物品总是一起被 购买。
此结果蕴含着巨大的商业价值:
两件 商品 放在 一起
啤酒
尿布
两件 商品 间隔 最远
如何完成?
通过支持度和置信度高低来衡量关联的强度。 什么是支持度?如何计算? 什么是置信度?如何计算?
沃尔玛超市为范例
研究——田家玮,哈尔滨医科大学
中医:
应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律— —向阳,中国人民解放军第210医院
基于智能计算的中医方剂基础治法模型的构建——任廷革,北京 中医药大学
基于数据挖掘的针灸法效应特异性基本规律及特点的研究——贾 春生,河北医科大学
中药新药有效核心处方发现的随机对照忙发设计方法研究——何 丽云,中国中医科学院中医临床基础医学研究所
统计学推断是假设驱动的,即形成假设并在数据上验证它。而数 据挖掘是发现驱动的,即自动地从数据中提取模式和假定
2019/6/10
10
数据挖掘的特点
数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为
其他目的而收集好的数据。 发现隐含的知识
数据挖掘工作者不愿把先验知识预先嵌 入算法,是在没有前提假设的情况下,从事 信息的挖掘与知识的提取。