智能数据分析共33页文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

规律就是…
用来规定建议、指令或策略的正规 方式。常用“如果前提,那么结论” 或“如果条件那么行为”的形式表 达
怎样发现隐藏在数据中 的规律?
一些IDA的工具…
See5—以决策树和/或规律设置的 形式来分析数据和生成分类器的程 序
rulequest
一些IDA的工具…
Cubist—分析数据和生成基于规律 的分段线形模型—规律的集合,每 个规律都有相关的线形表达来计算 目标值…
1—他们是健康的 2—他们有疾病(药物治疗,临床和实验室检
查阳性结果)
See5…应用…实例…
应用.姓名—实例
目标 性别:男,女 活性:1,2,3 年龄:连续的 吸烟:否,是 — 目标:1,2 —
See5…应用…实例…
应用.数据—实例
男,1,59,是,0,0,0,0,119,73,103,86,247,87, 15979,?,?,?,1,73,2.5 男,1,66,是, 0,0,0,0,132,81,183,239,?,783, 14403,27221,19153,23187,1,73,2.6 男,1,61,否, 0,0,0,0,130,79,148,86,209,115, 21719,12324,10593,11458,1,74,2.5 ……
谢谢!
结果—实例
规律 15:(包括2名) 收缩压<=111 油脂>2.9
-> 2组别 [0.750]
See5…应用…实例…
结果—实例
训练数据评价(199例)
(a)
(b)
<-分组为
----
----
107
3
(a): 组 1
17
72
(b): 组 2
See5…应用…实例…
结果—实例(训练集)
灵敏性=0.97 特异性=0.81
rulequest
一些IDA的工具…
ILLM—此工具以规律的形式建立了 分类模型,这种规律阐述了有关隐 藏在数据中的关系的知识
dms.irb.hr
一些IDA的工具…
Magnum Opus—找寻相关性规律, 因可以揭示数据中因素之间潜在的 相互作用而具有竞争性优势
rulequest
IDA结果评价
See5…应用…实例…
结果—实例
规律 1:(包括26名) 性别=男 收缩压>111 油脂>2.9
-> 1组 [0.929]
See5…应用…实例…
结果—实例
规律 4:(包括14名) 吸烟=是 收缩压>131 葡萄糖>93 葡萄糖<=118 油脂<= 2.9
-> 2组 [0.938]
See5…应用…实例…
See5…应用…实例…
结果—实例
测试数据评价(73例)
(a)
(b)
<-分组为
----
----
43
1
(a): 组 1
3
26
(b): 组 2
See5…应用…实例…
结果—实例(测试集)
灵敏性=0.98 特异性=0.90
所有推荐的IDA工具在提到的URL上 都是可用的,至少也有测试版本
试试你自己的IDA…
应用.数据—提供训练案例的信息,
See5从中提取出模型
每个案例的入口由一条或多条决定 所有属性值的线组成
See5…应用…
应用.测试—提供测试案例的信息
(用于结果评价)
每个案例的入口由一条或多条决定 所有属性值的线组成
See5…应用…实例…
流行病学研究(1970-1990) 在这段时间内死于心血管病的受试者样本 问题:他们知道自己生病了吗?
IDA提供知识…
知识就是…
经过收集,分类,组织,整合,概括 和增值的信息的精华
位于比资料和信息更高的抽象概念的 水平,并能用来推出新的信息和知识
往往表现为用来解决特定问题的专门 技能
知识的获得…
是一个抽提、分析、转换、分类、 组织和整合知识并以一种能用于计 算机系统的形式来阐明的过程
一个领域的知识能用一系列的 规律来表达
对智能数据分析的兴趣和激情
决策的过程就是寻求信息和知识的 过程
数据处理可以提供这些 问题的多维度在于寻找合适的解决
方案和进行深入的数据处理和分析
学习目标
理解IDA的概念 浏览相关的网页和文献 接触一些IDA的工具 学习如何使用IDA工具和验证IDA的结果
绩效目标
识别需要使用IDA来解决的问题 准备数据并进行分析 验证并解释IDA的结果
绝对&相对精确性 灵敏性&特异性 假阳性&假阴性 误差率 规律的可靠性 及其他
IDA举例
使用Biblioteka Baiduee5进行IDA演示
See5…应用…
应用.姓名—列出案例可能所属的组
别以及用来描述每个案例的属性
属性有两类:离散属性从一系列可 能性中提取出一个数值,而连续性 属性有数字值
See5…应用…
IDA就是…
…与有效的数据分析相关的多学科研究
…用来从大量的联机数据中提取有用信 息;从固有数据库中提取需要的知识和 感兴趣的模型。
IDA还是…
数据开发(data mining) 从数据中获得的知识 基于算法(algorithm-based)的遗传规律
的发现 知识的发现 学习分类系统 机器学习(machine learning) 其他
相关文档
最新文档