生物信息学数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其他数据挖掘的案例
顾客信誉卡 :使用信誉卡将顾客的购买序列记录下来,顾客在不同时期购买的商品可以分组为 序列,序列模式的挖掘可以分析顾客的消费或忠诚的变化,据此对价格和商品花样进行调整以
便留住老顾客,吸引新顾客。
卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出 的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖 掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符 合客户口味和健康状况的卡夫产品食谱。
生物信息学数据挖掘 17
2013-12-3
Apriori 算法该算法是由Agrawal 等在1993 年提出的,是最经典的产生关联规则频繁项 目集的算法,是一种宽度优先的多趟扫描算法. 在Apriori 算法中,项目是按字典排序, Lk记为频繁k - 项目集构成的集合,Ck记为候选k - 项目集构成的集合. 下面是Apriori 算法的伪代码: 输入: 事务数据库D,最小支持度minsup; 输出: D 中的频繁项目集L; ( 1) L1 = { Frequent 1 - itemsets} ; ( 2) for ( k = 2; Lk - 1≠; k + + ) do begin ( 3) Ck = apriori - gen ( Lk - 1 ) ; / /从Lk - 1 产生新的候选k - 项目集/ / ( 4) for all transactiona t ∈ D do begin ( 5) Ct = subset ( Ck ,t ) ; / /产生t 中的候选子集/ / ( 6) for all candidates c ∈ Ct do ( 7) c. count + + ; ( 8) end ( 9) Lk = { c ∈ Ck │c. count≥minsup} ; ( 10) end ( 11) 2013-12-3 L =∪kLk 18 生物信息学数据挖掘 ;
生物信息学数据挖掘
2013-12-3
生物信息学数据挖掘
1
主要内容
数据挖掘的相关概念
数据挖掘的经典案例
生物信息学数据挖掘领域的现状、方向 课题的前景
2013-12-3
生物信息学数据挖掘
2
生物信息数据库
(1) 综合数据库 如EMBL (欧洲) 、GenBank(美国) 、DDBJ (日本) 、TIGR Database) (2) DNA 序列和结构数据库(BioSino (中国) 、CUTG、EPD、SCPD 等) (4) RNA 序列和核糖体数据库( SCOR、NCIR、ncRNA 等) (5) 基因图谱数据库(RHdb、Mouse RH、GDB) (6) 人类基因组相关数据库( Ensembl 、RefSeq、I.M.A. G. E 等) (7) 其他物种基因组数据库(包括病毒、原核生物、真菌、昆虫、鱼类及其它 高等动物的基因组数据库) (8) 蛋白质序列数据库(SWISS - PROT、TrEMBL 、PIR 等) (9) 蛋白质结构、分类和相互作用数据库(PDB、CSD、3Dee 等)
2013-12-3 生物信息学数据挖掘 12
数据挖掘的经典案例
在电信行业
加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的 十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利 于公司又有利于客户的优惠政策。
竞技运动中的数据挖掘
美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决
大部分数据库是可以免费下载的公用数据库。
2013-12-3
生物信息学数据挖掘
4
生物信息学中心
1.NCBI:美国国立生物技术信息中心(The National Center Biotechnology
Information),设立了公共数据库,开发软件工具分析核酸序列、基因组序列、
基因表达序列、蛋白序列等提供了大量与基因、蛋白序列有关的信息与文献资 料。
定替换队员。
电子商务的关联销售
2013-12-3
、客户类别销售分析
13
生物信息学数据挖掘
数据挖掘的过程
① 理解数据和数据的来源 (understanding)。 ② 获取相关知识与技术 (acquisition)。 ③ 整合与检查数据(integration and checking)。
④ 去除错误或不一致的数据(data cleaning)。
2013-12-3
生物信息学数据挖掘
8
数据中搜索、发现知识(KDD)
2013-12-3
生物信息学数据挖掘
9
数据挖掘的功能
1.分类(classification) 按照分析个体的属性状态分别加以区分,并建立类组 (class)。例如,将信用申请者的风险等级分为高风险、中风险和低风险三类。使用 的方法有决策树(decision tree)、判别分析(discriminant analysis)、类神经网络 (artificial neural network),以及记忆基础推理(memory-based reasoning)等。 2.估计(estimation) 根据已有的数值型变量和相关的分类变量,以获得某一属性的估计值或预测值。例如, 根据信用卡申请者的教育程度和从事职业来设定其信用额度。使用的方法有相关分析、 Logistic回归及类神经网络等。 3.预测(prediction) 根据个体属性的已有观测值来估计该个体在某一属性上的预测值。例如,由顾客过去 刷卡消费额预测其未来的刷卡消费额。使用的方法有回归分析、时间序列分析及类神 经网络等。 4.关联分组(affinity grouping) 从所有对象决定哪些相关对象应该放在一起。例如,超市中相关的洗漱用品(牙刷、 牙膏、牙线)放在同一货架上。在客户营销系统上,这类分析可以用来发现潜在的交 叉销售(cross-selling)商品聚类,进而设计出有价值的组合商品集合。
2013-12-3
生物信息学数据挖掘
11
数据挖掘的经典案例
啤酒和尿布的案例
英国超级市场中的啤酒和尿布的摆放位置, 管理人员从每天商品销售的记录中发现来超市购买 婴儿尿布的年轻父亲约有一会顺便买几瓶啤酒。根据这一发现, 超市即调整了商品的摆放位置 将以上商品尽可能摆放得近一些, 并扩大范围, 将男士的日常用品也靠近婴儿尿布处摆放此安排 使这类商品的销售量成倍增长。
生物信息学数据挖掘 6
2013-12-3
KDD的基本过程
2013-12-3
生物信息学数据挖掘
7
数据挖掘(data mining)
数据挖掘(Data mining),又译为资料探勘、数据采 矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘 一般是指从大量的数据中自动搜索隐藏于其中的有 着特殊关系性(属于Association rule learning)的 信息的过程。
生物信息学数据挖掘 16
2013-12-3
进行数据挖掘常用技术算法
4 聚类分析聚类分析 根据在数据中发现的对象关系,将数据对象分组. 同一个组内的对象是相似 的,不同组中的对象是不同的. 5 决策树 决策树是一种由结点和有向边组成的层次结构. 它利用信息论中信息增益来 寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据测试 结果选择分支,对于每个子女结点重复建立下层结点和分支,便可构造一棵 决策树. 最具有影响的决策树算法首推J. R. Quinlan 的ID3 算法. ID3 是在1979 年提出的,它是基于信息熵的一种自顶向下构造决策树的归纳学习方法,过 程可以归结为2 个步骤,即属性确定和集合划分. 6 关联规则 关联规则是R. Agrawal 等人在SIGMOD93 上第一次提出来的,它描述了数 据记录集中数据项之间存在的隐藏关系. 关联规则的强度可以用支持度和置 信度度量.
5
2013-12-3
KDD(Knowledge Discovery in Database)
KDD(Knowledge Discovery in Database) ,是指从存放在数据库、数 据仓库或者其他信息库中的大量数据中挖掘出隐藏的有用信息(知识) 的技术。它被广泛的应用到各个领域,挖掘数据之间潜在的模式,找出 有价值的信息。KDD 的基本过程如图1 所示,由以下部分组成: (1) 数据预处理(包括数据清理、数据集成、数据变换、数据归纳,为数 据挖掘做准备 (2) 数据挖掘(核心步骤,使用智能方法提取数据模式) (3) 模式评估(根据某种度量,识别表示知识的真正模式) (4) 知识表示(使用可视化知识表示技术,向用户提供挖掘的结果——— 知识) 可以看出,数据挖掘是KDD 的核心部分,是采用机器学习、运筹学、统 计方法等进行知识发现的阶段。但是从广义上讲,数据挖掘的定义就是 从海量数据中提取知识的过程,也就等同于KDD
生物信息学数据挖掘 10
2013-12-3
5.同质分组(clustering)
CRISP-DM是Cross-Industry Standard Process for Data Mining的简称,中文翻译为 “数据挖掘的跨行业标准过程”
CRISP-DM分为六个阶段(phase)和四个层 次(level)
此外,还有比较基因组学和蛋白质组学数据库,基因表达数据库,基因突变、病 理和免疫数据库,代谢途径和细胞调控数据库,农林牧相关数据库,医学 药学数据库,生物多样性和分类学数据库等等。
2013-12-3
生物信息学数据挖掘
3
专门数据库目录网站
《核酸研究》2000年开始创建了生物信息学数 据库 目录。 DBCat:法国生物信息中心于1997年建立ห้องสมุดไป่ตู้数据库目 录。到目前为止收录500多个数据库。 目前,绝大部分核酸和蛋白质数据库由美国、欧洲和 日本的3家数据库系统产生。它们共同组成国际核酸 序列数据库,每天交换数据,同步更新
Apriori - gen 是以频繁( k - 1) - 项目集Lk - 1 为自变量的后选生成函数. 该函数返回所有频繁k - 项目 集的超集,分连接和剪枝2 步执行: 函数Apriori - gen ( Lk - 1 ): ( 1) insert into Ck ; ( 2) select p[1],p[2],…p[k - 1],q[k - 1]; ( 3) from Lk - 1p,Lk - 1q; ( 4) where p[1]= q[1],p[2]= q[2]2,…,p[k - 2]= q[k - 2],p[k - 1]< q[k - 1]; / /连接( join) / / ( 5) For all itemsets c ∈ Ck do ( 6) For all ( k - 1) - subset s of c do ( 7) If ( s ∈ Lk-1 ) then ( 8) delete c from Ck ; / /剪枝( prune) / / ( 9) end; ( 10) end; ( 11) answer = ∪ { c ∈ Ck }; 2013-12-3 19 生物信息学数据挖掘
2.EBI:欧洲生物信息研究(The European BioinformationIntitute),提供与
生物学有关的各种信息、数据库、软件工具等
3.ExPASy:(Expert Protein Analysis System)日内瓦大学分子生物学服务
站,提供与蛋白有关的各种在线工具。提供数据库中的链接,同时提供许多用
2013-12-3
生物信息学数据挖掘
15
进行数据挖掘常用技术算法
1 神经网络 此方法是模拟人脑的神经元,具有并行地处理信息、分布式存储信息、 可变结构、高度容错、非线性运算、自组织学习等特点,在分类、聚 类、模式识别等领域已被普遍采用. 2 统计分析方法 这种方法利用成熟的数理统计原理对关系表中的属性进行分析,找到 它们之间存在的关系. 方法有多元回归分析、聚类分析、因子分析、 相关分析等. 3 遗传算法 这是一种搜索算法,具有计算简单、优化效果好的特点,主要用于分 类,关联规则采掘等 方面.
于该方面查询的文件,并与本站点相链接。
4.BioSino:上海生命科学院生物信息中心,提供了有关生物信息学方面的新 闻、论文、相关数据库、软件等。
5.CBI:北京大学生物信息中心,介绍了丰富的生物信息学基本知识,国内外 生物信息学网站,常用的生物信息学数据库的介绍和相关的软件等。 生物信息学数据挖掘
⑤ 建立模型和假设(model and hypothesis development)。
⑥ 实际数据挖掘工作(data mining)。
⑦ 测试和验证挖掘结果(testing and verification)。 ⑧ 解释和应用(interpretation and use)。
14
典型的数据挖掘系统结构