基于 KL 散度和 BP神经网络的人类基因启动子识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第33卷第1期2010年3月 辽宁师范大学学报(自然科学版)JournalofLiaoningNormalUniversity(NaturalScienceEdition) Vol.33 No.1Mar. 2010 文章编号:1000‐1735(2010)01‐0042‐04

基于KL散度和BP神经网络的人类基因启动子识别

李文举, 梅 丽, 信润海, 韦丽华

(辽宁师范大学计算机与信息技术学院,辽宁大连 116081)

摘 要:

人类基因启动子预测和识别是DNA序列分析中的一项重要任务.提出了一个基于KL散度和BP神经网络的人类基因启动子识别算法.利用KL散度提取分辨力最强的六联体来区分启动子和非启动子区域,将这些六联体的

出现频率作为识别启动子的组成成分特征,结合CpG岛特征,应用BP神经网络技术建立人类启动子识别系统.该系

统有3个分类器,即启动子‐外显子分类器,启动子‐内含子分类器和启动子‐3’UTR分类器,每个分类器都是一个BP

神经网络,通过3个分类器的结果来综合预测启动子序列.对测试集的实验结果为:敏感性达到51.4%,特异性达到

52.9%.

关键词:启动子识别;组成成分特征;CpG岛;KL散度;BP神经网络

中图分类号:TP391.4 文献标识码:A

收稿日期:

2009‐11‐22基金项目:辽宁省博士科研启动基金项目(20061052)

作者简介:李文举(1964‐),男,辽宁营口人,辽宁师范大学教授,博士.E‐mail:wenjuli@dl.cn

1 引言

随着人类基因草图的完成[1]

,基因识别成为一项重要任务.基因前面通常存在着启动子.启动子是

起始调控基因转录的序列[2],它包含基因的转录起始点(TSS)并控制基因的生物活性[3],它决定DNA

转录的方向、速度和准确性,是重要的调控元件.启动子识别和预测在基因识别中具有重要作用,是生物信息学的研究热点之一.

现有的启动子识别方法大致可分为3大类:

(1)基于信号的方法[4‐6].它主要通过识别TATA盒,CAAT盒等启动子元件来区分启动子序列和

非启动子序列,但这些元件并不是决定启动子功能的唯一元件,因此单纯考虑这些元件,会造成很大的假阳率.

(2)基于内容的方法[7‐8].这种方法主要是统计启动子序列中的K个连续字符组合出现的频率,即

根据组成成分来识别启动子序列.由于DNA序列中各个碱基出现的频率不同,存在一定的特异性,而相同功能的DNA序列存在碱基使用偏好,因此此方法适用于结构和功能都未知的序列预测.但如何选取分辨力最强的组成成分是一个难题,具有挑战性.

(3)基于CpG岛的方法[9‐11].它是根据大多数人类启动子和CpG岛相关这一事实对启动子进行识

别.但并非所有的启动子都与CpG岛有关,所以仅依靠CpG岛识别启动子会导致假阳率较高.

目前,人类基因启动子识别技术中存在的尚未解决的难题,就是假阳率高、识别率低,准确的启动子识别仍然是一个具有挑战性的任务.

笔者将CpG岛特征和组成成分特征相结合,应用BP神经网络技术,提出了一种新的人类基因启动子识别算法.2 特征提取

2.1 组成成分特征DNA序列可以看成是由字母A、C、G、T组成的字符串,每个字母代表一个核苷酸.K个连续核苷酸被称为一个K联体(K‐mer)或长度为K的词(K词).长度为K的K联体共有4K个.K联体的频率分布具有重要的生物学意义,一些特别重要的K联体(K≥4)能用于分辨启动子和非启动子区域.有研

第1期李文举等: 基于KL散度和BP神经网络的人类基因启动子识别43

究表明,当K=6时,即6联体具有更好的启动子识别性能[8],关键是选取哪些6联体作为组成成分特征.

KL散度是一种很有意义的统计测度,它相当于距离,可以度量两个概率分布之间的差异.笔者使用KL散度来选择6联体.

设ppr为6联体在启动子序列中出现的频率,pjnp(j=1,2,3)为6联体在第j种非启动子序列中出现的频率(j=1,代表外显子;j=2,代表内含子;j=3,代表3’UTR).KL散度定义如下:

Djppr,pjnp=∑4096

i=1pprilnppri

pjnpi, j=1,2,3(1)

将pprilnppri

pjnpi,i∈[1,4096]按降序排列并令其为djm,m∈[1,4096],令:

Rj=

nj

m=1

djm

Djppr,pjnp, nj∈[1,4096](2)

将m由1逐渐增大并计算对应的Rj.若当m=nj时,Rj≥98%,则前nj个6联体的出现频率作为区别启动子和第j种非启动子序列的特征.本文n1=1024,n2=1240,n3=1190

2.2 CpG岛特征

CpG岛是一类长度超过200bp,C+G含量大于50%,双核苷酸CG出现的次数与估计出现的次数之比(Obs/Exp)大于60%的特殊DNA序列.从已知的DNA序列统计发现,在大约一半的哺乳动物启动子附近发现了CpG岛[12],而约60%人类基因启动子与CpG岛相关联[13],因此,CpG岛可作为人类基因启动子识别的一个重要特征.笔者使用CpG岛的两个特征,C+G含量(GC_con)和Obs/Exp比值(o/e).

设一段DNA序列长度为L,NC,NG,NCG分别为脱氧核糖核酸C,G以及二联体CG的数目,则C+G含量和Obs/Exp比值计算如下[14]:

GC_con=NC+NGL(3)

o/e=NCG×L

NC×NG(4)3 分类器设计

系统结构如图1所示.系统由三个分类器组成,分别是启动子‐外显子分类器,启动子‐内含子分类器和启动子‐3’UTR分类器,每一个分类器都是一个BP神经网络.由于三层BP神经网络能够逼近任何有理函数,所以每个分类器都由三层神经网络组成,即一个输入层,一个隐含层和一个输出层.Sigmoid函数作为BP神经网络的激活转移函数.

图1 系统结构

隐含层的节点数S2根据经验公式计算如下:

S2=S1×S3+4+a, a∈1,10 (5)

相关文档
最新文档