基于 KL 散度和 BP神经网络的人类基因启动子识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷第1期2010年3月 辽宁师范大学学报(自然科学版)JournalofLiaoningNormalUniversity(NaturalScienceEdition) Vol.33 No.1Mar. 2010 文章编号:1000‐1735(2010)01‐0042‐04
基于KL散度和BP神经网络的人类基因启动子识别
李文举, 梅 丽, 信润海, 韦丽华
(辽宁师范大学计算机与信息技术学院,辽宁大连 116081)
摘 要:
人类基因启动子预测和识别是DNA序列分析中的一项重要任务.提出了一个基于KL散度和BP神经网络的人类基因启动子识别算法.利用KL散度提取分辨力最强的六联体来区分启动子和非启动子区域,将这些六联体的
出现频率作为识别启动子的组成成分特征,结合CpG岛特征,应用BP神经网络技术建立人类启动子识别系统.该系
统有3个分类器,即启动子‐外显子分类器,启动子‐内含子分类器和启动子‐3’UTR分类器,每个分类器都是一个BP
神经网络,通过3个分类器的结果来综合预测启动子序列.对测试集的实验结果为:敏感性达到51.4%,特异性达到
52.9%.
关键词:启动子识别;组成成分特征;CpG岛;KL散度;BP神经网络
中图分类号:TP391.4 文献标识码:A
收稿日期:
2009‐11‐22基金项目:辽宁省博士科研启动基金项目(20061052)
作者简介:李文举(1964‐),男,辽宁营口人,辽宁师范大学教授,博士.E‐mail:wenjuli@dl.cn
1 引言
随着人类基因草图的完成[1]
,基因识别成为一项重要任务.基因前面通常存在着启动子.启动子是
起始调控基因转录的序列[2],它包含基因的转录起始点(TSS)并控制基因的生物活性[3],它决定DNA
转录的方向、速度和准确性,是重要的调控元件.启动子识别和预测在基因识别中具有重要作用,是生物信息学的研究热点之一.
现有的启动子识别方法大致可分为3大类:
(1)基于信号的方法[4‐6].它主要通过识别TATA盒,CAAT盒等启动子元件来区分启动子序列和
非启动子序列,但这些元件并不是决定启动子功能的唯一元件,因此单纯考虑这些元件,会造成很大的假阳率.
(2)基于内容的方法[7‐8].这种方法主要是统计启动子序列中的K个连续字符组合出现的频率,即
根据组成成分来识别启动子序列.由于DNA序列中各个碱基出现的频率不同,存在一定的特异性,而相同功能的DNA序列存在碱基使用偏好,因此此方法适用于结构和功能都未知的序列预测.但如何选取分辨力最强的组成成分是一个难题,具有挑战性.
(3)基于CpG岛的方法[9‐11].它是根据大多数人类启动子和CpG岛相关这一事实对启动子进行识
别.但并非所有的启动子都与CpG岛有关,所以仅依靠CpG岛识别启动子会导致假阳率较高.
目前,人类基因启动子识别技术中存在的尚未解决的难题,就是假阳率高、识别率低,准确的启动子识别仍然是一个具有挑战性的任务.
笔者将CpG岛特征和组成成分特征相结合,应用BP神经网络技术,提出了一种新的人类基因启动子识别算法.2 特征提取
2.1 组成成分特征DNA序列可以看成是由字母A、C、G、T组成的字符串,每个字母代表一个核苷酸.K个连续核苷酸被称为一个K联体(K‐mer)或长度为K的词(K词).长度为K的K联体共有4K个.K联体的频率分布具有重要的生物学意义,一些特别重要的K联体(K≥4)能用于分辨启动子和非启动子区域.有研
第1期李文举等: 基于KL散度和BP神经网络的人类基因启动子识别43
究表明,当K=6时,即6联体具有更好的启动子识别性能[8],关键是选取哪些6联体作为组成成分特征.
KL散度是一种很有意义的统计测度,它相当于距离,可以度量两个概率分布之间的差异.笔者使用KL散度来选择6联体.
设ppr为6联体在启动子序列中出现的频率,pjnp(j=1,2,3)为6联体在第j种非启动子序列中出现的频率(j=1,代表外显子;j=2,代表内含子;j=3,代表3’UTR).KL散度定义如下:
Djppr,pjnp=∑4096
i=1pprilnppri
pjnpi, j=1,2,3(1)
将pprilnppri
pjnpi,i∈[1,4096]按降序排列并令其为djm,m∈[1,4096],令:
Rj=
∑
nj
m=1
djm
Djppr,pjnp, nj∈[1,4096](2)
将m由1逐渐增大并计算对应的Rj.若当m=nj时,Rj≥98%,则前nj个6联体的出现频率作为区别启动子和第j种非启动子序列的特征.本文n1=1024,n2=1240,n3=1190
2.2 CpG岛特征
CpG岛是一类长度超过200bp,C+G含量大于50%,双核苷酸CG出现的次数与估计出现的次数之比(Obs/Exp)大于60%的特殊DNA序列.从已知的DNA序列统计发现,在大约一半的哺乳动物启动子附近发现了CpG岛[12],而约60%人类基因启动子与CpG岛相关联[13],因此,CpG岛可作为人类基因启动子识别的一个重要特征.笔者使用CpG岛的两个特征,C+G含量(GC_con)和Obs/Exp比值(o/e).
设一段DNA序列长度为L,NC,NG,NCG分别为脱氧核糖核酸C,G以及二联体CG的数目,则C+G含量和Obs/Exp比值计算如下[14]:
GC_con=NC+NGL(3)
o/e=NCG×L
NC×NG(4)3 分类器设计
系统结构如图1所示.系统由三个分类器组成,分别是启动子‐外显子分类器,启动子‐内含子分类器和启动子‐3’UTR分类器,每一个分类器都是一个BP神经网络.由于三层BP神经网络能够逼近任何有理函数,所以每个分类器都由三层神经网络组成,即一个输入层,一个隐含层和一个输出层.Sigmoid函数作为BP神经网络的激活转移函数.
图1 系统结构
隐含层的节点数S2根据经验公式计算如下:
S2=S1×S3+4+a, a∈1,10 (5)