真核生物5‘端外显子和翻译起始位点的预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

真核生物5’端外显子和翻译起始位点的预测Prediction of First Exons and Translation Initiation Sites
in Eukaryotic Genomes
力学与工程科学系00级胡钢清
Gangqing Hu
Dept. of Mechanics and Engineering Science
摘要
真核生物翻译起始位点(TIS,translation initiation sites)的正确预测对于基因的正确注释有着重大的意义。

本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点。

本文算法的得出主要基于三种方法自然结合。

我们首先基于简单的权重矩阵方法(WMM,Weight Matrix Method)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点。

接下来,我们采用WMM 找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)。

通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断A TG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号。

最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariate entropy distance,MED)方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果。

1 引言
2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律。

其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标。

所谓基因预测,就是在对DNA序列编码潜能(coding potentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释。

对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编码蛋白质的基因对应为一段连续的开放阅读框(open reading frame,ORF),因此,基因预测的问题也相对简单,本人所在的佘振苏教授研究小组已经在这方面取得了很好的结果【4】。

但是对于真核生物,它们的基因结构远比原核生物的复杂,许多基因是断裂基因,间断成外显子(exon)和内含子(intron),并且exon在序列中长度比例极小【5】。

生物体通过对剪接位点(Splice Site)的剪接等过程最终构成蛋白质。

现有很多真核生物基因结构的预测算法就是针对Splice Site的预测,即对外显子的预测,著名的有Genescan,GeneMark 等。

本质上可以将外显子分为4类:包含起始编码子(start codon)和终止编码子(termination codon)的single exon,包含起始编码子和供体位点(donor site)
的first exon,包含受体位点(acceptor cite)和供体位点的internal exon,以及包含受体位点和终止编码子的terminal exon【6】。

现有基因预测软件中对于first exon、terminal exon以及single exon,它们的识别精度通常都大大低于internal exon的识别精度【7】。

First exon的预测实际上包含了对翻译起始位点的预测。

本文重点在于翻译起始位点的预测算法设计,同时也给出了5’端外显子(即first exon)的预测结果。

一般认为,对基因结构预测所用到的信息有三部分组成:序列上的信号(signal),内容(content)统计以及与已知基因的相似度(similarity)【8】。

我们用到的信息只是包含了前两部分,对ATG信号的多状态熵距离判别分析以及找出模糊词汇是属于信号的范畴,而对阅读框运用MED方法实际上关系到了内容统计。

在预测时,我们采用的算法是简单的线性判别。

2 材料
我们采用了Kulp & Reese(1995)、ALLSEQ【9】以及HMR195【7】三部分数据集,其中前两者的部分序列作为学习集,最后者的部分数据作为测试集。

如引言所提到,真核生物的基因按是否含有内含子可以分为多外显子基因以及单外显子基因。

实际上,前者在数目上占绝大多数,因而本文关心的是对多外显子基因中的翻译起始位点以及5’端外显子的研究与预测。

Kulp & Reese(1995)提供的数据集是通过运用BLASTP【10】删除一些相似和冗余的序列后得到的。

数据库包含了人类的单外显子基因186个,多外显子基因304个,其中多外显子基因中共包含1798个外显子。

我们直接采用了其中的304个多外显子基因作为学习集的一部分。

ALLSEQ数据集经过了一些严格的标准【11】筛选、整理出来的。

它包含的是一些脊椎动物的多外显子基因,有570个,其中有外显子数目为2649。

我们采用ALLSEQ数据集构成学习集的另一部分。

HMR195数据集是Rogic等于2001年整理出的,其中包含了人、小鼠和大鼠共195条基因的注释。

数据集中人、小鼠、大鼠的比例为103:82:10,包含152个多外显子基因和43个单外显子基因。

我们采用其中152个多外显子基因作为测试集。

这样我们一共得到了874个基因作为学习集,152个基因作为测试集。

3 方法
3.1 ATG信号的多状态熵距离判别分析方法
真核序列中,基因一般是由编码甲硫氨酸(Met)的密码子ATG开始,我们把这样的ATG称为翻译起始位点,而将DNA序列上出现的核苷酸三联码“ATG”称为ATG信号。

为了描述ATG信号,我们取出由ATG信号前mbp,后nbp组成的核苷酸序列L。

用q ij(j=1,…,m+n,i = 0,…,3分别表示核苷酸A、C、G、T)表示出现在该序列上第j个位置上的核苷酸i,q ij是一个4×(m+n)的矩阵,其特征如图1所示。

图1 用矩阵q
来反映序列的核苷酸的位置以及内容
我们可以简单地将ATG 信号分为两类,一类是翻译起始位点,剩下的ATG
信号归为另一类。

为了刻画这两类信号的区别,我们分别统计出他们对应于L 的权重矩阵0M 、1M (它们都是4×(m +n )的矩阵),进而依次定义出该序列的相
对熵k
L H 以及熵距离L E 如下:
3
10
log
(k 12m n ij
k
L
ij k
j i ij
q H q M +===-∑∑其中=,), 01
L E H - H =L L
然而通过引入多状态熵距离判别分析,我们将对ATG 信号有更细致的描写。

为了描叙处于不同状态的ATG 信号(“状态”这个词将在下文阐明),我们要用到阅读框这个概念:在同一DNA 序列上,如果用TIS p 、ATG p 来分别表示翻译起始位点以及某个ATG 信号的位置,则可以定义出该ATG 信号的阅读框
ATG ATG mod(,3)TIS fr p p =-(表示ATG TIS p p -对3的求模运算),可以看出翻译起始位点对应ATG 信号的阅读框为0。

阅读框概念的引入是有生物学意义的,生物体通过对剪接位点剪接等操作形成mRNA ,在mRNA 的核苷酸序列中只有与翻译起始位点有相同阅读框的3个核苷酸才可能编码氨基酸。

在第一个供体位点前,ATG 信号在DNA 序列上出现的位置决定了该ATG 可能具有的某个属性:
N :出现在翻译起始位点之前,或出现在翻译起始位点之后且阅读框与翻译起始位点对应的阅读框不同。

S :出现在翻译起始位点位点上。

C :出现在翻译起始位点之后且阅读框与翻译起始位点对应的阅读框相同。

我们猜想,每一个ATG 信号并不是独立的,它与邻近的其它ATG 信号存在某些关联,尤其对于具有同一阅读框的ATG 信号这种关联将更为强烈。

这样的话,考察同一阅读框的3个相邻ATG 信号之间的关联性,可以归纳出中间那个ATG 信号可能具有的6种状态:
1,当ATG 信号与翻译起始位点有相同阅读框时,有5种:NNN_0(NNN_0,表示这3个ATG 的属性依次为:N ,N ,N 。

后面的数字表示这3个ATG 的阅读框,后类推),NNS_0,NSC_0,SCC_0,CCC_0。

2,当ATG 信号不与TIS 同阅读框时归为第6种:NNN_1,2。

为了刻画具有NSC_0状态的ATG 信号与具有其它状态信号之间的区别,我们取出与其有相同阅读框的前后各一个ATG 信号,将这三个ATG 信号各自对应的取其前m t 后n t 核苷酸序列L t ( t =1,2,3)拼接起来构成一条序列总长为l =
3
1
()t t t m n =+∑的序列S (如图2)。

图2 将三条序列拼接起来,构成一条新的序列S (这里假定(m ,n )分别为(4,7)、(2,9)以及(5,6))
在统计出不同状态对应于S 权重矩阵 1,...,6i M i )(= 后,类似于将ATG 信号分为两类时相对熵的定义,我们给出将ATG 信号分为6个状态时的相对熵的定义
3
10log
(l
ij k s
ij k j i ij
q H q M
===-∑∑其中k=1,2, (6)
为了刻画具有状态NSC_0的ATG 信号与其它状态的ATG 信号的差别,我们同样可以引入熵距离的概念,不过这里的熵距离是一个5维向量:
1
3456(,,,,)s s s s s s E E E E E E =2 (k k s s E H - H =s 其中k=1,3,4,5,6)
如果认为非编码区内的核苷酸之间是相互独立的以及结合生物学上每个氨基酸是由3个核苷酸编码而成这个事实,我们可以认为将序列L t 划分为p t 个片段Lt j (其中3
11t
j p t t i L S ===∑∑,如图3),并将每个片段统计出的熵距离组成一个向量
1(,...,)p E E E =是有意义的。

这样S 就被化为n =3
1
t t p =∑个片断,第m 个片断的
相对熵、熵距离以及S 的熵距离依次为:
213
,120
log
(,S l ij k
s m
ij k j l i ij
q H
q l l M
===-∑∑这里表示第m个片段在上的起始与结束位置)
134562
,,,,,,,,(,,,,), ,k k s m s m s m s m s m s m s m s m E E E E E E E H - H ==s,m 其中k=1,3,4,5,6
113366,1,,1,,1,(,...,,,...,,...,,...,)s s s n s s n s s n E E E E E E E =
图3 将序列Lt 划分为各个片断
可以看出,每一ATG 信号都可以在5×n 维的熵距离空间中对应一个向量s E 。

这样对于给定的一个ATG 信号,我们构造出其s E ,计算该s E 与各种状态ATG 信号对应s E 中心的距离l k ,取 d k =σk * l k (k=1,2,…6, 0<σk 为参数),取最小值对应的状态为该ATG 最可能的状态,进而判断出该ATG 的属性。

表1给出了在相同条件下,采用多状态熵距离判别分析方法(各种参数如表2)与WMM 【1】对测试集的ATG 信号进行分析的对照结果。

从表中可以发现: (1) 对于在第一个内含子前面的序列,在要求较高精度(>93%)地识别出
TIS 的条件下,采用多状态熵距离判别分析方法总比WMM 方法能减少不少假阳性。

(2) 多状态熵距离判别分析方法从WMM 方法中减少假阳性ATG 信号数目的
能力(减数/WMM 数目)是随分析范围的从5’端往后延伸而降低的。

即与WMM 相比,保守地估计多状态熵距离判别分析方法只在分析第一个受体位点前的ATG 信号占优势。

而这对我们设计可以算法就已经够用了,如下文可以看出我们只需要学习第一个受体位点前信息。

表1多状态熵距离判别分析方法与WMM 的对照结果
(这里把判断为TIS 的不具有NSC_0状态的A TG 信号成为假阳性的A TG 信号)
表2 多状态熵距离判别分析的各种基本参数
3. 2 GT信号的WMM方法
在多外显子基因中,外显子后面往往出现“GT”两个核苷酸,这样的GT 在DNA序列中位置称为供体位点。

GT信号是指出现在真核生物DNA序列上的2个相邻核苷酸“GT”,这里还要用到STP信号:3个相邻核苷酸“TGA”、“TAA”或“TAG”。

我们将学习集中第一个供体位点上的GT信号归到类D(donor)中。

在学习序列5’端到第一个受体位点之间的范围内,我们用多状态熵距离判别分析方法对序列中的ATG信号依次分析。

当有ATG对应的状态判为NSC_0时,找出与其同相位的第一个STP信号,将它俩之间非D类的GT信号归到类ND(not donor)中,然后对STP以后的ATG信号重复以上的操作。

包含GT信号的核苷酸序列,相应地可分为两类:包含D类GT信号的序列,和包含ND类GT信号的序列。

各类序列在其不同位置对核苷酸的偏好程度可以通过权重矩阵得到刻画。

对于给定的一个GT,我们取出其相应序列,将该序列中每一核苷酸在ND权重矩阵相应位置上的数据相加得出其归为ND类的概率p,同样方法可得出其归为D类的概率q,如果p>q则该GT信号成为受体位点的可能性大。

程序中,GT信号对应序列的参数选为GT信号前20bp后20bp。

3.3 选取模糊词汇以及得出用于MED聚类的[ATG…]GT序列
我们在学习集的每一条序列第一个受体位点之前,先用多状态熵距离判别分析方法找出状态为NSC_0的ATG信号,再找出与该ATG信号有相同阅读框的第一个STP信号,在它俩之间用WMM找出最大可能成为D类的GT信号,将ATG信号与该GT信号标识的序列取出构成[ATG…]GT序列,这样将找出不包含TIS的[ATG…]GT序列共2297个,归为类NIE(not initial exon,这其间要求:如果[ATG…]GT序列中ATG的相位与其所在序列TIS的相位相同,则该序列与5’端外显子相重叠的部分不超过序列总长的1/3)。

另外我们选取包含TIS 的[ATG…]GT序列(即5’端外显子)共874个,归为类IE(initial exon)。

然而我们发现,通过引入模糊词汇的概念可以将NIE类的数目进一步缩小。

原核生物中,翻译起始密码子上游4~7个核苷酸之前有一段富含5’…AGGAGG…3’的短小序列,成为SD序列【12】。

我们猜想在真核生物中是否也有类似的现象,这样的短小序列不只一种形式,并且它们在进化的过程中可能会发生变异、插入以及缺失。

这种的短小序列称为模糊词汇。

这样我们对长度为6的46个信号在777个翻译起始位点(要求对应第一个外显子的长度大于30bp)前14bp范围内进行枚举得出最多允许2个核苷酸变异的模糊词汇CCAGCC,CTCAGC以及GCCAGC,满足IE类中有90%以及NIE类中有59%的[ATG…]GT 序列前出现了其中的某个或多个词汇。

我们只保留将NIE类中出现某个模糊词汇的[ATG…]GT序列共1353条以及IE类中长度大于30bp的[ATG…]GT序列共777条。

3.4 [ATG…]GT序列的MED多中心聚类
MED主要思想如下简述【16】。

Shannon【13】在讨论人工语言时指出, 对一段文字或语言最好的刻画是从其基本词汇的出现频率出发. 那么, 对于[ATG…]GT序列如何选取这些基本词汇呢? 根据中心法则, 具有编码功能的DNA序列按照通用遗传密码被翻译成具有生物
学意义的氨基酸序列, 氨基酸序列通过特定的空间折叠得到具有生物活性的蛋白质, 在生命过程中发挥功能。

因此,以20种氨基酸作为理解生物DNA 序列的基本词汇是一个很自然的选择。

我们认为, 具有生物学意义、能编码蛋白质的IE 类[ATG …]GT 序列的与非编码的NIE 类[ATG …]GT 序列的编码潜能有着一定的差别. 为刻画编码潜能, 我们引入多变量的参数——熵密度分布(entropy density profile, 简称EDP )。

假定所给定[ATG …]GT 序列长度为L (以氨基酸为单位), 第i 种氨基酸(按照其字母简称排序)的出现次数为L i , 则得到第i 种氨基酸的使用频率(或丰度)
为L
L p i
i =. 根据Shannon 熵的定义
∑=-=20
1
log j j j p p H
可以构造该[ATG …]GT 序列的熵密度分布(EDP ):
20,...,1log 1
=-=i p p H
S i
i i
这样, 对于任意的[ATG …]GT 序列, 我们都可以构造出它的多变量的参数EDP, 即{}i S (i =1, …, 20), 使之对应于20维的相空间上的一点.然后,我们用相空间中任意两点{}i S 和{}i S '(分别对应两段DNA 序列的EDP )的欧氏距离D 来刻画两[ATG …]GT 序列的差异:
()∑='-=20
1
2
2
i i i S S D ,
通过计算一个未知[ATG …]GT 序列的EDP 与一系列已知EDP 相点的距离, 我们可以方便地将未知[ATG …]GT 序列进行归类。

我们认为,在20维相空间中,对一个给定的[ATG …]GT 序列,它的EDP 在相空间中总是更倾向于分布在自己所属一类的某个中心周围。

也就是说,[ATG …]GT 序列的EDP 在相空间中表现出很明显的聚类性。

这里同时也指出每一类的聚类中心往往有不只一个,为了较好的刻画这样的聚类性,我们采用了多中心聚类方法。

下面结合[ATG …]GT 序列对多中心聚类方法作简要介绍
【14】。

在20维相空间Ω上有两类集合IE 、NIE (以下分别用X ,Y 表示,分别有I ,J 个点)。

我们要解决的问题是,找出反映集合X 、Y 中样品点分布性质的两
类多中心{}X n c 、{}
Y
m c ,这里的N n ,...,1=,M m ,...,1=是中心的序号,且I N ≤,
J M ≤。

在判别未知点Ω∈z 时,计算
(){}N n c z d d X n X ,...,1,,min ==
(){}M m c z d d Y
m
Y ,...,1,,min == 其中(
),
d 是欧氏距离。

通过比较距离X
d
和Y
d 的大小,
若Y X
d d ≤,则X z ∈; 若Y X
d d
>,则Y z ∈。

因此,关键问题是如何得到两类多中心{}X n c 和{}
Y
m c 。

下面以求X 的多中心
(multi-centers ){}
X
n c 为例。

首先在X 中随机挑选一批有代表性的样品点X x n ∈()N n ,...,1=,称之为聚点(clustering point ),要求它们满足:
(1)、两两之间的距离不小于r (r 为聚类半径),即
()r x x d n n ≥2
1
,;
(2)、构造区域()n N n x v X δ1
~== ,()n x δ是以n x 为球心、r 为半径的小球,若
X x i ∈∀,有:
I i X
x i , (1)
=∈
然后,对以聚点n x 为球心、r 为半径的小球进行平均,得到它的初始中心
()0n
c 。

以初始中心(){}0
n
c 作为下一步的新样品点集,仍然以半径r 为标准构造新的
聚点,并得到新的中心(){}1
n c 。

重复计算下去,直到第m 步中心满足收敛标准,

()()
(){}N n c c d m n m n ,...,1,0,
,max 1=>≤-εε。

由此得到{}n c ,迭代计算结束。

理论上可以证明,当m 增大时,(){}m
n
c 会趋于稳定,即
()
{}{}n m n
m c c =∞
→lim ,n =1,…,N 同样可以得到点集Y 的多中心。

上述聚类算法的关键参数是聚类半径r , r 太小学习出的数据特异性太强,
不具有一般性,r 过大则又不能反映多中心的性质。

我们通过多次尝试,可以大致估计IE 和NIE 的聚类半径宜在0.2左右。

我们对1353条NIE 类[ATG …]GT 序列以及777条IE 类[ATG …]GT 序列运用多中心聚类,得出中心数目分别为213,90。

同时可以分析出: IE 类的EDP 点在相空间上的分布要更“紧凑”,而NIE 类的EDP 点在相空间上要更“松散”一些。

对于给定的一个[ATG …]GT 序列,求出它与IE 类多中心的最短距离D IE 及与NIE 类多中心的最短距离D NIE 。

取 IE d =IE σ*IE D ,NIE d =NIE σ*NIE D (0<IE σ<1,0<NIE σ<1为参数),如果IE d <NIE d ,则该[ATG …]GT 序列属于IE 类,否则为NIE 类。

这样我们就给出了5’端外显子的预测。

4 结果与讨论
我们采用如下方法对测试集进行测试:从每一测试序列的5’端 开始用多状态信号的熵距离判别分析方法分析出状态为NSC_0的ATG 信号后,在该ATG 信号之后找出与之同阅读框的STP 信号,再利用WMM 在ATG 与STP 之间找出最大可能成为D 类的GT 信号,如果该ATG 及GT 组成的[ATG …]GT 序列前出现了某个模糊词汇则采用MED 多中心聚类方法进行判别,将判为类IE 的[ATG …]GT 序列对应的ATG 、GT 信号存入结果,接下来多状态熵距离判别分析方法对该STP 信号以后的ATG 信号进行分析,重复以上过程,图4给出了该算法的流程图。

图4 翻译起始位点以及5’端外显子预测算法流程图
为了预测出翻译起始位点,DNA 序列上的ATG 信号、GT 信号,模糊词汇以及[ATG …]GT 序列编码潜能三个方面的信息被综合考虑了。

我们知道如果只采用算法中的某些步骤,也能构成对翻译起始位点的预测,比如只考虑ATG 信号的特征。

这表3给出了对于预测翻译起始位点,如果只考虑ATG 信号,只考虑ATG 、GT 信号,只考虑ATG 信号、GT 信号、模糊词汇的算法以及最终采用的算法的对比结果。

表3 只采用算法中某些步骤与采用完整算法对比结果
每条序列可能测出多个“翻译起始位点”,将它们按在DNA 序列上出现的位置从 小到大排列成一个队T ,如果翻译起始位点出现在该队中,则其出现在表中的位置记为K
对翻译起始位点的预测,就实际应用而言,我们有两种模式 (1) 实际的含有一条基因的DNA 序列,只有不多于一个翻译起始位点。

这样在只需要得到一个翻译起始位点或5’端外显子情况下,由表3可知最终采用算法在这方面表现最好,它能预测对73个翻译起始位点,居于首位。

(2) 设计预测完整的基因的算法时,可能要用多个预测出的翻译起始位
点或5’端外显子,作为预测其它信号如剪接位点的初值。

在这种模式上,为了评估哪种方法最优,我们要兼顾两方面。

一方面是判为状态NSC_0的ATG 信号数目不宜太少,否则我们最终满足不了预测翻译起始位点的精度要求。

另一方面是假阳性的ATG 不宜太多,否则可能出现初值包含大量假阳性的ATG 信息以至于将TIS 的信息湮没掉的情况。

为此,定义sn 、sp ,以sn +sp 的高低评判方法的优劣。

表4给出了表3中各种方法的sn 、sp 以及sn +sp ,可以看出只考虑ATG 以及GT 信号是最合理的。

NSC _0TIS TIS NSC _0TIS NSC_0ATG sn sp =
=
判为状态的信号数目
总数
判为状态的信号数目判为状态的信号总数
表4 在模式2下,评价表3各种方法优劣的参数
在这种模式下, 最终采用算法出人意料地被评为最差。

从下面分析可以
看出这可能是由于[ATG…]GT序列的长度过短导致MED方法的一个
缺点引起的。

而在原核生物中,MED方法对于短ORF(长度低于300bp)
预测的精度低于对长的ORF的预测精度不少【15】。

在本文中ORF将对
应于[ATG…]GT序列。

我们接下来看一下学习集中的以及测试出具有
NSC_0状态中ATG信号对应的[ATG…]GT序列长度分布,如图5 。

可以看出在真核生物中5’端外显子的长度绝大多数低于300bp,同时
我们构造出的NIE类的[ATG…]GT序列也存在这样的情况。

实际上,
5’端外显子过短也是导致其很难准确预测的重要原因,因为它一方面
包含的信息量少,另一方面太短以致于很难从内容度量(content
measure)上进行判别【8】
图5 [A TG…]GT序列的长度分布图
(a)学习集中[A TG…]GT序列长度分布
(b)测试集中具有NSC_0状态中A TG信号对应[ATG…]GT序列长度分布
模式2为我们今后设计包含翻译起始位点、剪接位点以及翻译终止位点等的完整基因结构算法奠定了基础。

文章的最后,我们在采用模式1的情况下,将最终算法在预测5’端外显子的结果与国际相关知名基因识别软件预测的结果进行比较,如表5【7】。

表5 将预测5’端外显子的结果与国际相关知名基因识别软件预测的结果进行比较
可以看出,对5’端外显子的预测,我们的精度以及和Genie不相上下。

通过前文可以发现我们的算法与GeneScan采用到的HMM模型【16】相比较是极其简单的,也达到了令人满意的结果,这也构成了我们算法的一个优点。

参考文献
【1】Staden,R. (1984). Computer methods to locate signals in nucleic sequences. Nucleic Acids Res.12: 505-519
【2】Huaiqiu zhu, Zhen su She, and WangJ. (2002). An EDP based Description of DNA sequences and Its Application of Exons in Human Genome.The 2nd Chinese Conference On Bioinformatics, 23.
【3】Consortium, I.H.G.S. (2001). Initial sequencing and analysis of the human genome.Nature.409:860-921
【4】She Z.S., Ouyang Z.Q., Ren K., She Z.S., Ouyang Z.Q., Ren K.,and Wang J. (2002).
Multivariate Entropy Density of DNA Sequence. Submitted to “Physical Review Letters”.
【5】T.A.布朗著,袁建刚,周严, 强伯勤译. (2002). 基因组. 科学出版社
【6】R.Guigo, S.Knudsen, N.Drake, T.Smith. (1992). Prediction of Gene Structure.
J.Mol.Biol. 226:141-157.
【7】Sanja Rogic, Alan K.mackworth, and Francis B.F. Ouellette. (2001). Evaluation of Gene-Finding Programs on Mammalian sequences. Genome research, 11(5): 817-832.
【8】Stormo GD. Gene-finding approaches for eukaryotes. (2000) Genome research, 10(4): 394-397.
【9】Burset M. and Guigo R. (1996) Evaluation of gene structure prediction programs.Genomics.34:353-367.
【10】Altschul, S.F., Gish, W., Myers, E.W. and Lipman, D.J. (1990). Basic local alignment search tool. J.Mol.Biol.215:403-410.
【11】uigo R.(1997).Computational gene identification: an open problem. Computer Chem.21(4):215-222.
【12】戴灼华等.(1999).遗传学.高等教育出版社.p235.
【13】Shannon,C.E.(1948) A mathematical theory of communication.Bell System Technical Journal,27,379-423 and 623-656
【14】朱怀球基因组序列复杂信息结构分析与基因预测新算法的研究北京大学博士后研究工作报告
【15】Zhengqing Ouyang, Huaiqiu Zhu, Jin Wang and Zhen-su She.(2003) Multivariate Entropy Distance Method for Prokaryotic Cene Identification. Will be published by JBCB.
【16】C.Burge,S.Karlin.(1997).Prediction of complete gene structures in human genomic DNA. J.Mol.Biol 268:78-94.
致谢
我是去年暑假进入佘老师领导下的理论生物小组并开始这方面的研究。

一年来我从这个小组里学到了很多关于去做学问的方法,同时也被这个小组的上进、严谨、合作的氛围所吸引。

这里我首先要感谢我的导师佘振苏教授,他不仅为我提供了一个做研究的良好环境并对我的工作进行指导,更重要的是他那种做一名真正科学家的气质已经深深的感染了我。

这里我还要感谢我的另一位导师朱怀球老师,朱老师总是在我做研究感到前途迷茫的时候不遗余力的为我指点迷津,并经常对我的研究提供一些很有参考价值的关键性的建议。

这里我还要感谢我们组的李龙、杨铸、欧阳正清等师兄师姐,同他们的交流、讨论使我长进了不少知识,同时他们对我的关心又使我体会到了家一般的温暖。

还要特别感谢蓝赣辉同学,在与他合作将模糊词汇运用到翻译起始位点的预测过程中,他无私地给了很多帮助。

我很庆幸能加入到这个小组。

作者简介
胡钢清,男,1983年4月出生于江西泰和,2000年从泰和中学考入北京大学力学与工程科学系。

大一大二常在自习室学习,2002年获国家奖学金二等奖。

大三进入理论生物中心佘振苏教授领导的研究小组“实习”,感受到了理论运用于实践的喜悦。

冬天酷爱滑冰,一旦湖面结冰,几乎每日必去,自谕“略有小成”。

又痴迷于C++, Java等面向对象语言,每读一本这方面的书,有人问之则称“练葵花宝典中…”,但深恐哪日“走火入魔”,遂终日惶惶乎…
感悟与寄语:
一个只会埋头苦干的人是很失败的,一个人还要善于表达自己的思想和不时的抬头看路。

指导教师简介:
佘振苏,长江学者特聘教授,北京大学湍流与复杂系统国家重点实验室主任,美国加州大学洛杉矶分校数学系教授,北京大学理论生物学中心副主任。

1987年获法国巴黎第七大学博士学位,1987-1992年美国普林斯顿大学博士后。

研究方向:基因组序列生物复杂性研究
1. 将湍流层次结构模型发展成系统的复杂系统层次结构理论,并应用于生命
科学中的多层次复杂系统。

2. 生物基因遗传信息的层次结构研究。

3. 研制新的原核基因搜索软件。

朱怀球,讲师,博士。

2001年前,主要从事计算流体力学的网格生成算法、科学计算可视化算法研究以及CFD软件应用和开发;2001~2002年留北大做博士后,转向生物信息学领域,主要从事生物基因组序列的信息结构的复杂性及基因预测新算法的研究。

2003年留北大任教。

相关文档
最新文档