生物信息学复习的总结

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息期末总结
1.生物信息学（Bioinformatics）定义：（第一章）★
生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。

（或：）
生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

（NSFC）
2. 科研机构及网络资源中心：
NCBI：美国国立卫生研究院NIH下属国立生物技术信息中心；
EMBnet：欧洲分子生物学网络；
EMBL-EBI：欧洲分子生物学实验室下属欧洲生物信息学研究所；
ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统；(Expert Protein Analysis System)
Bioinformatics Links Directory；
PDB (Protein Data Bank)；
UniProt 数据库
3. 生物信息学的主要应用:
1．生物信息学数据库；2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学；7．计算进化生物学与生物多样性。

4.什么是数据库：★1、定义：数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。

（记录record、字段field、值value）
2、生物信息数据库应满足5个方面的主要需求：
（1）时间性；（2）注释；（3）支撑数据；（4）数据质量；（5）集成性。

3、生物学数据库的类型：一级数据库和二级数据库。

（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；
蛋白质序列数据库有SWISS-PROT等；蛋白质结构库有PDB等。

）
4、一级数据库与二级数据库的区别：★
1）一级数据库：
包括：a.基因组数据库----来自基因组作图；
b.核酸和蛋白质一级结构序列数据库；
c.生物大分子(主要是蛋白质)的三维空间结构数据库，(来自X-衍
射和核磁共振结构测定)；
2）二级数据库：
是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验
数据和理论分析的基础上针对特定的应用目标而建立的。

一般说来，一次数据库的数据量大，更新速度快，用户面广，通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二次数据库的容量则小得多，更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。

5、一个数据库记录(entry)一般由两部分组成：
1）原始序列数据(sequence data)；
2）描述这些数据生物学信息的注释(annotation)：注释中包含的信息与相应的
序列数据同样重要和有应用价值。

6、数据的完整性和注释工作量：1）序列数据广，序列注释不够完整；
2）库数据面窄，序列注释全面.
7、数据库的动态更新：1）不断增加；2）不断修正.
5、几个大型数据库简介：
NCBI、EBI、SIB（共点：拥有庞大的一级数椐库、大量工具软件和广泛的外联。

）1、NCBI（）:
NCBI是指美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI），成立于1988年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物
医学信息。

1）Entrez（集成化的数据库）（/gquery/）Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。

类似于EBI的SRS（见下文），是一个查询、提取和显示系统。

The original version（原始版本）(1991) of Entrez had just 3 nods。

2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。

2、EMBL-EBI（）
EMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)为世界上第一个核酸序列数据库（1980）。

欧洲分子生物学实验室下属欧洲生物信息学研究所（European Bioinformatics Institute, EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。

通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法（如用关键字）搜索我们想要的序列。

EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。

欧洲分子生物学实验室EMBL（The European Molecular Biology Laboratory）。

Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。

3、SIB（）
瑞士生物信息研究所(Swiss Institue of Bioinformatics,SIB ,30 March 1998 )。

用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：SWISS-PROT，ExPASy（Expert Protein Analysis System 瑞士日内瓦大学专家蛋白质分析系统（http://www.expasy.ch/））。

6、核酸序列数据库：
1、国际上权威的核酸序列数据库：
（1）欧洲分子生物学实验室的EMBL；
（2）美国生物技术信息中心的GenBank；
（3）日本遗传研究所的DDBJ，（ http://www.ddbj.nig.ac.jp/）；
这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。

三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。

2、INSDC国际核酸序列数据库协会：
1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（International Nucleotide Sequence Database Collaboration,INSDC），三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步，每两个月更新一次版本。

（/）
7、蛋白质序列数据库：
1）PIR（Protein Information Resource）；（/）2）SWISS-PROT； (http://www.expasy.ch/sprot/sprot-top.html)
3）TrEMBL；(/trembl/index.html) 是与SWISS-PROT 相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列(CDS)翻译
而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中；
4）NCBI美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）；
5）UniProt；通用蛋白质数据库（/）包括：（Swiss-Prot、TrEMBL、PIR）用户可以通过文本查询数据库，可以利
用BLAST程序搜索数据库，也可以直接通过FTP下载数据。

8、生物大分子结构数据库：
1）PDB（Protein Data Bank）；（/）
2）MMDB(Molecular Modeling Database)；（/Structure/）
9、其它生物分子数据库：
1）单碱基多态性数据库dbSNP； 2）基因组数据库（GDB）； 3）人类基因组数据库Ensembl； 4）表达序列标记数据库dbEST； 5）序列标记位点数据库dbSTS； 6）面向基因聚类数据库UniGene； 7）蛋白质结构分类数据库SCOP； 8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP；10）OMIM(Online Mendelian Inheritance in Man)，是关于人类基因和遗传疾病的分类数据库。

》》》Nucleic Acid Research《《《
附：1、NCBI和EBI使用的搜索引擎分别是什么？
答：NCBI使用的是Entrez，EBI使用的是SRS。

2、FASTA格式有哪些部分组成，以什么字符开始？
答：包含gi number，Database identifiers，Accession number，Locus name 等部分，以>字符开始。

3、NCBI的WEB和离线序列提交软件是什么？
答：WEB提交工具：Bankit；离线提交：Sequin
4、系统生物学：
答：确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。

10、序列数据的文件格式：(第二章)
格式主要有三种：
DNA/RNA/氨基酸代码的标识（B、Z）；
GenBank数据格式；
FASTA 数据格式。

一、GBFF（GenBank flatfile）—GenBank平面文件格式：
GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢？这里引入GBFF（GenBank flatfile即GenBank平面文件）格式。

GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格
式之一。

GBFF文件分为三部分：a.头部包含整个记录的信息（描述符）；b.第二部分包含了注释这一记录的特性；c.第三部分是核苷酸序列本身。

（注：所有序列数据库记录都在最后一行以“//”结尾。

）
1）G BFF：LOCUS行
（LOCUS ，SCU49845，5028 bp，DNA linear，PLN，21-JUN-1999）
所有GBFF都起始于LOCUS行：
第一项：是LOCUS名称（SCU49845）：现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义。

大多数情况下，它仅使用检索号码（accesession number）以满足对LOCUS名称的要求；
第二项是序列长度（5028 bp）：规定单条数据库记录的长度不能超过350kb。

除历史原因外，GenBank已经很少接受长度低于50bp的序列了；
第三项表明分子类型（DNA）：其序列必须是一种单一的分子类型；
第四项是GenBank分类码（PLN）：由3个字母组成。

现在其作用仅限于在下载数据库时对数据库作简单的分类。

最后一项是其最后修订日期（21-JUN-1999）：有时也仅表示数据首次公开日期。

2）G BFF： DEFINITION行(definition)
(DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.) LOCUS行的下一行为DEFINITION行：主要对GenBank记录中所含的生物学意义做出总结。

它的说明内容包括了来源物种、基因/蛋白质名称。

若序列是非编码区，则包含对序列功能的简单描述；若是一段编码区，则标明该序列是部分序列（partial cds）还是全序列（complete cds）。

3）G BFF：ACCESSION行（ accession）检索号行
（ACCESSION U49845）
检索号（accession）是序列记录的惟一指针。

通常由1个字母加5个数字（U12345）或由2个字母加6个数字（AF123456）组成。

它在数据库中是惟一而且不变的。

有时ACCESSION行中可能会出现多个检索号，可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。

我们称第一个检索号为主检索号，其余的统称为二级检索号。

4）G BFF：VERSION行（version）版本号行
（VERSION U49845.1 GI:1293613）
VERSION行是版本号，格式为：检索号.版本号。

版本号用于识别数据库中一条单一的特定核苷酸序列。

在数据库中，如某条序列数据发生了变化，即使是单碱基的改变它的版本号也将增加，而其检索号保持不变。

版本号系统与其后的GI（geninfo identifier）号系统是平行运行的。

即当一条序列改变后，它将被赋予一个新的GI号，其版本号也将增加。

蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。

5）GBFF：KEYWORDS行（keywords）关键词行
（KEYWORDS .）
关键词行是用来描述序列的。

如果该行没有任何内容，那么就只包含一个“.由于没有对照词汇表，故NCBI/GenBank拒绝接受关键词，它只存在于旧的记录中。

6）GBFF：OURCE行（source）来源行
（SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.）对来源行(SOURCE)没做特殊的规定，它通常包含序列来源生物的简称，有时也包含分子类型。

在下面以NCBI的分类数据库为依据，指明物种的正式科学名称。

7）GBFF：REFERENCE 行reference参考文献行
（REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces
cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890）参考文献行将与该数据有关的参考文献均收录在内。

将最先发表的文献列于第一位。

如果序列数据没有被相关文献报道，该行将出现“unpublished”或“in press”。

最后将有一个可能的PUBMED指针。

8）GBFF：FEATURES 行（features）特性表行
（FEATURES Location/Qualifiers
CDS <1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
gene 687..3158
/gene="AXL2"
...... ）特性表(features)描述基因和基因的产物以及与序列相关的生物学特性。

特性表提供一个参考词汇表以对合法的特性进行注释。

这些特性包括：1、该序列是否执行一个生物学功能；2、它是否与一个生物学功能的表达相关；3、它是否与其它分子相互作用；4、它是否影响一条序列的复制；5、它是否与其他序列的重组相关；6、它是否是一条已识别的重复序列；7、它是否有二级或三级结构；8、它是否存在变异或者它是否被修订过。

特性表格式是按表单的方式设计的，分三个主要部分：
1）特性表关键词（feature），简要说明功能组；
2）特性位置（location），指明在特性表中的什么地方可以找到相关特性，在此可以包含操作符（operator）和功能性描述符（descriptor）以指
明序列需经过怎样的处理才能得到相应的特性；
3）限定词（qualifier），相关特性的辅助信息，限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息。

（这段序列可以解读为：该编码序列（CDS）起始于第1碱基，终止于第206碱基，它的产物是TCP1-beta ，基因名为“AXL2”。

）
9）GBFF：ORIGIN （origin）
（ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
......
4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc ）
在GBFF文件的最后，以类似于FASTA格式的方式给出了所记录的序列。

二、 FASTA 数据格式（FASTA format）：
Accession numbers are labels for sequences（检索号）
11、RefSeq资料库：（NCBI Reference Sequence Database参考序列数据库）
RefSeq资料库是NCBI将GenBank 的序列再做详细整理的non-redundent 序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库，为与 GenBank 区别，RefSeq的Accession Number（检索号）格式和GenBank的不同。

该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBI RefSeq仍是目前最可信赖的序列数据库。

GenBank中一个基因的索引号可能有上百个，但对应一个基因的RefSeq只
有一个。

（/RefSeq/）
NCBI参考序列数据库(RefSeq)旨在提供一个全面的、集成的、冗余，好的
注释组序列，包括基因组DNA、转录和蛋白质。

RefSeq是医学、功能和多样性研
究的基础；它们提供一个稳定的参考基因组注释、基因识别和表征，突变和多态
性分析(特别是RefSeqGene记录)，表达研究和比较分析。

e.g. >数据库检索实例<:
搜索Genbank no. FJ798090，获得序列相关信息
1.进入NCBI网站，选择nucleotide：FJ798090搜索，得到相关信息；
2.从CDS行可看到有关Aa的信息，从ORIDIN行可看到DNA相关信息；
3.在原网页上选择右边相关信息选择框的PubMed，查看关联文章；
4.主页进入DNA&RNA，选择tools，点第二个Batch Entrez，批量下载序列；
5.提交结果，显示参数与序列下载(Send选项、选File、然后选FASTA格式)，
下载序列，提交序列。

12、提交序列：
1、提交方式主要有三种：1）、Bankit 逐条提交、需要注册；2）、Sequin 10000
条以下；3）、Tbl2asn 超过1万条、命令行。

2、Bankit提交：先注册，后点New Submission（创建一个新提交），Sequencing
Technology（测序技术），nucleotide（核酸），Organism（生
物体），Submission Category（提交类别），Source Modifiers
（源寄存器修改），Primers（引物），Features（特性），Review
and Correct（检查和纠正，3处）。

3、Sequin DNA分析软件：（A DNA Sequence Submission and Update Tool）
序列提交：研究产生的新序列，需要递交到公共数据库保存；需要撰写论文
发表新序列时，需要数据库接受号。

4、WEB在线提交工具：1、NCBI 的Bankit；2、EBI的WEBIN；3、DDBJ
的SAKURA；
5、离线提交：NCBI的 Sequin。

6、提交比较：Bankit提交：使用简单，每个步骤有详细说明。

但一次只能提交一个序列，长度不能太长；Sequin：安装在用户自己的计算机上，可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。

13、引物设计及测序结果分析：（第三章）
1、引物设计流程：
1）序列查找与下载（GenBank）；
2）序列同源性比较(Blast/alignment)；
3）引物设计与筛选(primer 3/其他)；
4）引物加工与修饰(酶切、保护、标签、启动子等)；
5）引物评价分析(Oligo 6)；
6）引物二次筛选(blast)；
7）引物最终评估(band)；
2、引物设计原则：
基本原则：1）引物与模板的序列要紧密互补；2）引物与引物之间避免形成稳定的二聚体或发夹结构；3）引物不能在非靶点引发DNA聚合反应。

注意点：1、引物长度在15-30bp之间；
2、GC含量为40-60%之间；
3、引物的特异性（3’端不能有连续的GGG或CCC）；
4、3’△G的绝对值不超过9，双链形成所需自由能；
5、密码子的兼并：3’不要位于密码子的第3位。

3、引物设计软件：1）在线工具Primer 3、Primer-Blast；
2）本地软件Primer Premier 5；
3）引物评估软件 Oligo 6。

e.g．在线设计引物：
在Primer 3界面上将需要设计的序列粘贴复制进入大方框，确定基本参数和结果参数后，点击pick键后出现output页面，将所需的序列即一定要PCR 出的序列用中括号括上，再复制进大方框。

这两者的差别是第一个是随机的引物，而第二个选出的引物必然包含你所需的那一段。

KEYS (in order of precedence)优选引物:（****** target， >>>>>> left
primer ，
<<<<<<right primer）
4、Oligo 7手工设计引物：
上游ATGGGAAAAGACTATTACAAAATC
下游TCAATTCGGCAGCGTATCGTAGAG
选择引物长度→选定上下游引物→3’△G绝对值不能超过9→Duplex Formation 二聚体分析、Hairpin formation发夹分析（△G不能超过4.5）→成分和Tm→错误引发位点分析：一般在100以下，若正确引发效率达到400，可承受超过100多点→PCR最终分析评价→引物二次筛选（上下游引物在ncbi中进行blast分析（搜索primer ncbi）并输入设计的引物，选择nr数据库）→引物最终评估（大小、特异性、效率）→保护碱基与酶切位点（BamHⅠ，NotⅠ）。

5、测序结果分析：（一、Sanger法测序；二、测序图查看；三、序列拼接。

）Sanger法测序：流程：（1.PCR扩增；2.产物纯化；3.测序反应；4.电泳分离）；
DNA 测序的实验方法：(末端终止法）；
测序图查看软件：Chromas、Seqman…；
不好的结果：杂峰、套峰。

e.g．序列拼接实例:
1. SeqMan软件启动界面；
2. 原始测序文件导入软件；
3. Assemble（装配）；
4. Strategy of Contig（重叠群策略）Contig→Strategy view和Contig
→Alignment view→去除矛盾碱基和缺口（手动删除、修改可疑碱基）→导出拼接序列。

14、核酸序列分析：（第四章）
（常规分析、比对分析、基因结构识别）
1、常规分析：
（序列的检索、序列组分分析、序列变换、限制性酶切分析）
1、核酸序列检索：（Entrez、SRS）
2、核酸序列组分分析：（Bioedit→分子量；DNAMAN→碱基组成；EditSeq→碱基
分布）
1）EditSeq（碱基组成：Goodies→DNA Statistic）；
2）Bioedit （碱基组成Sequence-→Nucleic Acid→Nucleotide composition）；Bioedit：一种对基因序列进行分析加工或序列拼接的软件。

3、序列变换：（反向互补序列EditSeq→Goodies→Reverse complement；
反向序列EditSeq→Goodies→Reverse Sequence）
4、限制性酶切分析：（BioEdit→Sequence→Nucleic Acid→Restrict Map
在线：NEBcutter、WebCutter、Rebase）
2、比对分析：
意义：推测基因和蛋白质的进化演变规律；推测基因和蛋白质的结构和功能；
基本假设：序列的保守性→功能的保守性；
工具：Blast 和Clustal X；
1）BLAST比对（Basic Local Alignment Search Tool，基本局部比对搜索工具）
BLAST程序的中心思想是将序列切割成一段一段来比较。

这两段序列长度为W（分别来自提交序列，与数据库），比对分值>T。

主要分三步进行：（第一步：由查询序列生成的长度固定（W=3）的字段编译列表(Score>T)；第二步：在数据库中扫描获得与编译列表中的字段匹配的序列记录，作为后续延伸的种子seed；第三步：对于每一对选择出来的种子，将其向两边
延伸，使其在尽可能长的距离得到尽可能多的分数。

）
比对结果的判读：比对结果的显著性以E值(Expect value)来衡量，E值趋
向于0时，说明比对结果越显著。

E值的意义就是概率；
比对得分(bit score)：表明序列比对的得分，数值越高，两序列越相似。

【作业：以纤维素酶基因序列为靶标，进行核酸组分分析，NCBI中比对你的序列，至少使用blastn，blastx并下载不少于十个比对出来的序列。

】
回头来看NCBI参数选择：（blastp、blastn）
① Limit by Entrez Query：任何NCBI BLAST 搜索的范围都可以用在Entrez 搜索中使用的任何一种范围限定词来限定；
② Max target sequences：比对之后显示的最大的比对序列的数目；
③期望expect：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。

对于blastn、blastp、blastxt和blastn期望值的默认设置是10。

在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。

当将期望选项值调小时，返回的数据库搜索结果将变少，匹配被搜索到的概率也会变小。

增大E值将返回更多的结果；
④字段长度word size：对于蛋白质搜索，窗口大小可以被设定为3(默认值)或者2。

当用一个查询序列来进行数据库搜索时，BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。

实际应用中对于蛋白质搜索很少需要改变字段的长度；对于核酸序列，默认的字段长度是28，BLAST 的字长缺省值为28，即BLASTN将扫描数据库，直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止。

然后这些片段(即字)被扩展。

降低字段长度将会使搜索变得更准确同时也会变得更慢；
⑤矩阵matrix：对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵：PAM30、PAM70、BLOSUM45、BLOSUM62(默认值)以及BLOSUM80。

一些其他的BLAST 服务器还提供了很多其他的替代矩阵，如PAM250。

通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵；
⑥ Compositional adjustments：这个选项是默认选择的，一般来说可改善E 值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)；
2）blast2双序列比对：
Blast比对后，当数据库中搜索到多个显著相似的序列时，检测目的序列是否与之有真正关联，可进行双序列比对Pairwise Aligment。

Ncleotide：Hsp40 ORF VS bm40（改变参数）
点阵图Dot matrix view：连续线表示序列匹配指出，缺口表明量序列不匹配之处。

比对结果：
3、基因结构识别：
包括：（ORF识别；启动子与转录因子结合位点分析；重复序列分析；CpG island）1)ORF识别：
Kozak原则：1、第四位的偏好碱基为G；2、ATG的5‘端约15bp范围内的侧翼序列内不含碱基T；3、在第3、6、9位，G为偏好碱基；4、除第3、6、9位，在整个侧翼序列中，c为偏好碱基。

常见ORF在线预测工具：（ORF Finder；GeneMark,hmm；Glimmer 原核生物；Glimmer HMM真核生物）（ORF的验证：Blast）。

2）启动子及转录因子结合分析：Promoter Scan；
3）重复序列分析：repeatmasker；
4）CpG island：CpGPlot；（CpGisland通常位于启动子附近）
CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG 保持或高于正常概率，这些区段被称作CpG岛。

在哺乳动物基因组中的1~2kb 的DNA片段，它富含非甲基化的CpG双倍体。

CpG岛主要位于基因的启动子（promotor）和第一外显子区域，约有60%以上基因的启动子含有CpG岛。

GC 含量大于50%，长度超过200bp。

15、DNA双序列比对Pairwise Sequence Alignment原理：（第五章）1、比什么？给定两条序列(DNA or protein)
Seq 1：CATATTGCAGTGGTCCCGCGTCAGGCT
Seq 2：TAAATTGCGTGGTCGCACTGCACGCT
它们存在多大程度的相似?
CATATTGCAGTGGTCCCGCGTCAGGCT
TAAATTGCGT-GGTCGCACTGCACGCT
2、为什么比?（发现功能、研究进化、某条序列的关键特征、疾病的鉴定）
3、序列变化：三种类型的变化包括：Substitution (点突变)、Insertion（插入）、Deletion（删除），后两个统称为Indel （插入缺失）。

4、为达到比对两序列的目的，我们需要一个定量模型来评估两序列，如何定量两序列间的相似性?
一、全局比对（Global alignment）：
是对给定序列全长进行比较的方式。

在待比较的两个序列中引入空位（gap），
使得对序列的全长都得到比较，Needleman-Wunsch算法。

全局序列比对，比对的是全部序列。

建立一个得分矩阵，A序列在上方，B序列在左侧，方格(i,j)的数值是A(0-i)到B(0-j)的最佳比对。

全部比对的得分在最下角。

二、局部比对：获得两序列最佳匹配的区域，有时与全局匹配一致。

16、蛋白序列比对：（第六章）
一般规则：蛋白质序列25%的同一性（长度>100），即为同源基因homologous gene，DNA序列同一性大于70%为同源序列。

基于氨基酸相似性的序列比对：
打分矩阵，基于同一性的打分矩阵：对相似性序列比对不错；但对于相似性程度低的序列效果很差；
替换矩阵，对高度相似的序列，我们可以对氨基酸替换频率进行评估打分；
BLOSUM矩阵基于高度保守区的置换模式；
PAM矩阵基于通过全局比对的突变，包括高度保守区与高度可变区；
BLAST默认使用BLOSUM62，可以更改。

19、分子进化与系统发育分析（第九章）
1、达尔文进化论：进化：变异的遗传；自然选择：解释为何演变发生的机制；
2、中性进化论：并非所有种群中保留下来的突变都由自然选择所形成；大多数
突变是中性或接近中性，不妨碍种群的生存与繁衍。

3、分子进化的模式：
DNA突变的模式：替代，插入，缺失，倒位；
核苷酸替代：转换 (Transition) & 颠换 (Transversion)；（转换：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代；颠换：嘌呤被嘧啶替代，或
者嘧啶被嘌呤替代）
基因复制：多基因家族的产生以及假基因的产生：
A.单个基因复制、重组或逆转录；
B. 染色体片断复制；
C. 基因组复制
4、同源物的定义：
5、同源性与相似性：
相似性 (Similarity)：序列比对过程中用来描述检测序列和目标序列之间相
似DNA碱基或氨基酸残基序列所占比例（为定量描述）；
同源性 (Homology)：两个基因或蛋白质序列具有共同祖先的结论（定性判断）；相似不一定同源；同源不一定相似。

氨基酸序列相似性超过30%，很可能同源。

6、Ka/Ks：计算及含义
1）Ka：每个非同义位点的非同义替代数目；
2）Ks：每个同义位点的同义替代数目；
Ka/Ks ~ 1: 中性进化；；ka/Ks << 1: 阴性选择，净化选择；；ka/Ks >> 1: 阳性选择，适应性进化。

（多数基因为中性进化，约1%的基因受到阳性选择->决定物种形成、新功能的产生；PAML, MEGA等工具：计算Ka/Ks及统计显著性）
7、相对同义密码子使用度(relative synonymous codon usage，RSCU)：
定义：观测到的某一同一密码子的使用次数，除以“期望”的该密码子出现次数。

8、密码子相对适应度（The relative adaptiveness of a codon）：
编码第i个氨基酸的第j个同义密码子的“相对适应性”，即该同义密码子的观察值，除以编码该氨基酸的同义密码子的最大值。

9、CAI：密码子适应指数（Codon Adaptation Index），是分析密码子偏爱性最常用的方法。

（CAI值介于0~1之间, 该值越大表示偏性越强；CAI值一般用来预测种内基因的表达水平，以及预测外源基因的表达水平；不同物种CAI的计算依赖于各自的参考数据集。

）
10、构建系统发育树（进化树）的方法：
A. 最大简约法 (maximum parsimony, MP)，适用序列有很高相似性时；
B. 距离法 (distance-based methods) ，适用序列有较高相似性时；
C. 最大似然性法 (Maximum Likelihood，ML) 可用于任何相关序列集合；
D. 贝叶斯（Bayesian）推断；
计算速度：距离法 >最大简约法 >最大似然法
11、信息位点 (Sites are informative)：能将所有可能的树区别出来的位点。

信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸。