山东师范大学生科院生物信息学题库

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、单选题（题数：105，共20.0 分）
1限制性片段长度多态性标记是（）
A、RFLP
B、SNP
C、SSR
D、RAPD
2从cDNA文库中获得的短序列是
A、STS
B、UTR
C、CDS
D、EST
3orthologs的意思是（）
A、并系同源
B、旁系同源
C、直系同源
D、横向同源
4LCR的含义是
A、编码区
B、非编码区
C、低复杂度区域
D、开放阅读框
5HTGS的含义是
A、表达序列标签
B、序列标签位点
C、高通量基因组序列
D、人工合成序列
6（）年美国国会批准正式启动人类基因组计划?（）年发表草图?
A、1990 2004
B、1990 2001
C、1988 2004
D、 1988 2001 7在使用动态规划进行序列比对时，比对结果是唯一的吗？（）
A、唯一
B、不唯一
8Blast结果中HSP的含义是（）
A、空位
B、期望值
C、过滤
D、高计分配对片段
9RGP是（）
A、在线人类孟德尔遗传数据
B、国家核酸数据库
C、人类基因组计划
D、水稻基因组计划10一种替换在自然界中越容易发生，则这种替换在打分矩阵中对应的数值( )
A、越小
B、越大
11如：我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的？
A、Rao Y[au] AND Nature OR Science[Journal]
B、Rao Y[au] AND (Nature[Journal] OR Science[Journal])
C、Rao Y[au] AND Nature[Journal] OR Science[Journal]
D、Rao Y[au] AND (Nature OR Science)[Journal]
12序列比对算法哪年出现（）年
A、1977
B、1988
C、1970
D、1991
13微卫星标记是（）
A、RFLP
B、SNP
C、SSR
D、RAPD
14CDS的含义是
A、编码区
B、非编码区
C、低复杂度区域
D、非调控区
15下列哪一个是基于字母特征的系统发生分析的算法
A、Kimura算法
B、邻接法
C、最大似然法
D、PAUP
16序列比对算法哪年出现（）年
A、1977
B、1988
C、1970
D、1991
17PIR是（）
A、核酸数据库
B、mRNA数据库
C、启动子数据库
D、蛋白质数据库
18下列属于没有同义密码子编码的氨基酸是（）
A、精氨酸
B、亮氨酸
C、甲硫氨酸
D、丝氨酸
19用遗传学算法对蛋白质序列进行比对软件是（）
A、ProbCons
B、SAGA
C、ClustalW
D、T-Coffee
E、MAFFT
20DDBJ的含义是
A、美国国家生物信息中心
B、欧洲分子生物学实验室
C、日本DNA数据库
D、中国基因组研究中心
21如：我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的？
A、Rao Y[au] AND Nature OR Science[Journal]
B、Rao Y[au] AND (Nature[Journal] OR Science[Journal])
C、Rao Y[au] AND Nature[Journal] OR Science[Journal]
D、Rao Y[au] AND (Nature OR Science)[Journal]
22Proteomics的含义是
A、生物信息学
B、基因组学
C、蛋白质组学
D、表观遗传学
23目前应用于基因芯片表达数据统计分析的主要方法是（）。

A、卡方检验
B、相关分析
C、聚类分析
D、正态性分布检验
24Proteomics的含义是
A、生物信息学
B、基因组学
C、蛋白质组学
D、表观遗传学
25Genomics的含义是
A、生物信息学
B、基因组学
C、蛋白质组学
D、表观遗传学
26病毒在进化研究中很重要，下列选项中错误的是
A、病毒经常处于强大的选择压力下
B、高突变率，许多病毒的复制速度也极其惊人
C、病毒生命力是很脆弱的，对复杂环境要求很高
D、病毒基因组的进化速度没有其他细胞的基因组快
27mRNA 5′端有（）结构
A、帽子
B、尾巴
C、帽子和尾巴
D、多聚核苷酸
28人基因组大约有多少是编码蛋白的基因区间（）
A、90%
B、10%
C、不足5%
D、30%
29GenBank中分类码PLN表示是
A、哺乳类序列
B、细菌序列
C、噬菌体序列
D、植物、真菌和藻类序列
30有两个最基本的构建系统发生树的方法：基于距离的和基于字母特征的方法。

它们之间的基本差异是
A、基于距离的方法含有一个用于定义分支顺序的中间数据矩阵，而基于字母特征的方法却没有
B、基于距离的方法只应用于DNA的数据，而基于字母特征的方法可以应用于DNA或者蛋白质数据
C、基于距离的方法利用简约算法而基于字符特征的方法却没有
D、基于距离的方法所产生的进化分支与进化时间长短成比例，而基于字母特征的方法却没有
31国际三大核酸数据库多长时间就互相交换数据库里的数据
A、１天
B、７天
C、１０天
D、３０天
32没有直接参与完成人类基因组计划的国家是（）
A、英国
B、中国
C、俄罗斯
D、德国
33根据分子时钟假说，下列叙述正确的是（）
A、所有的蛋白质都保持一个相同的恒定的进化率
B、所有的蛋白质进化速率都与化石记录相符合
C、对于每一个给定的蛋白质，分子进化的速率是逐步减慢的，就像一个不准时的时钟一样
D、对于每一个给定的蛋白质，其分子进化速率在所有的进化分支上是大致恒定的
34人基因组大约有多少是编码蛋白的基因区间（）
A、90%
B、10%
C、不足5%
D、30%
35accession number的含义是
A、登录号
B、算法
C、比对
D、类推
36在Genbank中使用的序列文件格式为（)是一种最简单的格式，第一行以“>”表示一个先序列的开始
A、FASTA
B、GBFF
C、BLAST
D、ORIGIN
37在真核生物的一个基因内含子两端，即外显子/内含子拼接边界处，其符合（）规则A、Kozak B、AU…AG C、SD D、Poly(A)n
38RGP是（）
A、在线人类孟德尔遗传数据
B、国家核酸数据库
C、人类基因组计划
D、水稻基因组计划
39EST的含义是
A、表达序列标签
B、序列标签位点
C、高通量基因组序列
D、人工合成序列
40下列软件中哪个能进行蛋白质和蛋白质之间的相似性比较
A、Blastn
B、Blastp
C、Blastx
D、Tblstn
41下列不能进行碱基组成分析的软件是（）
A、BioEdit
B、DNAMAN
C、DNASTAR
D、GENSCAN
42序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于核酸列数据库
A、Genbank
B、GenPept
C、NCBI
D、DDBJ
43PDB是蛋白质的（）
A、分类数据库
B、结构数据库
C、模体数据库
D、结构域数据库
44基于一致性的比对方法的强项是（）。

A、它们包含了基于位置相关记分矩阵的信息
B、它们包含了蛋白质的三维结构信息
C、它们的速度非常快
D、它们利用多序列比对过程中产生的信息来指导比对
45ORF的含义是
A、调控区
B、非编码区
C、低复杂度区域
D、开放阅读框
46高通量测序错误率和传统Sanger测序相比（）
A、低
B、差不多
C、高
47（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据查询系统
A、Query
B、SRS
C、PDB
D、PIR
48人基因组大小约为（）
A、3.1*10^9 bp
B、3.1*10^7 bp
C、3.1*10^8 bp
D、3.1*10^10 bp
49序列数据库包括核酸序列数据库和蛋白序列数据库。

下列哪个不属于蛋白质序列数据库？A、PIR B、Uniprot C、SWISS-PROT D、OMIM
50从cDNA文库中获得的短序列是（）。

A、STS
B、UTR
C、CDS
D、EST
51人基因组大小约为（）
A、3.1*10^9 bp
B、3.1*10^7 bp
C、3.1*10^8 bp
D、3.1*10^10 bp
52从cDNA文库中获得的短序列是（）。

A、STS
B、UTR
C、CDS
D、EST
53下列属于高度串联重复序列的是（）
A、酵母tRNA基因
B、小鼠的珠蛋白基因
C、rRNA基因
D、异染色质上的卫星DN
54限制性片段长度多态性标记是（）。

A、RFLP
B、SNP
C、SSR
D、RAPD
55EMBL的含义是
A、美国国家生物信息中心
B、欧洲分子生物学实验室
C、日本DNA数据库
D、中国国家基因组研究中心
56隐马尔科夫模型的代号是（）。

A、HMM
B、CDD
C、HTGS
D、GSS
57构建系统发生树，应使用
A、BLAST
B、FASTA.
C、UPGMA
D、FTP
58在氨基酸的序列比对结果中，一个“：”表示什么意思：（）
A、相同的残基
B、两个相似的残基比对到一起C两个不相似的残基比对到一起D、一个空位
59下列表示没有密码子偏好性的是（）
A、RSCU值=1
B、RSCU值>1
C、RSCU值<1
D、CAI值=1
60mRNA 5′端有（）结构
A、帽子
B、尾巴
C、帽子和尾巴
D、多聚核苷酸
61在真核生物中，一个基因cDNA的5′端起始密码子AUG的前后序列符合（）规则
A、Kozak.
B、AU…AG
C、SD
D、Poly(A)n
62NCBI的含义是
A、美国国家生物信息中心
B、欧洲分子生物学实验室
C、日本DNA数据库
D、中国基因组研究中心
63contig的含义是（）。

A、基序
B、跨叠克隆群
C、碱基对
D、结构域
64（）年美国国会批准正式启动人类基因组计划?（）年发表草图?
A、1990 2004
B、1990 2001
C、1988 2004
D、1988 2001
65现有如下一条蛋白序列，请通过BLAST，对其进行分析，寻找与其相似的蛋白序列：
>Protein Sequence MVRAPCCEKMGLKKGPWTPEEDQILISYIQSNGHGNWRALPKLAGLLRCGKSCRLRWTNYLRPDIKRGNFTR EEEDSIIQ LHEMLGNRWSAIAARLPGRTDNEIKNVWHTHLKKRLKNYQPPQSSKRHSKNKDSKAPCTSQIALKSSNNFSNI KEDGPGL GSGPNSPQLSSSEMSTVTADSLAVTMDISNSNDQIDSSENFIPEIDESFWTDGLSTSGGGEELQVQFPFHDMK QENVEKD
VGAKLEDDMDFWYSVFIKSGDLLELPEF
BLAST：
参数设置：
·Database: Non-redundantprotein sequences (nr)
·Algorithm: blastp
·Word size: 3
·Matrix: BLOSUM62
·Gap Costs: Existence: 11Extension: 1
其他参数默认.
为了完成上述分析，应选择BLAST主页上的哪个程序?( )
A、tblastx
B、protein blast
C、blastx
D、nucleotide blast
E、tblastn
66采用不同的方法构建系统发生树的计算速度不同，下列描述正确的是（）：
距离法>最大简约法MP>最大似然法ML
A、最大似然法ML>距离法>最大简约法MP
B、最大简约法MP>距离法>最大似然法ML
C、距离法>最大简约法MP>最大似然法ML
67alignment的含义是（）。

A、登录号
B、算法
C、比对
D、类推
68目前应用于基因芯片表达数据统计分析的主要方法是（）。

A、卡方检验
B、相关分析
C、聚类分析
D、正态性分布检验
69（）是计算机注释的蛋白质序列数据库，也是SWISS-PROT蛋白质序列数据库的辅助数据库A、TrEMBL B、GBFF C、Uniprot D、PIR
70Bioinformatics的含义是（）。

A、生物信息学
B、基因组学
C、蛋白质组学
D、表观遗传学
71SRA数据库存储的数据是（）
A、存储基因芯片的数据
B、存储Sanger测序数据
C、存储新一代测序技术的数据
72高通量测序错误率和传统Sanger测序相比（）
A、低
B、差不多
C、高
73在第12题的BLAST结果中，所获得的相似度最高的序列来自于( )物种?
A、Capsicum annuum 辣椒
B、Datura metel 洋金花
C、Petunia x hybrida 矮牵牛
D、Solanum lycopersicum 番茄
74GenBank是
A、在线人类孟德尔遗传数据
B、国际核酸数据库
C、人类基因组计划
D、水稻基因组计划75在第10题的BLAST结果中，所获得的相似度最高的序列来自于(   )物种? A、Capsicum annuum 辣椒 B、Datura metel 洋金花
C、p>Petunia x hybrida 矮牵牛
D、Solanum lycopersicum 番茄
76如果一个基因完全使用高表达基因中所用的密码子，则其CAI值为（）
A、-1
B、0
C、1
D、2
77STS的含义是
A、表达序列标签
B、序列标签位点
C、高通量基因组序列
D、人工合成序列
78PAM250矩阵定义的进化距离为两同源序列在给定的时间约有（）的氨基酸发生改变A、1% B、20% C、80% D、250%
79蛋白质磷酸化位点分析的主要位点是（）
A、丝氨酸，苏氨酸，酪氨酸
B、丝氨酸，甘氨酸，酪氨酸
C、亮氨酸，苏氨酸，丙氨酸
D、甘氨酸，色氨酸，酪氨酸
80国际三大核酸数据库多长时间就互相交换数据库里的数据
A、１天
B、７天
C、１０天
D、３０天
81NCBI上提供检索用的三维结构数据库是下列哪个数据库
A、EMBL
B、Chime
C、MMDB
D、DDBJ
82indel代表的含义
A、缺失
B、插入
C、插缺
D、罚分
83base pair的含义是
A、基序
B、跨叠克隆群
C、碱基对
D、结构域
84一种替换在自然界中越容易发生，则这种替换在打分矩阵中对应的数值
A、越小
B、越大
85基于结构的比对指的是（）。

A、仅凭序列的结构进行比对
B、利用序列的结构信息进行比对
C、用于比较序列相似而结构不相似的序列
D、用于比较序列不相似而结构相似的序列
86PIR是（）
A、核酸数据库
B、mRNA数据库
C、启动子数据库
D、蛋白质数据库<
87单核苷酸多态性标记是（）。

A、RFLP
B、SNP
C、SSR
D、RAPD
88数据库存储的数据是（）
A、存储基因芯片的数据
B、存储Sanger测序数据
C、存储新一代测序技术的数据
89低度重复序列包括（）
A、.酵母tRNA
B、tRNA基因
C、rRNA基因
D、异染色质上的卫星DN
90UTR的含义是
A、编码区
B、非编码区
C、低复杂度区域
D、开放阅读框
91mRNA 3′端有（）结构
A、帽子
B、尾巴
C、帽子和尾巴
D、多聚胞嘧啶
92（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息A、Retrieve B、SRS C、Entrez D、PIR
93在真核生物中，一个基因cDNA的5′端起始密码子AUG的前后序列符合（）规则
A、Kozak
B、AU…AG
C、SD
D、Poly(A)n
94contig的含义是（）。

A、基序
B、跨叠克隆群
C、碱基对
D、结构域
95mRNA 3′端有（）结构
A、帽子
B、尾巴
C、帽子和尾巴
D、多聚胞嘧啶
96在真核生物的一个基因内含子两端，即外显子/内含子拼接边界处，其符合（）规则A、Kozak B、AU…AG C、SD D、Poly(A)n
97accession number的含义是
A、登录号
B、算法
C、比对
D、类推
98Bioinformatics的含义是（）。

A、生物信息学
B、基因组学
C、蛋白质组学
D、表观遗传学
99下列不属于信号肽分析工具的是（）
A、Signal-BLAST
B、Phobius
C、SigCleave
D、EMBL
100下列哪个数据库属于生物大分子结构数据库
A、Genbank
B、PDB
C、NCBI
D、DDBJ
102PDB是蛋白质的（）
A、分类数据库
B、结构数据库
C、模体数据库
D、结构域数据库
103基本局部比对搜素工具是（）。

A、Mega
B、ClustalW
C、BLAST
D、GCG
104在Genbank中使用的序列文件格式为（)是一种最简单的格式，第一行以“>”表示一个先序列的开始
A、FASTA
B、GBFF
C、BLAST
D、ORIGIN
105base pair的含义是（9.6分）
A、基序
B、跨叠克隆群
C、碱基对
D、结构域
二、填空题（题数：73，共20.0 分）
1n信号肽中包含至少一个（）和（）以通过细胞膜。

2Bulge loop、Interior loop、hairpin loop、Multi-branched loop分别代表（）、（）、（）和（）3生物信息数据库中的核苷酸代码表中代码H代表的是
5生物信息数据库中的核苷酸代码表中代码N代表的是
6生物信息数据库中的核苷酸代码表中代码B代表的是
7 HGP选择作为研究人类的四大“模式生物”有( )、( )、( )、( )
8多序列比对方法
9生物信息数据库中的核苷酸代码表中代码C代表的是
10生物信息数据库中的核苷酸代码表中代码D代表的是
11生物信息数据库中的核苷酸代码表中代码B代表的是
12转录起始位点的英文缩写是（）</a>
13空位罚分分为
14生物信息数据库中的核苷酸代码表中代码A代表的是
15GBFF格式的特性表格式包括
16( )年，人类基因组计划正式启动。

人类基因组计划的具体任务可以概括为建立四张图谱：分别是遗传图谱、( )、序列图谱和( )
17分子数据库根据数据来源分为（）和（）
18数据库常用的数据检索工具和
19真核基因识别的主要方法（）和（）。

其中，基因特征分两类（）和（）。

20NCBI 检测原核生物ORF的程序：
21分析密码子使用偏好性的方法主要有三种：（）、（）和（）。

22蛋白质磷酸化的主要位点是（）、（）和（）。

23按比对序列条数分为两类，分别是
24RNA的三级结构元件主要有（）、（）、（）和（）。

25转录起始位点的英文缩写是（）
26生物信息数据库中的核苷酸代码表中代码N代表的是
27生物信息学主要研究两种信息载体：( )和( )。

28生物信息学主要研究两种信息载体：( )和( )。

29生物信息数据库中的核苷酸代码表中代码G代表的是
30生物信息数据库中的核苷酸代码表中代码A代表的是
31建立人类遗传图谱的关键是要有足够的高度多肽的遗传标记。

第一代遗传标记为( )，第二代遗传标记为( )，第三代遗传标记为( )。

32基因组测序的基本策略有( )和( )。

33生物信息数据库中的核苷酸代码表中代码M代表的是
34 HGP选择作为研究人类的四大“模式生物”有( )、( )、( )、( ) : 35HGP由(）个国家完成，我国完成了HGP的( ) %，即( )号染色体上3000万个碱基的测序工作
36三个大型公共核酸数据库有
37生物信息数据库中的核苷酸代码表中代码V代表的是
38序列比对按比对序列条数可分为
39基因组测序的基本策略有( )和( )。

40在蛋白质的合成过程中，同义密码子的使用概率并不相同。

某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子，这些密码子被称为（），此现象被称为（）。

41可用于量化两条序列的相似程度
42生物信息数据库中的核苷酸代码表中代码S代表的是
43生物信息数据库中的核苷酸代码表中代码H代表的是
4520世纪90年代(      )事件大大促进了生物信息学的发展？
46 1970年，Needleman和Wunsch提出了著名的( )，是生物信息学发展中最重要的贡献。

47请根据拉丁文写出下列物种名称
Homo sapiens（）
4820世纪90年代( )事件大大促进了生物信息学的发展？
49生物信息数据库中的核苷酸代码表中代码T代表的是
50双序列比对方法
51目前由NCBI维护的大型文献资源是
52生物信息数据库中的核苷酸代码表中代码R代表的是
53 1970年，Needleman和Wunsch提出了著名的( )，是生物信息学发展中最重要的贡献。

54建立人类遗传图谱的关键是要有足够的高度多肽的遗传标记。

第一代遗传标记为( )，第二代遗传标记为( )，第三代遗传标记为( )。

55请根据拉丁文写出下列物种名称Musmusculus（）,
56生物信息数据库中的核苷酸代码表中代码K代表的是
57( )年，人类基因组计划正式启动。

人类基因组计划的具体任务可以概括为建立四张图谱：分别是遗传图谱、( )、序列图谱和( )
58选择压力的分分类
59数据库常用的数据检索工具和
60核酸打分矩阵分为
61NCBI 检测原核生物ORF的程序：
62CAI该指数以一组具高表达水平的基因为参考，测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度。

如果一个基因完全使用高表达基因中所用的密码子，则其CAI值为（）。

63生物信息数据库中的核苷酸代码表中代码Y代表的是
64目前由NCBI维护的大型文献资源是
65请根据拉丁文写出下列物种名称   Homo sapiens（） 66生物信息数据库中的核苷酸代码表中代码M代表的是
67生物信息数据库中的核苷酸代码表中代码D代表的是
68请根据拉丁文写出下列物种名称Musmusculus（）, 
69生物信息数据库中的核苷酸代码表中代码V代表的是
70HGP由( )个国家完成，我国完成了HGP的( ) %，即( )号染色体上3000万个碱基的测序工作。

71生物信息数据库中的核苷酸代码表中代码K代表的是
72原核基因是DNA分子的一个片段，具有连续编码的结构特征。

原核基因识别任务的重点是识别（）。

73生物信息数据库中的核苷酸代码表中代码R代表的是（5.6分）
三、简答题（题数：90，共20.0 分）
1简述鉴定直系同源的实际操作标准(practical criteria) 2如何处理BLAST后过少或过多的结果？3BLAST应用有哪些？4双序列比对方法有哪些？5下列数据库分别是什么类型的数据库？PIR、PDB、SWISS-PROT、NDB、TrEMBL、GenBank、DDBJ、SCOP、CATH、EMBL 6BLAST 应用有哪些？7系统发生树的构建方法有哪些？8如何处理BLAST后过少或过多的结果？9蛋白质序列比对中如何选择合适的评分矩阵？10简述鉴定直系同源的实际操作标准
(practical criteria) 11直系同源的定义是什么？12什么是分子系统发生学？分子系统发生基本原理是什么？13简述系统发生树的种类14什么是动态规划算法？15简述什么是PHI-BLAST。

16常用的核酸和蛋白质的打分矩阵或代价矩阵有哪些？17简述可用于量化两条序列的相似程度的两种方法？18简要介绍UniProt组成。

19数据库应满足的主要需求有哪些20序列比对按数学模型分为哪两种类型，简述一下21BLAST算法的三个步骤22序列比对按数学模型分为哪两种类型，简述一下23直系同源的定义是什么？24简述什么是PSI-BLAST 25指出下列GBFF格式中特性表含义？（23.45）..600 145^177 Complement(join（2691..4571,4918..5163）) 26为了保证核酸数据库的内容在全世界范围的同步性GenBank数据库每天与哪些数据库进行数据交换？27常用的核酸和蛋白质的打分矩阵或代价矩阵有哪些？28真核生物基因识别的主要方法有哪些？29什么是经典系统发生学？它的局限性有哪些？30系统发生树的构建方法分为哪两大类，简述一下31Basic BLAST有哪些？它们的查询序列类型和数据库类型是怎样的？32简述分子进化的中性学说33按序列比对的条数序列比对分类有哪些？34Entrez Gene记录的全文报告包括哪些主要内容35分析密码子使用偏好性的方法主要有哪几种？36GBFF格式的特性表格式包括哪三个部分37真核生物基因识别的主要方法有哪些38什么是经典系统发生学？它的局限性有哪些？39什么是分子系统发生学？分子系统发生基本原理是什么？40简述PAM矩阵与BLUSUM矩阵的关系41蛋白质序列比对中如何选择合适的评分矩阵？42简述人类基因组研究计划的历程。

43蛋白质二级结构有哪些44数据库应满足的主要需求有哪些45如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息：LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 46简述选择压力的分类47简述可用于量化两条序列的相似程度的两种方法？48简述什么是PSI-BLAST 49分子进化的主要特点有哪些？50简述选择压力的分类51双序列比对方法有哪些？52简述人类基因组研究计划的历程。

53分子进化的模式有哪些？54EBI的含义是什么？主要包含哪些数据库？55简述GenBank数据库中GBFF格式的结构56什么是动态规划算法？57重复序列是指真核生物基因组中重复出现的核苷酸序列，可按其组织形式分为哪两大类？58与DNA相比RNA的序列特征有哪些？59简述PAM矩阵与BLUSUM矩阵的关系61为了保证核酸数据库的内容在全世界范围的同步性GenBank数据库每天与哪些数据库进行数据交换？62Basic BLAST有哪些？它们的查询序列类型和数据库类型是怎样的？63简述分子进化的中性学说64简述系统发生树的种类65指出下列特殊标识符的格式？①序列辨认号（GI）：②GenBank/EMBL/DDBJ序列接受号：③RefSeq序列接受号：④PDB序列接受号：66什么是系统发生、系统发生学、系统发生树？67系统发生树的构建方法有哪些？68如何进行BLAST结果显著性判断？69下列数据库分别是什么类型的数据库？PIR、PDB、SWISS-PROT、NDB、TrEMBL、GenBank、DDBJ、SCOP、CATH、EMBL 70如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息：LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 71分子进化的主要特点有哪些？72GBFF格式的特性表格式包括哪三个部分73BLAST算法的三个步骤74按序列比对的条数序列比对分类有哪些？75蛋白质二级结构有哪些76什么是系统发生、系统发生学、系统发生树？77简述什么是PHI-BLAST。

78简要介绍UniProt组成。

79指出下列GBFF格式中特性表含义？
（23.45）..600
145^177
Complement(join（2691..4571,4918..5163）) 80迭代法多序列比对为什么理论上效果好于渐进多序列比对？81真核生物基因识别的主要方法有哪些82请写出真核基因识别的两大类主要方法。

83请写出DNA分子主要携带的两类遗传信息。

84简述GenBank数据库中GBFF
格式的结构85EBI的含义是什么？主要包含哪些数据库？86Entrez Gene记录的全文报告包括哪些主要内容87分子进化的模式有哪些？88系统发生树的构建方法分为哪两大类，简述一下89简述三干六界学说90Entrez的主要功能有哪些（2.2分）
四、名词解释（题数：141，共20.0 分）
1Entrez 2二级数据库3遗传漂变(Genetic drift) 4中性学说5序列比对(Sequence Alignment) 6序列片段对（segment pair）7BLAST 8多序列比对9自展法(Bootstrap Method 10PAM1 (Point Accepted Mutation 1) 11ＴＳＳ：转录起始位点（Transcription Start Sites）12直系同源（orthologous）13低度重复序列14命中点15最大简约法(maximum parsimony,MP) 16FASTA 格式17系统发生树(phylogenetic tree) 18点矩阵（dot matrix）19信号肽20中性选择(Neutral selection) 21打分矩阵（scoring matrix）22脱氧核糖核酸(DNA，deoxyribonucleic acid) 23选择压力（Selective pressure）24Efective Number of Codon，Nc 25序列片段对（segment pair）26高记分片段对（high-scoring pair,HSP）27不变位点28起始密码子（initiation codon）29SRS 30查询序列（query sequence）31非标度树32DNA的一级结构33GenBank 34核糖核酸(RNA，ribonucleic acid) 35单一位点36PAM250矩阵37BLOSUM矩阵38距离法(distance) 39有根树40系统发生树(phylogenetic tree) 41同义密码子42点矩阵（dot matrix）43Bioinformatics 44邻接法（neighbor-joining method）45相似性(Similarity) 46一致性(identity) 47旁系同源（paralogous）48限定词(Qulifier) 49GC含量50Position specific iterative BLAST (PSI-BLAST) 51物种树52EST 53同源性（Homology）54空位罚分(Gap Penalties) 55基因树56空位开放罚分Gap opening penalty) 57空位开放罚分Gap opening penalty) 58启动子59Unigene 60最大简约法(maximum parsimony,MP) 61简约信息位点62分子系统发生学63FASTA格式64起始密码子（initiation codon）65核苷酸(nucleotides) 66Contig 67Position specific iterative BLAST (PSI-BLAST) 68PAM(Point Accepted Mutation) 69Entrez 70选择压力（Selective pressure）71开放阅读框（ORF）72一致树（consensus tree）73最大段对74打分矩阵（scoring matrix）75SNP （0.1分76蛋白质的二级结构77中度重复序列78相似性(Similarity) 79核糖核酸(RNA，ribonucleic acid) 80蛋白质的三级结构81系统发生学（phylogenetics）82外类群83自展法(Bootstrap Method 84GenBank 85同功序列86Relative Synonymous Codon Usage，RSCU 87邻接法（neighbor-joining method）88双命名法（binomial nomenclature）89进化树的二歧分叉结构90中性选择(Neutral selection) 91邻接法（neighbor-joining method）92标度树93分子钟94Target peptide 95E值96蛋白质的四级结构97权配对算法（UPGMA）98空位罚分(Gap Penalties) 99高度重复序列100基因组同线性101PHI-BLAST（Pattern-Hit Initiated BLAST ）102最大似然法（maximum likelihood, ML）103遗传漂变(Genetic drift) 104ORF 105分子进化速率106一致树（consensus tree）107外显子(expressed region) 108查询序列（query sequence）109BLAST 110距离法(distance) 111序列比对(Sequence Alignment) 112基因113空位（gap）114数据库搜索115双命名法（binomial nomenclature）116内含子（introns）117repeated sequence 118密码子偏好性119外显子(expressed region) 120系统发育分析121蛋白质的一级结构122ＴＳＳ：转录起始位点（Transcription Start Sites）123邻接法（neighbor-joining method）124dbEST 125最大段对126经典系统发生学127分子进化速率128PHI-BLAST （Pattern-Hit Initiated BLAST ）129操纵基因130MEGA 131脱氧核糖核酸(DNA，deoxyribonucleic acid) 132数据库查询133高记分片段对（high-scoring pair,HSP）134PAM1 (Point Accepted Mutation 135一级数据库136Codon adaption index，CAI 137特性位置（Location）138最大似然法（maximum likelihood, ML）139MEGA 140PAM(Point Accepted Mutation) 141PAM250矩阵。