生物信息学试题A卷2010

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

AJ627251 AJ627251.1 GI:50250306 complete genome. chloroplast Nymphaea alba 1 Goremykin,V.V., Hirsch-Ernst,K.I., Wolfl,S. and Hellwig,F.H. The chloroplast genome of Nymphaea alba: whole-genome analyses and the problem of identifying the most basal angiosperm Mol. Biol. Evol. 21 (7), 1445-1454 (2004) 15084683 Location/Qualifiers 1..159930 /organism="Nymphaea alba" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /db_xref="taxon:34301"
……
159841 gagtaggaaa aggaataaat atagtgatat ttttattctt cgtcgccgta agtaaataga 159901 aagagaaata ataaataatg aatgatgtga //
3、构建蛋白质二级数据库的主要方法有哪些? 4、概括总结序列比较的主要用途。
通过序列比对,可以寻找序列间的同源性(相似性),这种同源相似性是序列间进化 关系的一种反映,所构建的数据矩阵成为系统发育分析的基础。 2). 结构预测 (structure prediction) 将新获得的序列与已知结构的蛋白质序列进行比对,可以通过序列同源性来粗略 地推测其结构的相似性。 3). 序列基序鉴定 (sequence motif identification)
E
12
11
13
9
0
exon
159465..159895 /gene="rpl2" /number=2
ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga atggtggatt cacaatccac taccttaatc 61 cacttggcta catccgcccc tactctgact caattaagag tcatgtcata tttcgtttta
三、选择题(从每题的 A、B、C、D 四个被选答案中选择一个最佳答案。共 20 分,每 小题 2 分) 1、下列那一数据库最有可能存放蛋白质跨膜区信息 A、NDB 数据库 C、GenBank 数据库 B、SWISS-PROT 数据库 D、PDB 数据库
学生班级________________学生学号:
………………装订线………装订线………装订线…………试卷须与答题纸一并交监考教师…………装订线………装订线………装订线………………
内蒙古科技大学 2010/2011 学年第一学期 《生物信息学》考试试题
课程号:66149304 使用专业、年级:生工 08、生技 07 考试时间:2010 年 12 月 考试方式:开卷 任课教师:蔡禄 备 注:A 卷
6、做 DNA 结构分析可使用 A、GenBank 数据库 C、NDB 数据库 B、PIR 数据库 D、BLOCKS 数据库
4、表达标签序列(EST)
二、填空题(共 20 分,每空 1 分) l、 列举至少 2 种权威的核酸序列数据库 2、列举至少 3 种权威的蛋白质序列数据库 3、核酸序列比对使用的得分矩阵类型有 4、蛋白质结构分类数据库主要有 5、构建系统树的主要方法有 6、列举至少 4 中 NCBI 的服务功能 、 、 、 、 、 、 、 、 和 、 和 等。 、 、和 等。 、 等。 等。 等。 等。
局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。 4). 功能预测(function prediction) 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 5). 数据库搜索(database search)
X I S Q Y H A E K R P
X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
7、欧洲生物信息研究所简称: A、SIB C、NCBI B、EBI D、MIPS
8、在蛋白质序列数据库中比较查询蛋白质序列,应使用 A、BLASTn C、tBLASTn 9、Profiles 数据库是 A、蛋白质序列数据库 C、蛋白质二级数据库 10、TreeBASE 系统主要用于 A、发现新基因 C、类群间系统发育关系研究 B、系统生物学研究 D、序列比对 B、核酸序列数据库 D、蛋白质结构数据库 B、BLASTp D、BLASTx
学生班级________________学生学号:
3、 核酸序列比对使用的得分矩阵类型有 等价矩阵 、 BLAST 、和 转换-颠换矩阵 等。 4、蛋白质结构分类数据库主要有 SCOP 和 CAH 和 PDBsum 等。 邻近归并法 、 Fitch-Margoliash法 、
5、构建系统树的主要方法有 UPGMA法 、
D 0.0 0.0 0.0 0.0 0.0 0.0 3.7 0.0 0.0 0.0 0.0
W 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.4 0.0 0.0 0.0
E 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 0.0 0.0
K 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.0 2.7 0.0
3、下列哪一数据库是表达序列标签数据库? A、PROSITE C、dbEST B、dbSNP D、PDB
Nymphaea alba chloroplast, complete genome.
ACCESSION VERSION KEYWORDS SOURCE REFERENCE AUTHORS TITLE JOURNAL PUBMED FEATURES source
2、下列那一数据库是核酸序列数据库 A、PROSITE 数据库 C、PDB 数据库 B、DDBJ 数据库 D、PIR 数据库
四、问答题(每题 5 分,共 20 分) 1、为什么说 Swiss-Prot 是重要的蛋白质序列数据库? 2、下面是 Genbank 中一条记录,是解释其主要含义
LOCUS DEFINITION 第 1 页 共 1 页 AJ627251 159930 bp DNA circular PLN 15-APR-2005
R 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.0 2.3
P 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 4.0 --------4 分
接下来进行递推,用两个函数分别计算由二条路径到达该单元的分值并找出其中 的最大值,若此分值小于 0,则用 0 替代。这两个函数分别计算: (I) 当前行前面各分值与相应空位罚分值之差,并取最大值;求空位罚分值的函数为 W =1.0+0.333 k,k 表示连续的第 k 个空位。 (II) 当前列前面各分值与相应的空位罚分值之差,并取最大值。出现负值就用 0 代替, 表示没有相似性比对可以延续到当前位置。 X I S Q Y H A E K R P X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 S 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Q 0.0 0.0 0.0 2.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 Y 0.0 0.0 0.0 0.7 3.0 1.7 1.0 0.7 0.3 0.0 0.0 H 0.0 0.0 0.0 0.3 1.7 4.0 2.7 2.3 2.0 1.7 1.3 D 0.0 0.0 0.0 0.0 1.3 2.7 3.7 2.3 2.0 1.7 1.3 W 0.0 0.0 0.0 0.0 1.0 2.3 2.3 3.3 2.0 1.7 1.3 E 0.0 0.0 0.0 0.0 0.7 2.0 2.0 1.9 3.0 1.7 1.3 K 0.0 0.0 0.0 0.0 0.3 1.7 1.7 1.7 2.0 2.7 1.3 R 0.0 0.0 0.0 0.0 0.0 1.3 1.3 1.3 0.7 3.0 2.3 P 0.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 0.3 1.7 4.0 -------7 分 一旦矩阵中所有单元的分值计算完毕,就可以找出具有最高分值的单元,也就是 代表两个序列间高分匹配的终点。到达这个单元的其他矩阵元素可以通过回溯方法确 定。然后根据回溯路径求得一个片段的比对。如果需要,还可以找出在上述回溯范围
五、计算题(共 30 分)
l、 对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。 (15 分) 2、对于下列距离矩阵,用 UPGMA 构建系统发生树。 (15 分) A A B C D 0 3 6 9 0 5 9 0 10 0
第 2 页 共 1 页
B
C
D
E
………………装订线………装订线………装订线…………试卷须与答题纸一并交监考教师…………装订线………装订线………装订线………………
第 3 页 共 1 页
□□□□□□□□□□□□学生姓名:________________
一、 名词解释(每题 2 分,共 10 分) 1、基序(motif) :通过多序列比对,将同源序列收集在一起,以得到保守区域。这 些保守区域称为基序(motifs) 2、可读框(ORF) :没有终止密码子(TGA,TAA 或 TAG)打断的阅读框。 3、剪切变体:从同一 DNA,转录得到不同 mRNA,并最终翻译成不同的蛋白质称 为剪接变体 4、表达标签序列(EST) :是从 cDNA 文库中生成的一些很短的序列(300—500bp), 它们代表在特定组织或发育阶段表达的基因,有时可代表特定的 cDNA. 5、系统发生学:通过比较五种的特征,认为特征相似的五种在遗传学上相近,研究 五种之见的进化关系 二、 填空题(共 20 分,每空 1 分) l、 列举至少 2 种权威的核酸序列数据库 Genbank 、 EMBL 等。 2、列举至少 3 种权威的蛋白质序列数据库 PIR 、 Swiss-prot 、
最小进化法(ME) 、 最大似然法(ML) 、等。 6、列举至少 4 中NCBI的服务功能 Pubmed 、 Entrez 、 BLAST 和 OMIM 等。
三、选择题(共 20 分,每小题 2 分)
B B C C B C B B C C
用于系统发育分析 (phylogenetic analysis)
4、构建系统发生树,应使用 A、BLAST C、UPGMA B、FASTA D、Entrez
□□□□□□□□□□□□学生姓名:________________
5、在蛋白质一级数据库基础上,构建二级数据库应使用 A、近邻归并法 C、基因融合法 B、序列比对 D、Entrez
一、Байду номын сангаас词解释(每题 2 分,共 10 分) 1、基序(motif) 2、可读框(ORF) 5、 系统发生学 3、剪切变体
S 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Q 0.0 0.0 0.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Y 0.0 0.0 0.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 0.0
H 0.0 0.0 0.0 0.0 0.0 4.0 0.0 0.0 0.0 0.0 0.0
内蒙古科技大学 2010/2011 学年第一学期 《生物信息学》考试试题答案
课程号:66149304 使用专业、年级:生工 08、生技 07 考试时间:2010 年 12 月 考试方式:开卷 任课教师:蔡禄 备 注:A 卷
四、问答题(每题 5 分,共 20 分)
1、为什么说 Swiss-Prot 是重要的蛋白质序列数据库? SwissProt 数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家 通过计算机工具并查阅有关文献资料仔细核实。SIB 和 EBI 共有 70 多人的研究队 伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量 的蛋白质序列和注释信息。 SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、 二硫键位置、翻译后修饰、突变体等。 该数据库中还包括了与核酸序列数据库 EMBL/GenBank/DDBJ 、蛋白质结构数据库PDB以及 Prosite、PRINTTS等十多个二 次数据库的交叉引用代码。 特别值得一提的是,专门聘请了由 200 多位国际知名生物学家组成的网上专家评审 团,并将SwissProt数据库中的蛋白质分成200多个类别,每个类别由 1 位或 2 位评 审专家负责,通过计算机网络进行审核。网站上列出了这些评审专家的姓名、电子 邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直 接和相应的评审专家取得联系。 2、下面是 Genbank 中一条记录,是解释其主要含义 序列识别码:AJ627251,长度 159930bp,环状 DNA 分子,植物类,2005 年 4 月 MIPs 等。 15 日建立 睡莲叶绿体全基因组 参考文献显示作者、论文标题、期刊年卷期页等信息及于 Pubmed 链接 外显子位于 159465-159895,基因名 rpl2 详细序列顺序 3、构建蛋白质二级数据库的主要方法有哪些? 单基序法、多基序法和全域对位排列法 4、概括总结序列比较的主要用途。 1).
相关文档
最新文档