生物信息学考试题

合集下载

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。

ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。

2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。

GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。

生物信息考试题及答案

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学,并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。

河大生科院生物信息学考试复习题答案完整版

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出,于1990年正式启动的,宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列(micorarray)的特殊玻璃片或硅芯片片,在数平方厘米之面积上布放数千或数万个核酸探针;检体中的DNA、cDNA、RNA等与探针结合后,借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA,即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学:信息技术是研究信息的获取、传输和处理的技术,由计算机技术、通信技术、微电子技术结合而成,即是利用计算机进行信息处理,利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组:基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体,或是单倍体细胞中的全部基因。

3)相似性与同源性:相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

生物信息学试题

生物信息学试题

生物信息学试题一、选择题1. 生物信息学主要研究的是:A. 生物实验技术B. 生物统计学C. 生物大数据分析与计算D. 生物体内生化反应2. 在生物信息学中,常用的序列比对工具是:A. BLASTB. PCRC. ELISAD. SDS-PAGE3. 下列哪个数据库主要用于存储核酸序列信息?A. PDBB. GenBankC. UniProtD. KEGG4. 以下哪种方法不是用于蛋白质结构预测的?A. 同源建模B. 折叠识别C. 从头预测D. 实验测定5. 生物信息学中的“基因家族”是指:A. 一组具有相似序列和功能的基因B. 一组来自同一物种的基因C. 一组通过基因复制产生的基因D. 一组控制同一生物过程的基因二、简答题1. 简述生物信息学在现代医学研究中的应用。

2. 描述PCR技术的原理及其在分子生物学中的重要性。

3. 解释什么是基因编辑技术,以及CRISPR-Cas9系统是如何工作的。

三、论述题1. 论述生物信息学在新药发现和开发中的作用。

2. 分析比较RNA测序技术与DNA测序技术的优势和局限性。

四、计算题1. 给定一个DNA序列:“ATGCGATACCTGAGCTG”,计算其碱基组成的比例。

2. 假设某种生物的基因组大小为200 Mb,每个碱基对的平均质量为650 Da,计算该基因组的大致质量。

五、案例分析题1. 根据给定的某种疾病的基因组数据,分析可能的致病基因,并讨论其可能的生物机制。

2. 通过分析某物种的转录组数据,探讨其在特定环境下的适应性变化。

请注意,以上试题仅供参考,具体题目应根据实际教学大纲和考试要求进行调整。

在实际考试中,题目可能会包含更多的细节和复杂性,要求考生具备扎实的生物信息学知识和分析能力。

生物信息学考试参考题目

生物信息学考试参考题目

1. 在NCBI进行BLAST序列比对时,需要输入查询序列的信息,以下错误的格式是( C )A. 序列的accession numberB. 序列的giC. 序列对应基因的IDD. FASTA 格式的序列2. 下面这段序列是: ( B )>gi||ref|| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4),mRNAGGATTTTCTTGCCTGTCA TTCAA TTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。

A. DNA序列B. RNA序列C. 蛋白质序列D. 基因3. ExPASy上的工具软件ProtParam提供的是哪一种类型的服务?( B )A.蛋白质三级结构分析B.蛋白质序列理化性质预测C.蛋白质二级结构分析D.跨膜结构分析4. 假设你有两条远相关的蛋白,为了比较它们,最好利用下列哪个记分矩阵(A )A. BLOSUM45或PAM250B. BLOSUM45或PAM1C. BLOSUM80或PAM250D. BLOSUM10或PAM15. 构建系统发生树,应利用CA. BLASTB. FASTAC. UPGMAD. Entrez6. 下面这段蛋白质序列是什么格式? ( D )>gi|4506183|ref|| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKA VENSSTAIGIRCKDGVVFGVEKLVLS KL YEEGSNKRLFNVDRHVGMA V AGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRV AMYVHAYTL YSA VRPFGCSFMLGS。

A. GBFFB. TEXTC. PDBD. FASTA7. 直系同源物概念为(A )A.不同物种中具有一路先人的同源序列B.具有较小的氨基酸一致性可是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的而且一般是冗余功能的同源序列8. 美国NIH保护提供的DNA序列数据库是:( A )A. GenBankB. ProteinC. dbESTD. dbSNP9. 高分派对片段的英文缩写为(A )A. HSPB. HMPC. HCPD. HDP10. BLAST比对结果报告中有一统计数值E值,该值大小与匹配度的关系是( B )A. 值越小说明匹配度越低B. 值越小说明匹配度越高C. 二者无内在关系D. 以上说法都不对11. NCBI提供了大量的序列分析工具,其顶用来寻觅DNA序列潜在的蛋白质编码区的工具是:(A )A. ORF FinderB. BLASTC. Scan PrositeD. SAGEmap12. Entrez是哪个网站数据库的检索系统(A )A.NCBIB.PROSITEC.EBID.PDB13. 若是想找一个和查询蛋白远源的蛋白质,下面哪一种方式最可能成功? BA.采用PHI-BLAST,因为你能自己选择一个和搜索蛋白质有关的信号序列B.采用PSI-BLAST,因为那个算法利用位点特异性打分矩阵最为敏感C.采用BLASTP,因为你能够调整你的打分矩阵从而使得搜索敏感度最大D.采用专门的物种数据库,因为他们中可能含有这种远源序列。

生物信息技术考试试题

生物信息技术考试试题

生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。

2、基因序列的相似性搜索常用的工具是_____。

3、蛋白质的一级结构是指_____。

4、常见的基因注释数据库有_____、_____等。

5、系统发育树的构建基于_____的原理。

6、生物信息学中常用的数据格式有_____、_____等。

7、预测蛋白质三级结构的方法主要有_____、_____。

8、基因表达数据的差异分析常用的方法有_____、_____。

9、用于分析高通量测序数据的软件有_____、_____。

生物大数据期末考试试题

生物大数据期末考试试题

生物大数据期末考试试题一、选择题(每题2分,共20分)1. 在生物信息学中,以下哪个不是常用的序列比对算法?A. BLASTB. FASTAC. Smith-WatermanD. QuickSort2. 以下哪个术语不是用于描述基因表达的?A. TranscriptionB. TranslationC. Gene FusionD. Alternative Splicing3. 以下哪种技术不用于高通量测序?A. Next-Generation Sequencing (NGS)B. Sanger SequencingC. Third-Generation SequencingD. Single-Molecule Real-Time (SMRT) Sequencing4. 基因组学中的“基因组注释”指的是什么?A. 确定基因组中所有基因的位置B. 描述基因组中基因的功能C. 比较不同物种的基因组D. 以上都是5. 以下哪个数据库不包含蛋白质结构信息?A. PDB (Protein Data Bank)B. UniProtC. GenBankD. RCSB PDB二、简答题(每题10分,共30分)1. 请简述生物大数据在医学研究中的应用,并给出两个具体的例子。

2. 解释什么是转录组学,并描述其在疾病诊断和治疗中的潜在作用。

3. 描述生物信息学中的“系统生物学”概念,并解释它如何帮助我们理解生物系统的复杂性。

三、计算题(每题15分,共30分)1. 假设你有一个DNA序列,长度为1000个碱基对,并且你已经知道其中500个碱基对是基因区域。

如果基因区域的平均GC含量是45%,非基因区域的平均GC含量是35%,请计算整个序列的平均GC含量。

2. 给定一个蛋白质序列,其分子量为50,000道尔顿,由500个氨基酸组成。

如果每个氨基酸的平均分子量是120道尔顿,计算该蛋白质序列中的平均氨基酸分子量,并解释这个计算结果的意义。

生物大数据期末考试练习题及答案

生物大数据期末考试练习题及答案

一、单选题1、Bioinformatics的含义是()A.表观遗传学B.基因组学C.蛋白质组学D.生物信息学正确答案:D2、利用PubMed文献数据查找论文“Transgenic plants of Petunia hybrida harboring the CYP2E1 gene efficiently remove benzene and toluene pollutants and improve resistance to formaldehyde”的第一作者是A.Xiang TB.Zhang DC.Bao LD.Li P正确答案:B3、被誉为“生物信息学之父”的科学家是()A.吴瑞B.SangerC.林华安D.Dulbecco正确答案:C4、Proteomics的含义是()A.基因组学B.生物信息学C.表观遗传学D.蛋白质组学正确答案:D5、生物信息学主要是利用哪种工具实现对生命科学研究中生物信息的存储、检索和分析的?()A.人造卫星B.iPhoneC.手机D.计算机正确答案:D6、HGP是()A.人类基因组计划B.国家核酸数据库C.在线人类孟德尔遗传数据D.水稻基因组计划正确答案:A7、下列哪些方法不能用于遗传育种()A.基因编辑B.化学诱导突变C.自然选择D.辐射诱导突变正确答案:C8、Genbank数据库中,mRNA的获取号可以以()字母开头A.NM_B.NP_C.XM_D.NC_正确答案:A9、下列那个数据库不属于NCBI()A.ArrayExpressB.NCBI GEOC.PubMedD.Genbank正确答案:A10、大数据处理遇到的瓶颈不包括()A.新算法B.熟悉数据处理的专业人士C.新的构架D.数据量正确答案:D11、可以用来做数据库搜索的比对算法是()A.Smith-WatermanB.Needelma-WunschC.Dynamic programmingD.BLAST正确答案:D12、下列哪个方法最可能在基因组组装过程中留下空缺()A.Mate pair建库B.C.Pair end测序C.长读段测序D.鸟枪法建库正确答案:D13、“一旦空位,永远空位”描述的是()A.渐进比对算法B.迭代比对算法C.分而治之比对算法D.动态规划比对算法正确答案:A14、下列不属于分子生物学数据库的特点的是()A.版本不更新B.数据间关系复杂C.数据库种类繁多D.数据存在冗余和偏差正确答案:A15、GenBank中具有唯一性的字段是()A.AccessionanismC.AuthorsD.Source正确答案:A16、哪个基因组序列还完全未被破解()A.菠萝B.恐龙C.猛犸象D.人类正确答案:B17、下面哪个工具可以用来检验原始读段的质量?()A.BWAB.blastnC.FastqcD.Samtools正确答案:C18、基于边合成边测序的测序方法是()A.Illumina/SolexaB.454/RocheC.NanoPoreD.SOLiD/ABI正确答案:A19、比较成熟的三代测序技术是()A.PacBioB.HelicosC.NanoPoreD.Illumina HiSeq正确答案:A20、不采用荧光标记核苷酸的测序技术是()A.Roche 454B.SangerC.ABI SOLiDD.NanoPore正确答案:D21、靶向测序使用的测序文库是()A.AmpliconB.PEC.Mate pairD.Shotgun正确答案:A22、RNA-seq从头组装的常用工具是()A.TrinityB.CufflinksC.ScriptureD.BWA正确答案:A23、RNA-Seq技术用途不包括()A.基因组测序B.基因定量C.基因融合研究D.基因可变剪切研究正确答案:A24、重测序数据分析的最后一步是()A.SNP分析B.比对C.功能注释D.质控正确答案:C25、影响基因组组装效果的因素不包括()A.读段长度B.测序深度C.测序时间D.测序准确度正确答案:C26、组装基因组时,由重复序列导致的错误类型不包括()A.基因融合B.基因剪切C.基因重排D.重复缺失正确答案:A27、重复序列是在基因组中出现次数大于1的DNA片段,不包括()A.旁系同源基因B.调控序列C.微卫星序列D.转坐子正确答案:B28、研究蛋白质与DNA相互作用的是()A.酵母三杂交B.免疫共沉淀C.酵母双杂交D.ChIP-seq正确答案:D29、在线的染色体可视化工具是()A.Genome browserB.DDBJC.EBID.NCBI正确答案:A30、下列属于最不易突变的氨基酸()A.半胱氨酸B.谷氨酸C.丝氨酸D.天冬氨酸正确答案:A二、多选题1、影响基因组组装效果的因素包括A.测序深度B.测序时间C.读段长度D.测序准确度正确答案:A、C、D2、常用的2个全基因组测序策略是A.鸟枪法B.逐步克隆法C.EST测序法D.重要区域优先测序法正确答案:A、B3、20世纪70年代,出现的2种DNA测序方法是A.化学降解测序法B.焦磷酸测序法C.单分子测序法D.链终止测序法正确答案:A、D4、关于C值悖论的描述正确的有哪些A.进化程度低的生物C值反而更高B.物种的C值和它进化的复杂性之间存在严格的对应关系C.亲缘关系相近的物种间C值差异很大D.C值远远超过了遗传信息量的需要正确答案:A、C、D5、基因组重测序技术可被用于哪些检测领域A.食品掺假检测B.中草药的产区检测C.皮草的真伪检测D.宠物疾病检测正确答案:A、B、C、D三、判断题1、配对测序方式可以用来解决重复序列长度超过read长度,无法拼接易形成断点的问题正确答案:√2、配对测序是一种特殊的双端测序方式正确答案:√3、读段文件除了文本格式之外,还可以用图象表示正确答案:×4、测序深度即测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一正确答案:√5、二代测序数据文件的后缀是.fa或.fastq正确答案:√6、fastaq文件中,Q值越小,测序质量越高()正确答案:×7、基因组从头组装的本质是寻找重叠区域()正确答案:√8、读段长于重复序列的长度才可能填补空缺()正确答案:√9、Contig越长基因组拼接效果越好()正确答案:√10、N50可以作为评估基因组组装效果的一个指标()正确答案:√11、RNA-seq基因对应的读段数量和基因长度及测序深度有关()正确答案:√12、进行有参考基因组的二代测序数据比对时,只需要基因组序列文件即可()正确答案:×13、FPKM是单端RNA-seq基因表达量的表示方法()正确答案:×14、对于复杂基因组,一般一种测序文库就足够了()正确答案:×15、测序文库构建很大程度决定了测序数据的好坏()正确答案:√16、二代测序的核心技术是循环芯片测序法()正确答案:√17、测序深度越高,测序数据量越大()正确答案:√18、二代测序数据文件的后缀是.fa或.fastq()正确答案:√19、基于焦磷酸合成测序的方法是SOLiD/ABI()正确答案:×20、Sanger测序发现时间早于K.Mullis的PCR()正确答案:√21、DNA测序和蛋白质测序相关技术都获得过诺贝尔奖()正确答案:√22、大规模基因组测序主要有逐步克隆和鸟枪法2种策略()正确答案:√23、传统的生物学研究方法是从表型出发()正确答案:√24、多数遗传性状是由单个基因决定的()正确答案:×25、人类基因组计划是中国人主持的第一个国际项目()正确答案:×26、相同长度序列,蛋白质组的复杂度低于基因的复杂度()正确答案:×27、大数据必然会造福人类正确答案:×28、大数据已经成为我国国家战略正确答案:√29、蛋白质发挥生物学功能依赖于其三维结构正确答案:√30、双端测序与单端测序的区别在于,前者需要在DNA片段的两端分别加上引物和连接子正确答案:√三、填空题1、常见的三大核酸数据库中,位于欧洲的是_________。

生物信息学基础考试试题

生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。

生物信息学考试试题

生物信息学考试试题

生物信息学考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种不是常见的生物信息学数据库?()A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中,以下哪个不是用于序列比对的算法?()A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括()A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法?()A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中,用于预测蛋白质功能的方法有()A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中,以下哪个不是测序技术?()A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括()A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言?()A PythonB JavaC C++D Visual Basic9、以下哪个不是生物信息学在医学领域的应用?()A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中,处理大规模数据常用的工具是()A ExcelB R 语言C SPSSD Word二、填空题(每题 2 分,共 20 分)1、生物信息学是一门融合了生物学、计算机科学和()的交叉学科。

2、常见的核酸序列格式有 FASTA 和()。

3、蛋白质的二级结构包括α螺旋、β折叠和()等。

4、基因芯片技术是一种()分析技术。

5、序列比对的目的是寻找两个或多个序列之间的()。

6、人类基因组计划的主要目标是测定人类基因组的()序列。

7、生物信息学中的隐马尔可夫模型主要用于()。

8、系统发生分析中,外群的作用是()。

9、蛋白质相互作用网络分析有助于理解()。

10、生物信息学数据库可以分为一级数据库和()数据库。

生物信息学期末考试总复习

生物信息学期末考试总复习

2、序列比对的类型①全局序列比对定义:在全局范围内对两条序列进行比对打分的方法。

适合于非常相似且长度近似相等的序列。

②局部序列比对定义:一种寻找匹配子序列的序列比对方法。

适合于一些片段相似而另一些片段相异的序列。

4、ployA:转录终止信号序列,AATAA,称为多聚腺苷酸信号;5、SNP;单核苷酸多态性;6、BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

5、序列相似性比较:将待研究序列与 DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有 BLAST、FASTA 等;7、空位(gap:在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

8、空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

9、多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。

1、分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。

2、系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。

4、最大似然法(ML:它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。

最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。

5、开放阅读框(ORF:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。

6、.密码子偏好性(codon bias:氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水平相一致,大多数高效表达的基因仅使用那些含量高的同功 tRNA 所对应的密码子,这种效应称为密码子偏好性。

生物信息考试题及答案

生物信息考试题及答案

生物信息考试题及答案一、选择题(每题2分,共20分)1. 基因组学研究的核心是()。

A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案:C2. 下列哪项不是生物信息学的主要研究内容?()A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案:C3. 转录组学研究的是()。

A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案:B4. 下列哪个数据库主要用于存储蛋白质序列信息?()A. GenBankB. PDBC. Swiss-ProtD. EMBL答案:C5. 以下哪个不是生物信息学中常用的序列比对工具?()A. BLASTB. FASTAC. ClustalWD. PCR答案:D6. 以下哪个是用于蛋白质三维结构预测的软件?()A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案:C7. 以下哪个是用于基因表达分析的高通量技术?()A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案:B8. 下列哪个是用于基因组关联研究的统计方法?()A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案:C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具?()A. STRINGB. BLASTC. ClustalWD. GenBank答案:A10. 下列哪个是用于生物信息学数据可视化的工具?()A. R语言B. PythonC. CytoscapeD. Perl答案:C二、填空题(每题2分,共20分)1. 生物信息学是一门结合了__________、__________和__________的交叉学科。

答案:生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。

答案:基因3. 转录组学研究的RNA分子包括__________、__________和__________。

生物信息学智慧树知到期末考试章节课后题库2024年温州医科大学

生物信息学智慧树知到期末考试章节课后题库2024年温州医科大学

生物信息学智慧树知到期末考试答案章节题库2024年温州医科大学1.生物信息学的发展机遇与挑战并存,大力发展生物信息学学科,培养生物信息学专门人才,使我国逐渐成为生物信息学研究强国,赶超国际先进水平,可能性不大。

()答案:错2.多序列比对特别适合相似程度很小的序列进行比对。

()答案:错3.中国国家基因组科学数据中心(NGDC),与GenBank/EMBL/DDBJ一起被人们并称国际四大核酸数据库。

()答案:对4.Fasta格式的数据比Genbank格式的数据更加详细。

()答案:错5.假基因是指无功能性基因产物的基因。

()答案:对6.AlphaFold预测的蛋白质3D结构可以与冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。

()答案:对7.Blast算法是一种基于全局序列比对的序列比对算法。

()答案:错8.系统进化树根据是否有外群分为哪些种类()。

答案:有根树###无根树9.下列哪些基因组特性随生物的复杂程度增加而上升?()答案:单个基因的平均大小###基因组大小###基因数量10.通常使用()展示转录组分析结果。

答案:GO和KEGG###韦恩图###热图###火山图11.关于DeepMind公司开发的AlphaFold人工智能系统,以下说法正确的是()。

答案:AlphaFold能够基于氨基酸序列精确地预测许多蛋白质的3D结构###AlphaFold的功能仍在不断提升###AlphaFold系统能够在配体、蛋白质、核酸以及翻译后修饰等方面生成高度精确的结构预测###AlphaFold系统可以帮助科学家识别和设计潜在的药物新分子12.下列哪些调控方式是真核生物基因表达所特有的,而原核生物基因表达不具有的()。

答案:组蛋白修饰13.以下关于PubMed的描述错误的是()。

答案:任何生命科学领域的论文都可以从PubMed下载全文14.答案:己15.在基因组组装中,如何处理测序错误和变异?()答案:使用特定的算法来检测和处理测序错误和变异16.在Linux中,如何复制一个文件?()答案:cp file1 file217.真核生物编码蛋白质的基因核苷酸序列是不连续的,称为()。

生物信息学 考试答案

生物信息学 考试答案

Bioinformatics (包括陈老师6道题和师兄的四道题)1.什么是生物信息学?你怎么理解它的含义?(或者问什么是生物信息学,为什么生物信息学研究是重要的)答:生物信息学含义主要答3点:(1)它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

(2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

(3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

第二问:2.发现新基因的两种方法是什么?算法的本质是?(或者问通过DB如何发现新基因,通过何种途径)3.研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?答:步骤:(1)序列相似性比较。

就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等;(2)序列同源性分析。

是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等;(3)构建系统进化树。

根据序列同源性分析的结果,重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;(4)稳定性检验。

为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。

通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

生物信息学考试试题

生物信息学考试试题

生物信息学考试试题1. 选择题1. DNA序列中哪种碱基与腺嘌呤形成碱基对?A. 腺嘌呤B. 胸腺嘧啶C. 钝甲嘧啶D. 尿嘧啶2. 下列哪种不属于生物信息学中常用的序列比对软件?A. BLASTB. ClustalWC. PhotoshopD. MEGA3. 在生物信息学中,什么是基因组装?A. 把基因组序列和蛋白质序列对应起来B. 把已知的DNA序列分析并组装成完整的基因组C. 把DNA序列和RNA序列对比分析D. 把基因组序列转录为RNA序列4. 下列哪个软件主要用于预测DNA序列中的基因结构?A. BLASTB. ClustalWC. FGENESD. MEGA5. 在生物信息学中,什么是密码子?A. DNA序列中的重复单元B. 氨基酸序列C. tRNA分子上的核苷酸组合D. mRNA上的三联体核苷酸序列2. 简答题1. 请简要解释生物信息学在基因组学中的应用。

2. 什么是序列比对?序列比对的意义是什么?3. 解释基因组装和基因注释在生物信息学中的作用。

4. 生物信息学中常用的两种序列分析方法分别是什么?简要描述它们的原理。

5. 请简要介绍生物信息学在进化比较基因组学中的应用。

3. 计算题1. 给定以下两条序列,求它们的相似度:序列1: ATCGTCCGATT序列2: ATCGACCGTTA2. 已知一个DNA序列长度为1000bp,其中AT含量为60%,求该序列中GC含量百分比。

4. 应用题1. 请利用BLAST软件对一组已知DNA序列进行序列比对,并解释结果。

2. 请使用ClustalW对两个已知蛋白质序列进行多序列比对,并分析比对结果。

3. 选取一个基因组装软件,对一个已知基因组序列进行装配,并解释装配结果。

以上是生物信息学考试试题,希望您认真作答,祝您考试顺利!。

生物信息学_华中农业大学2中国大学mooc课后章节答案期末考试题库2023年

生物信息学_华中农业大学2中国大学mooc课后章节答案期末考试题库2023年

生物信息学_华中农业大学2中国大学mooc课后章节答案期末考试题库2023年1.GenBank数据库中斑马鱼(Danio rerio)ptges3a基因和斑猫鲳(Ictaluruspunctatus)ptges3基因,它们编码蛋白质比较一致性是()。

答案:86%2.请查询NCBI数据库中果蝇(Drosophila melanogaster)Cyp6a2基因完整CDS,下列描述错误的是()。

答案:包含3个外显子3.利用PSORT工具分析NCBI数据库中果蝇(Drosophila melanogaster)Cyp6a2基因编码蛋白质亚细胞定位,最大可能定位于()中。

答案:内质网4.查询UniProt数据库中登录号Q60751信息,下列错误的是()。

答案:961-1373区域为胞外区5.下列()不属于三代测序。

答案:Illumina6.UniProt数据库中登录号Q9BRW0蛋白质跨膜区所在位置是()。

答案:216-2347.NCBI数据库中人的CDC25基因(登录号L26584),利用其蛋白质序列在UniProt数据库中用系统默认矩阵检索,可以在Rat中检索到蛋白质()的序列是通过实验获得的。

答案:P288188.GenBank登录号L26584基因,其编码蛋白质用ProtParam工具分析其()氨基酸占比最高。

Leu9.下列()属于GEO数据类型。

答案:SAGEChIP-seqRNA-seqSNP array10.下列关于GenBank登录号AB447483描述正确的是()。

答案:其编码蛋白质可能参与硅转运其CDS包含1425bp2008-JUL-14首次向NCBI提交11.GenBank数据库中斑马鱼(Danio rerio)ptges3a基因,下列描述正确的是()。

该基因位于第23号染色体上该基因曾用名为cPGES-1该基因含有一个STS标记12.查询UniProt数据库中登录号Q60751信息,下列描述正确的是()。

生物信息学(期末)-生技08

生物信息学(期末)-生技08

齐齐哈尔大学试卷考试科目: 生物信息学适用对象: 生物技术08本使用学期: 2011—2012—1 第七学期课程编码: 05113019 总分80分共 2 页1)考生须知:2)姓名必须写在装订线左侧, 其它位置一律作废。

3)请先检查是否缺页, 如缺页应向监考教师声明, 否则后果由考生负责。

4)答案一律写在答题纸上, 可不抄题, 但要标清题号。

5)用蓝色或黑色的钢笔、圆珠笔答题。

监考须知: 请将两份题签放在上层随答题纸一起装订。

一、名词解释(每小题3分, 共4小题12分)表达序列标签, 外类群, 开放阅读框, 蛋白质组学二、选择题(每小题1分, 共10小题10分)1.下列哪项不属于人类基因组计划的研究内容()A.绘制化学图谱、物理图谱B.获得全部人类基因组的序列C.获得转录图谱D.获得人体内全部的蛋白质序列2.图中哪一项为直系同源()A.HA1和HA2B.HA1和WA2C.HA1和HBD.WA1和WA23.下列软件中哪一个能够用来构建系统发育树的()A CLUSTALB BLASTC AssemblerD Treeview4.核酸序列增长最快是在哪一时期()A 1970-1980年B 1980-1990年C 1990-2000年D 2000-2008年5. 研究一条测序获得的DNA序列时首先需要()A.屏蔽重复序列B.去除序列污染C.查找开放阅读框D.查找密码子偏好性6. 对于序列ATGCCCCGA和序列ATCCGA哪一种是正确的序列对位排列方式()A ATGCCCCGAAT_CC__GAB ATGCCCCGAAT_CCG__AC ATGCCCCGAAT_CC_G_AD ATGCCCCGAAT_C__G_A7.BLAST系列软件与下列哪一项能够在同一网站中检索到()A GeneBank数据库B DDBJ数据库C EMBL数据库D CLUSTAL W8.生物信息学数据以什么形式存储()A.文件系统B.程序软件C.数据库D.手工管理9.下列陈述哪一项是错误的()A PIR-PSD是国际上最大的蛋白质序列数据库B 数据库的检索分为关键词检索和序列检索C STS是基因组作图时常用的一种图标D ACeDB仅储存秀丽新小杆线虫数据10.在使用CLUSTAL软件进行比对时, 多序列的比对结构中几条序列都相同的核苷酸位点用什么标注()A 不同的颜色B “*”C “-”D “_”三、判断题(每小题1分, 共10小题10分, 对的画“√”, 错的画“×”)1.华盛顿大学的Phred软件是用来处理数据冗余的()2.NCBI网站不能用来查询文章()3.CLUSTAL X有汉化版()4.EcoCyc是大肠杆菌的知识体系数据库系统()5. 文昌鱼是人类的五种模式生物之一()6.生物信息学研究物种信息, 不包括序列()7.研究一条测序获得的DNA序列时首先应该去除污染序列()8.双向凝胶电泳技术是蛋白质组研究的关键技术()9.CAP3是EST序列的拼接软件()10.氨基酸的顺序决定蛋白质的构象,即蛋白质的一级结构决定蛋白质的二级结构。

河南农业大学《生物信息学》2020-2021学年第一学期期末试卷

河南农业大学《生物信息学》2020-2021学年第一学期期末试卷

河南农业大学《生物信息学学 2020-2021学年第一学期期末试卷《《《《《《《《《《《生物信息学》院/系——年纪——专业——姓名——学号——《《《一.选择题(每2分,共20分)1.《物信息学学主要关注的是(《)。

A.《物信大分子的合成B.《物信数据的收集、存储、分析和解释C.《物信系统的物态学关系D.《物信分子的信理性质2.《下列哪个不是物信息学学的主要应用领域?A.《基因组学B.《转录组学C.《蛋白质组学D.《分子物信学实验技术3.《在物信息学学中,用于描述物信序列中特定区域的特性的语言称为(《)。

A.《序列分析B.《序列比对C.《序列模式D.《序列注释4.《在进行基因组分析时,通常使用的数据库是(《)。

A.《PubMedB.《GenBankC.《PDBD.《UniProt5.《物信息学学中,BLAST是一种常用的(《)。

A.《序列比对工具B.《结构模拟软件C.《蛋白质功能预测方法D.《基因调控网络分析工具6.物信息学学是(《)。

《A.《研究物信大分子合成和降解的学科《B.《专门研究基因编辑技术的学科《C.《物信学与计算机科学的交叉学科,主要关注物信数据的收集、管理和分析《D.《研究物信进化历史的学科7.在物信息学学中,用于描述DNA序列中基因位置的数据库通常是(《)。

《A.《UniProt《B.《PDB《C.《Ensembl《D.《KEGG8.BLAST是一个常用的(《)。

《A.《蛋白质三维结构模拟软件《B.《基因表达谱分析工具《C.《局部序列比对搜索工具《D.《基因组组装软件9.下列哪个不是物信息学学在基因组学中的主要应用?(《)《A.《基因定位《B.《基因表达分析《C.《蛋白质结构预测《D.《基因编辑实验设计10.物信息学学中,用于预测蛋白质功能的常见方法不包括(《)。

《A.《序列比对《B.《结构域分析《C.《蛋白质-蛋白质相互作用网络《D.《分子物信学实验二、填空题(每题2分,共10分)1.《在物信息学学中,用于存储和检索核酸序列的数据库是___________。

生物信息学考试题目

生物信息学考试题目

三. 简述题、计算题:(共六题,简述题每小题6 分,计算题10分共40分)1简述放射性同位素的三大特性。

⑴能放出各种不同的射线。

(2分)⑵放出的射线由不同原子核本身决定,具有一定的放射性强度。

(2分)⑶具有一定的寿命即半衰期。

(2分)2简述切仑科夫计数特点?⑴可以直接使用液体闪烁计数器进行测量;(1分)⑵制样简单;不用闪烁液,可直接在水中测量,几乎可以用任何透明液体作为溶剂;(1分)⑶样品体积在测量瓶溶积许可范围内,可以尽量多;灵敏度高;(1分)⑷没有化学淬灭;(1分)⑸计数效率较低;有颜色淬灭;(1分)⑹对低能的核素,如:3H、14C不适用。

(1分)3简述γ闪烁计数器的工作过程。

⑴当γ射线作用于NaI(Tl)闪烁体时,γ射线的能量被闪烁体吸收,并引起闪烁体中原子或分子激发,在退激的过程中发射出光子,(1分)⑵光于逸出闪烁体通过光导打在光电倍增管的光阴极上。

(1分)⑶光子作用光阴极将产生光电子,(2分)⑷光电子在光电倍增管的电场作用下,经过聚焦和多级倍增,最后到阳极引起电压降,最后成为一个可测的电压脉冲输出。

(1分)⑸经核电子学仪器整形、放大、甄别,最后记录。

(1分)4为什么放射性核素可作为示踪剂?•具有代表性:同一元素的同位素具有相同的化学性状,同样参与转化过程,因此基本上能够反映被研究物质的行为。

被标记的物质也能代表非标记物的行为。

(3分)•具有可测量性:放射性核素能自发地放射出射线。

利用高灵敏度的仪器能进行定量、定位、定性探测。

动态观察各种物质在生物体内的量变规律。

(3分)5放射免疫(RIA)技术的基本原理。

⑴根据放射性核素分析的灵敏性和抗原——抗体反应的特异性这两大特点综合起来的一种测定技术。

(1分)⑵标记抗原*Ag与非标记抗原Ag能特异性地与抗体Ab结合形成*Ag–Ab、Ag–Ab 复合物。

此过程是可逆的动态平衡;(1分)⑶标记抗原*Ag与非标记抗原Ag的免疫活性完全(基本)相同,故与抗体Ab 具有相同的亲合力;(1分)⑷当*Ag为一定量,Ab为有限量,Ag与* Ag 的量之和超过Ab上的有效结合位点时,*Ag–Ab复合物的生成量与Ag 的量之间呈一定的函数关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学bioinformatics一、名词解释Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。

Entrez :是由NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。

因此,可以从一个DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。

Entrez 中的数据库包括:Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDBPSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和FASTA 的相似序列发现率。

ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。

编码一个蛋白质的外显子连接成为一个连续的ORF。

当一个新基因被识别,其DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。

这是因为在没有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA 。

序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF 的识别是证明一个新的DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。

相似性(similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

生物数据库检索(database query,数据库查询):对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找.生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.E 值:对某个已识别出的相似度值S,E 值是分值大于等于S 的期望频率,改值可以被理解为期望随机得到等于S 或大于S 值的分值数目。

序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.Refseq:美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。

3’UTR:3’非翻译区的缩写,真核生物的转录终止信号是在3’非翻译区的:polyA。

CpG island:是DNA 上的一个区域,富含GC,两者以磷酸酯键相连,长度:约几百到几千bp 不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG 岛具有阻止序列甲基化的作用。

GSS:基因组勘测序列,是基因组DNA 克隆的一次性部分测序得到的序:cosmid/BAC/YAC 末端序列、通过Exon 列。

包括随机的基因组勘测序列、trapped 获得基因组序列、通过Alu PCR 获得的序列、以及转座子标记(序列等。

EST:表达序列标签—是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分.。

MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件,:它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度mRNA 氨基酸序列及遗传距离进行系统发生分评估等全套功能,能对DNA、析以及基因分化年代的分析。

maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。

neighbor—joining method:邻接法,基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。

在重建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有效的的基于距离数据重建系统树的方法之一。

molecular phylogenetic tree:分子进化树,精确地反映物种间或群体间在进:化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。

Domain :功能域。

蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。

某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。

EMBL:EMBL 实验室—欧洲分子生物学实验室,EMBL 数据库—是非盈利:性学术组织EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ 数据库中的数据进行交换,并同步更新。

BLAST :Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

SRS(sequence retrieval system):序列查询系统,是EBI 提供的多数据库查询:工具之一。

有与Entrez 类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。

dynamic programming:动态规划程序;它将一个问题合理分解成一些小的子问题,然后利用部分计算解得到最终答案。

Match score maximum likelihood approach methylation microarray microsatellite MIAME(the minimum information about a microarray experiment) minisatellite mismatch score molecular clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的得分。

指在一系列的序列比对中,考虑每一个字符被替代的概率的一种系统发生学方法;也是一种基于纯统计的系统发生重建方法。

一个甲基( —CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质上。

在一个固体基片上的已知位置固定了DNA 探针的有序阵列。

在基因组中很多非常短的核酸序列出现的区域,例如串接出现5 ‘-CA-3‘的重复序列;通常在个体间变化很大。

PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象中每100 个残基发生一个替换所需要的平均进化时间。

对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除。

PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指:向全文的链接。

作为Entrez 资讯检索系统的一部分。

motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小:段序列模式。

通常由2、个二级结构单位组成, 3 一般为α螺旋、β折叠和环。

motif 作为结构域中的亚单位,表现结构域的各种生物学功能。

tructure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间:的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

coiled coil:卷曲螺旋,是蛋白质中由2~7 条α螺旋链相互缠绕形成类似麻花状结构的总称。

卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

NCBI :美国国立生物技术信息中心(National Center for Biotechnology Information),1988 年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。

提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank 数据库,PubMed 医学文献检索数据库等。

Conserved sequence :保守序列。

演化过程中基本上不变的DNA 中的碱基序列或蛋白质中的氨基酸序列。

Tandem repeat sequences:串联重复序列。

染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。

Sequence tagged site:序列示踪位点,简写为STS。

在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。

由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。

表达的序列标签(ESTs)就是那些得自cDNAs的STSs。

Gene mapping:基因作图。

对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。

Physical map :物理图谱。

不考虑遗传,DNA 中可识别的界标(如限制性酶切位点和基因等)的位置图。

界标之间的距离用碱基对度量。

对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。

UniGene :美国国家生物技术信息中心提供的公用数据库,该数据库将 GenBank 中属于同一条基因的所有片断拼接成完整的基因进行收录。

非蛋白质编码区:非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA 成份或由其表达的 RNA 成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核 RNA (hmRNA)短散置元、(short interspersed elements)长散置元、(long interspersed elements)、伪基因(pseudogenes)等。

除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。

PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。

相关文档
最新文档