生物信息学重点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名词解释 • Fasta格式:
FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以 大于号">"开头,下一行起为具体的序列。一般建议每行的字符数不 超过80个,以比对程序的处理。
• 医学主题词MeSH 是Medical Subject Headings的缩略词,即医学主题词,是用规范化 的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规 定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词, 其中论述文献中心的主题词称主要主题词(major topic headings), 论述主题某一方面的内容的词称为副主题词。
NCBI UCSC ensemble 8 1986年1月29 日, 里根总统签署了一项声明,宣布1986年为美国国立医 学图书馆150 周年纪念年。 9 Pubmed: MEDLINE PreMEDLINE Publisher supplied citations PubMed的特点
• 自动词语匹配 • 链接点多,部分在网上免费获得全文 • 也可以直接定购原文 10 MeSH是Medical Subject Headings的缩略词,即医学主题词,是用规 范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规 定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中 论述文献中心的主题词称主要主题词(major topic headings),论述主 题某一方面的内容的词称为副主题词。 短语检索: 如果在短语上加双引号,将不执行转换功能 例如: “single cell” 布尔逻辑运算: AND、OR、NOT必须大写 比如“single cell” AND “Vitamin C” 截词检索:* 例:输入bacter*,检出bacteria、bacterium等 备注:将不执行转换功能; 截词检索只限于单词,对词组无效, 11 NCBI功能:检索文献 检索序列 比对序列 12 High-Throughput Genomic Sequence (HTGS) 高通量基因组测序结果 Whole Genome Shotgun Sequences (WGS) 全基因组鸟枪法序列 EST:表达序列标签 STS:序列标签位点 GSS:基因组短序列 13 Dayhoff被称作生物信息学之父或许更合适。 14 PAM模型可用于寻找蛋白质的进化起源 BLOSUM模型则用于发现蛋白质的保守域 15 BLAST概念:(基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性 搜索程序
• 6. 遗传图谱(Genetic map) 又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map) , 是指人类基因组内基因以及专一的多态性DNA标记(marker)相对位置 的图谱,其研究经历了从经典的遗传图谱到现代遗传图谱的过 程。
• 7. 物理图谱(Physical map) • 用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺
• 生物信息学从事对基因组研究相关生物信息的获取、加工、储 存、分配、分析和解释。这一定义包括了两层含义,一是对海量 数据的收集、整理与服务,也就是管好这些数据;另一个是从中 发现新的规律,也就是用好这些数据。
• 1)基因组相关信息的收集、储存、管理与提供 • 2)新基因的发现与鉴定 • 3)非编码区信息结构分析 • 4)生物进化的研究 • 5)完整基因组的比较研究 • 6)基因组信息分析的方法研究 • 7)大规模基因功能表达谱的分析 • 8)蛋白质分子空间结构的预测、模拟和分子设计 • 9)药物设计 二 PubMed检索的四个主要特点? • 1)支持词汇自动转换 • 2)支持词组检索(需要加引号) • 3)支持布尔逻辑运算 • 4)支持截词检索 三 全基因组鸟枪法测序的步骤,鸟枪法测序的特点? 全基因组鸟枪法测序的主要步骤是:第一,建立高度随机、插入 片段大小为2kb左右的基因组文库。克隆数要达到一定数量,即经 末端测序的克隆片段的碱基总数应达到基因组5倍以上。第二,高 效、大规模的末端测序。对文库中每一个克隆,进行两端测序, TIGR在完成流感嗜血杆菌的基因组时,使用了14台测序仪,用三 个月时间完成了必需的28,463个测序反应,测序总长度达6倍基因 组。第三,序列集合。TIGR发展了新的软件,修改了序列集合规 则以最大限度地排除错误的连锁匹配。第四,填补缺口。有两种
序和实际距离排列的图谱。以定位的DNA标记序列如序列标签位 点STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因 组图谱。 • 8. 转录图谱 以EST(expressed sequence tag ,表达序列标签)为标记,根据转录 顺序的位置和距离绘制的图谱。 • 9. 序列图谱(分子水平的物理图谱)
16 程序名 查询序 数据 搜索方法


Blastn 核酸
核酸
核酸序列搜索逐一核酸数据库 中的序列
Blastp
蛋白质
蛋白 质
蛋白质序列搜索逐一蛋白质数 据库中的序列
Blastx 核酸
蛋白 质
核酸序列6框翻译成蛋白质序列 后和蛋白质数据库中的序列逐 一搜索。
蛋白质序列和核酸数据库中的
Tblastn 蛋白质 核酸 核酸序列6框翻译后的蛋白质序
待填补的缺口,一是没有相应模板DNA的物理缺口,二是有模板 DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的λ文 库以备缺口填补。(只写红字内容即可) 鸟枪法测序的缺点 1、随着所测基因组总量增大,所需测序的片段大量增加。 2、高等真核生物(如人类)基因组中有大量重复序列,导致判断 失误。
• 直系同源: Orthologs是指来自于不同物种的由垂直家系(物种形成)进化
而来的蛋白,并且典型的保留与原始蛋白有相同的功能。 • 序列模体(motif): 通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质
分子及家族的功能有关。 • 计分矩阵(scoring matrix):
记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。 在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基 酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概 率。另一个是在序列比对中,一对残基的出现的有意义的概率。这些 概率来源于已知有效的真实的序列的比对的样本。
缺点:容易错误装配
18 2001年2月,文特尔小组所做的人类基因组测序报告发表在《科
学》杂志上
科林斯带领的公共资金支持的实验室联合体的报告同时发表在
《自然Βιβλιοθήκη Baidu杂志上
名词翻译:
• STS:序列标签位点 • EST:表达序列标签 • ORTHOLOGS:直系同源 • PARALOGS:旁系同源 • CDS:编码序列 • EXON:外显子 • ORF:开放阅读框 • PHI-BLAST:模式识别BLAST • PSI-BLAST:位置特异的迭代BLAST • SNP:单核苷酸多态性
序列图谱是指整个人类基因组的核苷酸序列图,也是最详尽的物理图 谱, 既包括可转录序列,也包括非转录序列,是转录序列、调节序列 和功能未知序列的总和。
• 10.旁系同源 用来描述在同一物种内由于基因复制而分离的同源基因。也可译作并 系同源、横向同源。旁系同源体常见于同一物种,但也不是绝对如 此。例如鼠的a球蛋白和b球蛋白基因是paralog;并且,鼠的a球蛋白 和鸡的b球蛋白基因的关系也是paralog 简答题 一 什么是生物信息学?
Genbank EMBL }---------------fasta格式 DDBJ 4 EBI欧洲生物信息研究所 SIB是瑞士的 5 Uniprot 特点
• 高质量 • 更新速度快 • 与其他数据库联系密切 • 使用快捷方便 • 分析工具齐全 6 结构数据库 PDB数据库:1971年建立于美国布鲁海克海文国家实验室。该数据库中 收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精 确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的 层次。该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics, RCSB ) MMDB: 分子模型数据库 — 一个关于三维生物分子结构的数据库,结 构来自于 X-ray 晶体衍射 和 NMR 色谱分析 7 基因组结构数据库:
列逐一比对。
核酸序列6框翻译成蛋白质序
TBlastx 核酸
核酸
列,再和核酸数据库中的核酸 序列6框翻译成的蛋白质序列逐
一进行比对。
17 克隆法:大片段contig 小片段测序拼装
有特异性的分子路标,拼接准确,错误少,但为确定分子路标而构
建图谱相当耗时。
全基因组鸟枪法: 小片段测序 计算机拼装
优点:不需预先了解任何基因组的情况
生物信息学重点
1 生物信息学概念:生物信息学从事对基因组研究相关生物信息的获 取、加工、储存、分配、分析和解释。 一是对海量数据的收集、整理与服务,也就是管好这些数据。 另一个是从中发现新的规律,也就是用好这些数据。 2 生物信息学数据库分类: 一次数据库;二次数据库 序列数据库:DNA序列和蛋白质序列;结构数据库:蛋白质结构;基因 组数据库:人类基因组以及其他动物基因组。 二次数据库比一次多一个文献数据库(专家库) 3序列数据库: NCBI EMBL DDBJ 检索系统: Entrze检索系统:NCBI SRS检索系统:EMBL、DDBJ 数据格式:
相关文档
最新文档