基因组序列与DNA序列分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表达序列标签测定
表达序列表达库版本 022004 Public entrize 号: 20039613 生命概要-截至 2004 年 2 月 20 日 Homo sapiens ( 人 ) Mus musculus + domesticus ( 家鼠 ) Rattus sp. ( 鼠 ) Triticum aestivum ( 小麦 ) Ciona intestinalis Gallus gallus ( 鸡 ) Danio rerio ( 斑马鱼 ) Zea mays ( 玉米 ) Xenopus laevis ( 非洲爪蛙 ) Hordeum vulgare + subsp. vulgare ( 大麦 ) 来源: NCBI - http://ncbi.nlm.nih.gov 5,472,005 4,055,481 583,841 549,926 492,511 460,385 450,652 391,417 359,901 352,924
DNA 序列比对和蛋白质序列比对有什么不同
用 BLASTN 替代 BLASTP
核苷酸-核苷 酸 BLAST 网络 服务器 ( BLASTN )
DNwk.baidu.com 序列比对 II
翻译搜索
DNA 序列比对 III
• 常用 BLAST 项目:
程序 BLASTP BLASTN BLASTX TBLASTN TBLASTX PsiBALST 查询 氨基酸 核苷酸 核苷酸 ( 氨基酸 核苷酸 ( 数据库 氨基酸 核苷酸 氨基酸 核苷酸 ( 氨基酸 ) 核苷酸 ( 氨基酸 ) 氨基酸
学习基因组学的语言
在以后文字中,请注意以下基因组学术语的使用:常染色质 ,全基因组鸟枪法测序,序列读取( sequence reads ) , 5.11 次覆盖( 5.11-fold coverage ) , 质粒克隆,全基因组 装配( whole-genome assembly ),染色体区域组装 ( regional chromosome assembly ) .
Venter, JC, MD Adams, EW Myers, PW Li, RJ Mural, GG Sutton, HO Smith, … "The Sequence of The Human Genome." Science 291, no. 5507 (16 February 2001): 1304-51.
基因组测序和 DNA 序列分析
• 基因组学术语 • 鸟枪法测序
- 进展:基因组 , 转录组 , 等等 .
• DNA 序列比对 I
- 如何选择错配罚分
• 比较基因组学例子
-PipMaker, 系统发生投影
最近媒体关注
基因组学语言
Bork, Peer, and Richard Copley. " Genome Speak."Nature 409 (15 February 2001): 815.
蛋白质序列分析 - 强调化学性质 - 蛋白质结构 - 到处都用到选择 - 多学列比对 - 比较蛋白组学 - 数据: O ( 10^8 )氨基酸残基 DNA 序列分析 - 强调调控规则 -RNA 结构 - 信号与噪音(统计学) -Motif 发现 - 比较基因组学 - 数据:( 10^10 )碱基
参考概率与统计理论教材
核苷酸的种类
• 核糖核酸 • 脱氧核糖核酸 • 双脱氧核糖核酸
DNA 序列
BAC 和基因组的鸟枪法测序
200KB ( NIH ) 超声波降解,亚克隆 3GB ( celera ) 亚克隆
序列,组合 组合中 那些因 素将导 致问题
鸟枪法邻接片段
鸟枪法覆盖 ( 泊松分布 )
序列 N 从 200kb BAC 开始读取,每次 500bp 覆盖 / 阅读 p=500/200,000=0.0025 总共覆盖 C=Np Y= 覆盖点 X 的阅读的数量 P(Y=k) = (N!/(N-k)!k!) pk(1-p)N-k ≈ e–cck / k! . x P(Y=0)= e-c Examples: e-2 ≈ 0.14 e-4 ≈ 0.02
7.91/7.36/BE.409 讲稿一 2004 年 2 月 20 日
基因组序列和 DNA 序列分析
Chris Burge
什么是基因组
基因组不是装蛋白的袋子
什么是人类基因组?
第二单元要点 DNA/RNA 序列分析
阅读 * 2/24 2/26 3/2 3/4 3/9 3/11 3/16 基因组测序和 DNA 序列分析 DNA 序列比对 DNA Motif 的发现与构建 DNA 的马尔可夫和隐马尔可夫模型 DNA 序列进化 RNA 序列分析和应用程序 文献讨论 M 第3章 M 第7章 M 第4章 M 第4章 M 第6章 M 第5章 TBA
什么使现实与理论出现差别?
可点击基因组
真核生物 酿酒酵母 裂变酵母 线虫 果蝇 按蚊 玻璃海鞘 拟南芥 人 鼠 Tetraodon 河豚 斑马鱼 脉孢菌 曲霉菌 … 原核生物 疟原虫 鞭毛虫 … (若干种) 古细菌 甲烷球菌 酸热硫化叶菌 … (共 16 种) 噬菌体 / 病毒 很多种 细胞器 很多种 真细菌 大肠杆菌 枯草杆菌 金黄色葡萄球菌 … (超过百种)
氨基酸 ) 氨基酸 )
氨基酸 ( 氨基酸 msa)
这可能是对基因组最好的 EST 序列搜索
DNA 序列对齐 IV
哪一个对齐是有效的?
用动态规划算法确定得分 S 超过阈值 X 的高得分序列 得分遵循以下极限分布
对于长度为 m 和 n 的序列, K 和 λ 依赖于记分矩阵,由 比对的序列确定 (蛋白对齐有相同的理论)
怎样选择错配罚分? 使用高比值片段结构理论 * 高分值片段有如下构成: qij =pipjeλsij 其中 qij=i,j 配对的频率(“目标频率”) pi , pj= 序列中 i , j 碱基被比较的频率
如果我们把所有记分加倍,目标频率发生怎样的改变 *Karlin & Altschul, 1990
减少统计偏移 : E~ Kmne -λS
DNA 序列比对 V
λ 和得分矩阵有什么关系 Λ 是以下等式的唯一解:
其中 Pi= 核苷酸 i 的频率; Sij=i,j 对对齐的得分
该等式是什么类型?(先验) 如果记分为原来的两倍, λ 将发生怎样的变化?(减少为原来的一半) 通过这些,我们可以发现 λ 的本质是什么?(缩放因子)
*Karlin & Altschul, 1990
DNA 序列比对 VI
DNA 用怎样的记分矩阵? 通常用简单匹配 - 错配矩阵:
i j: A C G T A 1 m m m C m 1 m m G m m 1 m T m m m 1
Si,j:
m=“ 错配罚分”(必为负数)
DNA 序列比对 VII
来自 M. Yaffe 第二讲
•随机序列比对得分会导致分布 极值的增大——如偏高斯分布 •称为 Gumbel 极值分布
NOTEs ( cont )
极值分布 (A) 和正态分布 (B) 概率值 . 曲线下面积为 1.
对于均值为 m 方差为 σ 的正态分布,曲线高度可以用 Y=1/(σ√2π) exp[-(xm)2/2σ2] 来描述 对于极值分布,曲线高度可以用 Y=exp[-x-e-x] …and P(S>x) = 1-exp[-e-λ(x-u)] 来描述, u=(ln Kmn)/λ 可以显示平均极值得分为 ~ log2(nm), 获得得分超过某 一标准偏差 X 的可能性为 P(S>x)~ Kmne-λx 。 **** K 和 λ 已制为差别矩阵表
大尺度转录序列测定
• 请参考下面使用大尺度转录序列测定的例 文:
Okazaki, Y, M Furuno, T Kasukawa, J Adachi, H Bono, S Kondo, … "Analysis of The Mouse Transcriptome Based On Functional Annotation of 60,770 Full-length cDNAs.“ Nature 420, no. 6915 (5 December 2002): 563-73.
“ 组”( -omes )与“组学”( -omics * )
糖组 核糖组 蛋白组 ( proteme ) Variome 转录组 ( transcriptome ) 基因组 ( Genome )
Mass spec, Y2H, ? SNPs, 单倍体 ESTs , cDNA ,微阵 列 基因组序列
DNA 序列比对 I
* M = Mount, “Bioinformatics: Sequence and Genome Analysis”
教师的反馈
过去几年的例子: 滑稽的字体显得很蠢 Burge 使用了太多的基因组学术语 Yaffe 和 Burge 的章节应该有更好的配合 向学生提问,学生回答,但是答案却听不懂
DNA 与蛋白质序列分析
相关文档
最新文档