生物信息学-生物信息学入门
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学-生物信息学入门●生物信息与生物信息学
●发展进程
●初代DNA测序技术
●sanger测序法(链终止反应)
●改良
●荧光标记
●毛细管电泳体系
●自动化信号读取和分析
●鸟枪法shotgun测序
●高通量测序
●序列性质
●碱基组合
●CG含量
●Codon数量:三联体密码子的可能组合数
●碱基互补规则
●重复序列的比例
●微卫星分子标记(串联重复序列)三个或以上的重复单元●组学基础
●DNA测序技术
●常规测序技术(一代测序技术sanger法)
●碱基精度高
●读长相对较长 700bp左右
●单个碱基的测序成本较高
●用于短片段测序,验证性测序
●高通量测序技术
●二代测序技术
●碱基精度较高
●读长短<300bp
●模板需要扩增,单个剪辑测试成本低
●用于群体测序,大样本量测序等
●三代测序技术
●未校正的碱基精度低
●读长长
●无需扩增,单分子测序
●主要应用于基因组组装,基因全长捕获等
●组学
●基因组
●性质
●常见物种的基因组大小
●一套完整基因组序列的长度
●C值悖论
●一般多倍体的基因组往往最大
●越早作为模式物种的往往基因组较小
●转座元件
●倍形变化
●常见物种的基因数量
●基因数和基因组大小大致成正相关
●基因结构
●基因组包含编码区,非编码区
●外显子exon,内含子intron,启动子promoter,UTR(untranslated
region),增强子enhancer,沉默子silencer,poly-A tail(RNA)
●基因组变异
●单核苷酸多态性(single-nucleotide polymorphism,SNP)
●插入缺失insertion and deletion
●拷贝数变异copy number variation
●结构变异structural variation
●基因定位
●用连锁方法定位性状相关基因
●基于自然变异个体
●人类QTL定位
●基于家系
●关联法
●转录组(时空特异性)
●转录出所有RNA的总和
●蛋白质组(时空特异性)
●表型组
●组学分析数据来源
●基因组测序
●shotgun
●用于基因组组装,DNA变异检测
●转录组测序
●将RNA反转录成cDNA测序,或三代Nanopore(纳米管通道)直接测序
●用于表达量分析,剪接形式分析
●具有时空特异性
●甲基化测序
●通过试剂处理使非甲基化位点发生碱基变化,常用亚硫酸氢盐处理(BS-seq
or WGBS)
●用于甲基化水平分析
●靶向测序:设计引物/探针先扩增靶向片段,再测序
●芯片技术(荧光原位杂交)
●分子数据库与序列比对
●生物信息常用数据库
●国际核酸序列数据联合中心INSDC
●GeneBank(America)
●EMBL(Europe)
●DDBJ(Japan)
●1级数据库(存储实验直接获得的原始数据)
●蛋白序列数据库UniProt
●Swiss-Prot
●人工核验,数据准确,数据量小
●TrEMBL
●计算机生成,数据量大
●PIR
●2级数据库(存储分析结果)
●蛋白结构数据库
●PDB
●PDBe(europe)
●PDBj(Japan)
●RCSB(America)
●BMRB(生物核磁共振)
●综合性数据库
●NCBI(存放序列,提供BLAST,文献检索等)
●CNCB
●高通量测序/组学数据库
●NCBI-SRA
●CNCB-NGDC
●大部分数据库用户都可以按规范提交自己获得的序列
●常见文件格式
●FASTA
●>标记序列名称
●既可以存放原始序列,又可以存放比对之后的序列
●GeneBank
●主要存放原始序列,可以转换成FASTA等其他格式
●header,features,sequences
●完整记录后以//结尾
●FASTQ
●主要存放高通量测序原始数据,包含每个碱基的精度信息
●序列比对方法
●生物学意义
●寻找同源基因
●通过比对未知功能序列和已知功能序列的相似性判断其功能
●寻找演化上可能存在功能限制的保守区域
●检测群体内的变异位点
●同源建模预测高级结构
●序列比对算法
●全局匹配算法Needleman-Wunsch算法(打分矩阵)(global alignment)
●局部匹配算法Smith-Waterman(local alignment)
●精确匹配,准确度较高 ,速度较慢
●调方法Word methods/K-mer methods
●BLAST算法:近似比对算法,效率更高
●比对结果评价
●一致性identity=一致的剪辑/匹配长度(越高匹配程度越好)
●覆盖度coverage=匹配长度/序列长度
●Score值越高匹配程度越好
●E-value越低匹配程度越好
●多序列比对Clustal算法(累进算法)
●分子系统发生与群体遗传
●分子进化的研究方法
●序列比较
●差异估算
●分子进化分析
●系统发生树
●同源性homology
●直系同源ortholog:来源于物种分化
●旁系同源paralog:来源于基因复制
●系统发生关系
●单系分类群
●包含一个特定共同祖先的所有已命名的后裔的分类群
●并系分类群
●包含一个特定共同祖先的一些但不是全部后裔
●多系分类群
●包括来自两个不同祖先的物种,每个祖先都拥有分布于不同类型的后裔
●分支:定义进化关系
●支长:代表相邻节点差异程度的大小
●系统发育树:既反应相互关系,又反映相互差异(分支长度有意义)
●分支树:只表示相互关系(分支长度无意义)
●进化树的类型
●有根树 :能够确定共同祖先
●无根树
●外群:已知的比其他研究序列更早分化出来的序列
●物种树(需要选择保守性较高的序列构建e.g.16SrRNA,线粒体,叶绿体)与基因
树
●构树方法
●距离法
●非加权组平均法UPGMA
●邻接法(基于状态变化)
●最大简约法
●最大似然法
●贝叶斯法
●蛋白质功能与结构预测
●蛋白功能预测(依据序列,结构,特征等的相似性进行功能的归纳和类推)
●基于序列进行预测
●序列同源比对
●序列特征结构域domain,模体motif
●基因组分布特征,表达特征等
●基于结构进行预测
●蛋白完整三维结构
●三维结构特征模体
●预测方法
●同源建模法homology modeling
●折叠识别法(穿线法)threading
●从头预算法
●基于理化性质进行分子力学,分子动力学模拟。