生物信息学-生物信息学入门

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学-生物信息学入门●生物信息与生物信息学
●发展进程
●初代DNA测序技术
●sanger测序法（链终止反应）
●改良
●荧光标记
●毛细管电泳体系
●自动化信号读取和分析
●鸟枪法shotgun测序
●高通量测序
●序列性质
●碱基组合
●CG含量
●Codon数量:三联体密码子的可能组合数
●碱基互补规则
●重复序列的比例
●微卫星分子标记（串联重复序列）三个或以上的重复单元●组学基础
●DNA测序技术
●常规测序技术（一代测序技术sanger法）
●碱基精度高
●读长相对较长 700bp左右
●单个碱基的测序成本较高
●用于短片段测序，验证性测序
●高通量测序技术
●二代测序技术
●碱基精度较高
●读长短＜300bp
●模板需要扩增，单个剪辑测试成本低
●用于群体测序，大样本量测序等
●三代测序技术
●未校正的碱基精度低
●读长长
●无需扩增，单分子测序
●主要应用于基因组组装，基因全长捕获等
●组学
●基因组
●性质
●常见物种的基因组大小
●一套完整基因组序列的长度
●C值悖论
●一般多倍体的基因组往往最大
●越早作为模式物种的往往基因组较小
●转座元件
●倍形变化
●常见物种的基因数量
●基因数和基因组大小大致成正相关
●基因结构
●基因组包含编码区，非编码区
●外显子exon，内含子intron，启动子promoter，UTR（untranslated
region），增强子enhancer，沉默子silencer，poly-A tail（RNA）
●基因组变异
●单核苷酸多态性（single-nucleotide polymorphism,SNP）
●插入缺失insertion and deletion
●拷贝数变异copy number variation
●结构变异structural variation
●基因定位
●用连锁方法定位性状相关基因
●基于自然变异个体
●人类QTL定位
●基于家系
●关联法
●转录组（时空特异性）
●转录出所有RNA的总和
●蛋白质组（时空特异性）
●表型组
●组学分析数据来源
●基因组测序
●shotgun
●用于基因组组装，DNA变异检测
●转录组测序
●将RNA反转录成cDNA测序，或三代Nanopore（纳米管通道）直接测序
●用于表达量分析，剪接形式分析
●具有时空特异性
●甲基化测序
●通过试剂处理使非甲基化位点发生碱基变化，常用亚硫酸氢盐处理（BS-seq
or WGBS）
●用于甲基化水平分析
●靶向测序:设计引物/探针先扩增靶向片段，再测序
●芯片技术（荧光原位杂交）
●分子数据库与序列比对
●生物信息常用数据库
●国际核酸序列数据联合中心INSDC
●GeneBank（America）
●EMBL（Europe）
●DDBJ（Japan）
●1级数据库（存储实验直接获得的原始数据）
●蛋白序列数据库UniProt
●Swiss-Prot
●人工核验,数据准确,数据量小
●TrEMBL
●计算机生成,数据量大
●PIR
●2级数据库（存储分析结果）
●蛋白结构数据库
●PDB
●PDBe（europe）
●PDBj（Japan）
●RCSB（America）
●BMRB（生物核磁共振）
●综合性数据库
●NCBI（存放序列,提供BLAST,文献检索等）
●CNCB
●高通量测序/组学数据库
●NCBI-SRA
●CNCB-NGDC
●大部分数据库用户都可以按规范提交自己获得的序列
●常见文件格式
●FASTA
●＞标记序列名称
●既可以存放原始序列，又可以存放比对之后的序列
●GeneBank
●主要存放原始序列,可以转换成FASTA等其他格式
●header,features,sequences
●完整记录后以//结尾
●FASTQ
●主要存放高通量测序原始数据,包含每个碱基的精度信息
●序列比对方法
●生物学意义
●寻找同源基因
●通过比对未知功能序列和已知功能序列的相似性判断其功能
●寻找演化上可能存在功能限制的保守区域
●检测群体内的变异位点
●同源建模预测高级结构
●序列比对算法
●全局匹配算法Needleman-Wunsch算法（打分矩阵）（global alignment）
●局部匹配算法Smith-Waterman（local alignment）
●精确匹配,准确度较高 ,速度较慢
●调方法Word methods/K-mer methods
●BLAST算法:近似比对算法，效率更高
●比对结果评价
●一致性identity=一致的剪辑/匹配长度（越高匹配程度越好）
●覆盖度coverage=匹配长度/序列长度
●Score值越高匹配程度越好
●E-value越低匹配程度越好
●多序列比对Clustal算法（累进算法）
●分子系统发生与群体遗传
●分子进化的研究方法
●序列比较
●差异估算
●分子进化分析
●系统发生树
●同源性homology
●直系同源ortholog:来源于物种分化
●旁系同源paralog:来源于基因复制
●系统发生关系
●单系分类群
●包含一个特定共同祖先的所有已命名的后裔的分类群
●并系分类群
●包含一个特定共同祖先的一些但不是全部后裔
●多系分类群
●包括来自两个不同祖先的物种，每个祖先都拥有分布于不同类型的后裔
●分支:定义进化关系
●支长:代表相邻节点差异程度的大小
●系统发育树:既反应相互关系，又反映相互差异（分支长度有意义）
●分支树:只表示相互关系（分支长度无意义）
●进化树的类型
●有根树 :能够确定共同祖先
●无根树
●外群:已知的比其他研究序列更早分化出来的序列
●物种树（需要选择保守性较高的序列构建e.g.16SrRNA,线粒体,叶绿体）与基因
树
●构树方法
●距离法
●非加权组平均法UPGMA
●邻接法（基于状态变化）
●最大简约法
●最大似然法
●贝叶斯法
●蛋白质功能与结构预测
●蛋白功能预测（依据序列，结构，特征等的相似性进行功能的归纳和类推）
●基于序列进行预测
●序列同源比对
●序列特征结构域domain，模体motif
●基因组分布特征，表达特征等
●基于结构进行预测
●蛋白完整三维结构
●三维结构特征模体
●预测方法
●同源建模法homology modeling
●折叠识别法（穿线法）threading
●从头预算法
●基于理化性质进行分子力学，分子动力学模拟。