电子科大生物信息学重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一:
简答:研究内容:
⏹数据管理层面上:开发、设计一系列相关的工具,能够方便有效的获取、管理
以及使用各种类型的数据和信息。
⏹算法开发层面上:开发新的算法及统计学的方法来揭示大规模数据之间的联系。
⏹研究对象层面上:分析和解释各种类型的生物学数据,包括核酸、氨基酸序列、
蛋白质功能结构域以及蛋白质三级结构等。
二十世纪五十年代,为储备期
二十世纪六十至七十年代,为萌芽期。
二十世纪八十年代,为形成期。
1990s,高速发展期
二:
界(kingdom)门(phylum)纲(class)目(order)科(family)属(genus)种(species)
四大“模式生物”:酵母、线虫、果蝇、小鼠
大肠杆菌:460万bp,秀丽线虫9.7Mbp,果蝇 1.8亿bp 拟南芥 1.0×108bp 小鼠30亿水稻4.3亿bp (要记住那个比那个大/小?)
四种:小分子:单糖、双糖,脂肪酸,核苷酸,氨基酸
蛋白质的空间结构
一级结构(primary structure)
多肽链中氨基酸数目、种类和线性排列顺序
二级结构(secondary structure)
氢键形成α-螺旋(α -helix)
链间形成β-折叠(β-sheet)
三级结构(tertiary structure)
肽链进一步沿多方向盘绕成紧密的近似球状结构
四级结构(quaternary structure)
具有特定构象的肽链进一步结合,并在空间相互作用
1870年,F. Miescher从脓细胞的核中分离,由于呈酸性,故命名为核酸。
中心法则开始:DNA——RNA
三-
1、检索方法:
(1)追溯法:通过已知文献后附有的参考文献中提供的线索来查找文献。
(2)常用法:利用各种检索工具来查找文献。
(3)循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。
(4)浏览法:是从本专业期刊或其它类型的原始文献中直接查阅文献资料。
3、检索过程:
●(1)分析研究课题
●(2)制定检索策略
●(3)查找文献线索
●(4)获得原始文献
1.PubMed的特性
⏹PubMed is NCBI gateway to MEDLINE
⏹收录了70多个国家4600多种主要生物医学期刊的摘要和部分全文。
⏹最早的文献可追溯至20世纪50年代。最新的文献几乎就在此时此刻。
⏹部分出版商通过PubMed提供文献的全文(链接),而这些全文中有些是
可以免费登录的。据统计,NCBI目前共有130多种期刊约10万篇的免
费全文。
1. 鸟枪法(Shot-gun sequencing)
方法:借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。
适用范围:主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。
优点:速度快、简单易行、成本低
缺点:
序列的拼接组装比较困难,尤其是在重复序列多的区域难度更大。
受文库随机性和测序覆盖度的影响,某些区域间会有较大的空洞(GAP)。
由于缺少基因组的物理图谱,有些序列难以定位,成为游离片段。
2. 克隆重叠群法(clone contig sequencing)
方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群,分别测序后拼装。需要绘制物理图谱,以鸟枪法为基础。
适用范围:较大的、更复杂的基因组。
Short-gun Clone contig
不需背景信息构建克隆群
(遗传、物理图谱)
时间短需要几年的时间
得到的是草图(Draft) 得到精细图谱
原核基因组较大的基因组
成本低成本高
四、数据提交-单机版软件:Sequin是独立的程序,由NCBI(美国国家生物情报中心)开
发,用来向三大核酸数据库GenBank,EMBL,DDBJ查询与提交序列数据。
核酸数据库分级:
在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。
二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;
一级数据库与二级数据库之间并无明确的界限。
五
主要的blast程序
T表示翻译;n表示核酸;p表示蛋白;x表示交叉
点阵分析:
•寻找序列间可能的性状对位排列
•寻找蛋白质、DNA序列中正向或反向重复
•预测RNA中自补区域
•优点:可以找到两个序列间所有可能的残基匹配
•简单、易懂
•直观、整体性强
点阵法的序列比对:寻找两条序列的最佳比对,实际上就是寻找在矩阵标记图中找非重叠平行斜线最长的组合。
最短路经问题:算法求解:
从起点到终点逐层计算
简答:系统发育树的构建步骤
1、特征数据选取:
基因、个体、群体或物种的信息
常用的方法:多序列比对
2、构建距离数据或相似性数据:
涉及的则是成对基因、个体、群体或物种的信息。
3、选择建树方法以及替代模型:
目前主要有三种:距离法、最大简约法、最大似然法
4、构建进化树:
拓扑结构的判别(从大量的拓扑结构中搜寻、判别)
5、进化树评估:
与实际进化的比较
七:序列预测,常用的检验指标
1. 灵敏度(Sensitivity, Sn): 对于真实的数据,能够预测成“真”的比例是多少;
2. 特异性(Specificity, Sp):对于阴性的数据,能够预测成“假”的比例是多少;
3. 准确性(Accuracy, Ac):对于整个数据集(包括阳性和阴性数据),预测总共的准确比例是多少;
4. 马修相关系数(Mathew correlation coefficient, MCC):当阳性数据的数量与阴性数据的数量差别较大时,能够更为公平的反映预测能力,值域[-1,1];