生物信息学实验教学大纲

生物信息学实验教学大纲
生物信息学实验教学大纲

生物信息学实验教学大纲

纪律要求

1、上课之前由班长把关进入,不要放其他人员入内。

2、进入机房不得随便走动喧哗,有问题请举手。

3、一人一台电脑,用自己的帐号和密码上网。

4、不得上与上课内容无关的网站,不可进行网络聊天及听歌。

5、按时完成上课内容,在下次上课前提交实验报告。

6、自备U盘将有关软件带好。

实验一生物信息数据库信息检索

一、实验内容

1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。

2、了解北大生物信息学中心等几大中文生物信息学网站。

3、了解一些生物论坛中有关生物信息学的部分。如:Biooo和Bioon。

4、利用NCBI的Entrenz查询系统和EBI的SRS检索文献和核酸或蛋白质序列。

(phyA)并对照所学复习各字段的含义。

5、将所得记录的ID或Accession记录下来备用。

二、作业

1、记录相关网站及论坛网址(或如何查询到该网址的方法)。

2、找到编码拟南芥(arabidopsis)phyA(光敏色素A)蛋白的核酸序列编号。

并记录查找过程。

3、使用pubmed检查关键词phyA,记录检索出的条目数目。

实验二核酸及蛋白质序列的比对

一、实验内容

利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。

二、实验步骤

1、键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白

质序列。利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);oat(燕麦);potato (马铃薯);arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。

2、在数字基因网https://www.360docs.net/doc/336787878.html,/找到dnaman及clustalx软件安装并进

行多序列比对及分子进化树分析。

3、利用ebi上提供多序列比对工具再作一次比对https://www.360docs.net/doc/336787878.html,/clustalw/。

4、选作核酸序列的比对。

5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide

三、作业

1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。

2、根据你所学生物分类的知识,试解释该分子进化树的合理性。

3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。

实验三核酸序列分析(一)

一、实验内容

1、使用DNAMAN进行核酸基本信息分析

2、利用Internet中的资源对测序的核酸序列进行载体序列的识别与去除

3、核酸序列的电子延伸及电子表达谱分析

二、实验步骤

1、打开DNAMAN→新建文件→将phyA(NM_100828)的核酸序列复制到新建

文件中→全选该序列→点击载入序列图标→点击“序列”菜单选择“显示序列”分析phyA核酸序列的基本信息。

2、登陆NCBI→点击BLAST→选择special中的Screen for vector contamination

(VecScreen) →点击网页左侧的VecScreen下的Example查看结果。自己任意提交一段核酸序列进行实验。

3、利用blastn程序,将phyA(NM_100828)的核酸序列复制到SEARCH中(注

意是FASTA格式)→选择数据库“EST”进行序列同源性检索。选择同源性比分最高的一条EST序列,点击右边的字母“U”得到相应的UniGene编号,点击该编号的链接在其中①记录cDNA sources字段中的单词,即作电子表达谱分析。②将参与形成UniGene Cluster的所有核酸序列下载到本地,利用DNAMAN软件进行组装,形成较长的新生序列。

三、作业

1、记录拟南芥phyA序列的序列组成

2、在VecScreen数据库中现有多少条载体序列的记录?

3、记录拟南芥phyA序列的电子表达谱分析结果和参与形成UniGene Cluster的

EST序列的条目数目。

实验四核酸序列分析(二)

一、实验内容

1、ORF分析

2、PCR引物设计

3、利用sequin软件练习序列提交

4、核酸序列的电子基因定位

二、实验步骤

1、登陆NCBI→选择ORF Finder→输入待分析序列(拟南芥phyA)的Accession

号(NM_100828)或序列进行分析。

2、以拟南芥phyA序列为模板,利用“Premier 5”软件进行PCR引物设计,对

照所学知识对引物进行分析。

3、操作sequin软件练习提交拟南芥phyA序列(选作)。

4、直接利用基因组序列定位A、将待分析序列(phyA)进行对基因组(plants

链接中的arabidopsis)数据库的同源性检索(可以直接输入NM_100828即可)。

B、得到确定基因组序列后点击“Genome View”观察其基因组结构。

C、点击

用红色标记所指示的染色体列表中选择所对应的染色体及区域。

三、作业

1、记录拟南芥phyA序列最长的ORF的起止区间。

2、记录得分最高的一对引物的碱基组成。

3、通过核酸序列的电子基因定位,phyA基因位于拟南芥的那条染色体上?

实验五未知蛋白质序列的功能预测

一、实验内容

已知一段蛋白质序列MEILCEDNTSLSSIPNSLMQVDGDSGLYRNDFNSRDANSSDASNWTIDGEN RTNLSFEGYLPPTCLSILHLQEKNWSALLTAVVIILTIAGNILVIMAVSLEKKL QNATNYFLMSLAIADMLLGFLVMPVSMLTILYGYRWPLPSKLCAVWIYLDVL FSTASIMHLCAISLDRYVAIQNPIHHSRFNSRTKAFLKIIAVWTISVGVSMPIPV FGLQDDSKVFKQGSCLLADDNFVLIGSFVAFFIPLTIMVITYFLTIKSLQKEAT LCVSDLSTRAKLASFSFLPQSSLSSEKLFQRSIHREPGSYTGRRTMQSISN EQKACKVLGIVFFLFVVMWCPFFITNIMAVICKESCNEHVIGALLNVFVWIGY LSSAVNPLVYTLFNKTYRSAFSRYIQCQYKENRKPLQLILVNTIPALAYKSSQ LQAGQNKDSKEDAEPTDNDCSMVTLGKQQSEETCTDNINTVNEKVSCV

请对其功能进行预测:

1、检查其基本属性及跨膜螺旋。

2、利用BLASTp程序检索高同源序列。并比较结果。

二、实验步骤

1、利用DNAman软件进行跨膜螺旋分析。

2、浏览SWISSPROT网站并利用PROSITE数据库对该蛋白质的功能进行预测。

三、作业

1、该蛋白有无跨膜螺旋?

2、根据你的检索结果该蛋白的可能功能是什么?

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

BioEdit实验报告

生物信息学引论实验课报告(3) 一、实验目的与要求 1、熟悉使用BioEdit软件基于核酸序列比对分析的真核基因结构分析; 2、熟悉使用BioEdit软件进行核酸序列的点突变定位; 二、实验内容 (一)使用BioEdit软件进行序列分析(选取一种数据); (二) 1. 人瘦素(leptin) 基因编码区点突变408 A→C的定位:打开BioEdit软件→将人瘦素(leptin) mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击Sequence栏→选择Nucleic Acid→点击Find next O RF→从起始密码ATG的第一个碱基开始查找该基因编码区408(464,NM_000230)位碱基(A); 2. 人瘦素(leptin) 基因编码区点突变408 A→C的限制酶切点分析:再点击Sequence栏→选择Nucleic Acid→点击Restriction M ap→点击Generate Map按钮→找到该基因编码区408(464,NM_000230)位碱基后可见该位置有限制酶Hind III 的切点(AAGCTT);(提示:如发生408 A→C突变,则该酶切点消失); 3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计:调用Internet浏览器并在其地址栏输入primer3网址(https://www.360docs.net/doc/336787878.html,/cgi-bin/primer/primer3.cgi)→用复制/粘贴方式将人瘦素(leptin) mRNA(NM_000230)的FASTA格式序列输入分析框→在targets框填入464,1→选择Product Size (~300 bp)和Primer Tm (~58.0) →点击Pick Primesr按钮→从显示的五队引物中选择合适的引物; 4. 人瘦素(leptin) mRNA定量的引物设计:方法同“3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计”,但在targets框将突变点位置改为外显子交会点位置,另外Product Size 一般选择~150 bp。

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.360docs.net/doc/336787878.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学大实验_实验指导

实验1基因组序列组装(软件CAP3的使用) 一、实验目的 1.了解基因组测序原理和主要策略; 2.掌握CAP3序列组装软件的使用方法。 二、实验原理 基因组测序常用的两种策略是克隆法(clone-based strategy)和全基因组鸟枪法(whole genome shotgun method)。克隆法先将基因组DNA打成大的片段,连到载体上,构建DNA文库;再对每一个大片段(克隆)打碎测序。序列组装时先组装成克隆,再组装成染色体。克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。 全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱,采用最经济有效的实验设计方案,直接将整个基因组打成不同大小的DNA片段构建Shotgun文库,再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。最后运用生物信息学方法将测序片段拼接成全基因组序列。该方法具有高通量、低成本优势。 序列组装时,先把把单条序列(read)组装成叠连群(contig)、再把叠连群组装成“支架”(scaffold),最后组装成染色体。 本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。 1.CAP3序列组装程序简介 Huang Xiaoqiu. 和 Madan,A. 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征: 1. 应用正反向信息更正拼接错误、连接contigs。 2. 在序列拼接中应用 reads 的质量信息。 3. 自动截去 reads5`端、3`端的低质量区。 4. 产生 Consed 程序可读的ace 格式拼接结果文件。 5. CAP3 能用于Staden软件包的中的GAP4 软件。 2.下载 此软件可以免费下载,下载地址:http://https://www.360docs.net/doc/336787878.html,/download.html。填写基本信息表格,即可下载。CAP3 详细参考文档可见:http://https://www.360docs.net/doc/336787878.html,/sas.html。 3.安装 (1)上传cap3 的压缩包到本地linux/unix 运算服务器; (2)解压缩: bash-2.05b$ tar xvf cap3.tar CAP3/ CAP3/README CAP3/cap3

生物信息学专业实习总结范文

《浙江大学优秀实习总结汇编》 生物信息学岗位工作实习期总结 转眼之间,两个月的实习期即将结束,回顾这两个月的实习工作,感触很深,收获颇丰。这两个月,在领导和同事们的悉心关怀和指导下,通过我自身的不懈努力,我学到了人生难得的工作经验和社会见识。我将从以下几个方面总结生物信息学岗位工作实习这段时间自己体会和心得: 一、努力学习,理论结合实践,不断提高自身工作能力。 在生物信息学岗位工作的实习过程中,我始终把学习作为获得新知识、掌握方法、提高能力、解决问题的一条重要途径和方法,切实做到用理论武装头脑、指导实践、推动工作。思想上积极进取,积极的把自己现有的知识用于社会实践中,在实践中也才能检验知识的有用性。在这两个月的实习工作中给我最大的感触就是:我们在学校学到了很多的理论知识,但很少用于社会实践中,这样理论和实践就大大的脱节了,以至于在以后的学习和生活中找不到方向,无法学以致用。同时,在工作中不断的学习也是弥补自己的不足的有效方式。信息时代,瞬息万变,社会在变化,人也在变化,所以你一天不学习,你就会落伍。通过这两个月的实习,并结合生物信息学岗位工作的实际情况,认真学习的生物信息学岗位工作各项政策制度、管理制度和工作条例,使工作中的困难有了最有力地解决武器。通过这些工作条例的学习使我进一步加深了对各项工作的理解,可以求真务实的开展各项工作。 二、围绕工作,突出重点,尽心尽力履行职责。 在生物信息学岗位工作中我都本着认真负责的态度去对待每项工作。虽然开始由于经验不足和认识不够,觉得在生物信息学岗位工作中找不到事情做,不能得到锻炼的目的,但我迅速从自身出发寻找原因,和同事交流,认识到自己的不足,以至于迅速的转变自己的角色和工作定位。为使自己尽快熟悉工作,进入角色,我一方面抓紧时间查看相关资料,熟悉自己的工作职责,另一方面我虚心向领导、同事请教使自己对生物信息学岗位工作的情况有了一个比较系统、全面的认知和了解。根据生物信息学岗位工作的实际情况,结合自身的优势,把握工作

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学实验指导讲解

生物信息学实验指导 适用专业:生物技术与制药大类 生物技术 编写:解增言 生物信息学院 2014年9月

目录 实验1 在线BLAST同源序列查询 (3) 实验2 本地BLAST同源序列查询 (8) 实验3 利用ClustalX与MEGA进行多序列比对与分子系统发生树构建 (10) 实验4 利用RNAfold预测RNA二级结构 (14) 实验5 Pfam蛋白质结构域分析 (17) 实验6 利用PSSpred预测蛋白质二级结构 (19) 实验7 利用Cn3D和RasMol分析蛋白质三级结构 (21) 实验8 利用GO及EST数据分析基因功能 (24)

实验1 在线BLAST同源序列查询 一、实验目的 1.了解同源序列查询的原理和用途; 2.掌握利用NCBI在线BLAST工具查找同源序列的方法。 二、实验原理 在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(homologous)。分子生物学中的同源指两条序列来自于一条共同的祖先序列。一般来说,相似超过一定程度的序列具有同源性。在生物信息学研究中,常用序列比对(alignment)来研究序列的同源性以及推测物种之间的关系。 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域或位点,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。 比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。 序列两两比对 序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。 早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了 Smith-Waterman算法和SIM算法。在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。

生物信息学分析

4、生物信息学分析 通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%,以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行,即完全匹配的1020bp长度序列(本次提取基因中包含上下游引物等序列,较长,1346bp)。 4.1基本信息 表1 基因基本信息 4.2基因组信息 表2 基因组信息

5、PLN02341(PfkB型碳水化合物激酶家族蛋白),位点208-294 6、PTZ0029(核糖激酶),位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点 图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析 预测结果显示,PfkB蛋白的二级结构中β转角占46.61%,α螺旋占33.63%,β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明:蛋白长度339aa,预测跨膜蛋白数0。 图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽,由此推断此蛋白不包含信号肽,不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析 分析结果显示,蛋白最大疏水指数为2.411,最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析 表3 基因同源性分析 菌株序列覆盖 率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

生物信息学实验指导书_新版本

生物信息学 实验指导书 重庆邮电大学

生物信息学实验指导书生物信息教学部谭军编 重庆邮电大学生物信息学院

前言 生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。

实验一熟悉生物信息学网站及其数据的 生物学意义 实验目的: 培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。 实验内容: 1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描 述网站特征; 2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义; 3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。 实验报告: 1.各网站网址及特征描述; 2.代表性数据的下载和生物学意义的描述; 3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学 研究所利用。 参考书目: 《生物信息学概论》罗静初等译,北京大学出版社, 2002; 《生物信息学手册》郝柏林等著,上海科技出版社, 2004; 《生物信息学实验指导》胡松年等著,浙江大学出版社, 2003。

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学复习题及答案

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。

生物信息学分析实验报告

1、分别写出2010年以来,国际上与Ovarian cancer、Breast cancer、Leukemia相关的文献有多少篇?写出3篇研究性论文标题和摘要,写出5篇综述性论文标题和摘要; 数据库:科学引文索引数据库(SCI:Science Citation Index) https://www.360docs.net/doc/336787878.html, 与Ovarian cancer相关的文献有11,303篇 与Breast cancer相关的文献有56,209篇 与Leukemia相关的文献有32,912篇 综述性论文标题和摘要 1.Hemochromatosis and ovarian cancer 摘要:Evaluation of: Gannon PO, Medelci S, Le Page C et al. Impact of hemochromatosis gene (HFE) mutations on epithelial ovarian cancer risk and prognosis. Int. J. Cancer 128(10), 2326-2334 (2011). The frequency of two mutations (C282Y and D62H) of the hemochromatosis gene were investigated in women with ovarian cancer. A single allele mutation of the C282Y but not the H63D gene product was detected in 8-9% of women with benign ovarian tumors (n = 124) and ovarian cancers (n = 360) compared with 2.5% for controls (n = 80) representing a 4.9-fold increase in risk. With high-grade serous ovarian cancers (n = 179), the survival rate of women with a single allele C282Y mutation was reduced from 39 to 19 months. These results implicate mutations of the hemochromatosis gene in the generation and severity of ovarian cancers, which may have prognostic value. 2.Differences between women who pursued genetic testing for hereditary breast and ovarian cancer and their at-risk relatives who did not. 摘要: Purpose/Objectives: To (a) examine differences in appraisals of hereditary breast and ovarian cancer (HBOC), psychological distress, family environment, and decisional conflict between women who pursued genetic testing and their at-risk relatives who did not, and (b) examine correlations among appraisals of HBOC, psychological distress, family environment, and decisional conflict regarding genetic testing in these two cohorts of women.Design: Descriptive, cross-sectional cohort study.Setting: Two clinics affiliated with a major research university in the midwestern United States.Sample: 372 women aged 18 years and older. 200 pursued genetic testing for BRCA1 and BRCA2 mutations (probands) and 172 of their female relatives who had a greater than 10% prior probability of being a mutation carrier but had not pursued testing.Methods: After providing informed consent, probands and relatives were mailed self-administered questionnaires.Main Research Variables: Perceived risk, knowledge of HBOC risk factors and modes of gene inheritance, perceived severity, perceived controllability, psychological distress, family relationships, family communication, and decisional conflict about genetic testing.Findings: T tests revealed that probands perceived higher risk and had more psychological distress associated with breast cancer. Probands had more knowledge regarding risk factors and gene inheritance, and greater decisional conflict regarding genetic testing. Relatives reported higher perceived severity and controllability. No differences were observed in family relationships and family communication between probands

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

相关文档
最新文档