生物信息学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对漆酶进行物信息学相关分析
生物信息学是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。
生物信息学的主要研究对象是序列,即一维的分子排列顺序所分析,包括DNA分子碱基序列和编码蛋白质的氨基酸序列。DNA序列分析的主要任务是基因识别和发现某些功能区(如启动子、增强子等),DNA序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂DNA序列。蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码”。
在这篇论文中,通过生物信息学的各种软件和手段分析漆酶核酸性质,及蛋白质结构等信息,从而展示我对生物信息学的认知和运用。
本论文的LapA基因是本人从实验室铜绿假单胞菌593中克隆得到,并向NCBI中的GenBank提交序列得到序列登录号.在这篇论文中,我主要对第一个基因LapA(KJ841924)进行一系列生物信息学分析,由于个人学习有限,所用方法不多。
一.核酸序列的基本分析
1.运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。
SEQ LapA正确.seq: 960 bp;
Composition 181 A; 370 C; 246 G; 163 T; 0 OTHER
Percentage: 18.9% A; 38.5% C; 25.6% G; 17.0% T; 0.0%OTHER
Molecular Weight (kDa): ssDNA: 294.07 dsDNA: 591.98
COLOURS
sequence = 1
features = 0
核酸序列:ORIGIN
1 ATGTTCAAGC GCTCTCTGAT CGCTGCCTCG CTGAGCGTGG CCGCCCTCGT ATCCGCCCAA
61 GCCATGGCCG TCACCGGCGG TGGCGCTTCC CTGCCGGCCG AGCTGTACAA AGGCTCCGCC
121 GACAGCATCC TGCCGGCCAA CTTCAGCTAT GCCGTGACCG GCAGCGGCAC CGGCAAGAAC
181 GCTTTCCTGA CCAACAACTC CTCGCTGTTC GGCACCACCG GTACCGTTCA CTATGCCGGT
241 AGCGACTCGG TCCTCAGCGG TAGCGAACTG ACCACCTACA ACAGCAACTA CAACGGCACC
301 TACGGTCCGC TGATCCAGAT CCCGTCGGTA GCCACCTCGG TCACCGTGCC CTATCGCAAG
361 GACGGCAACA CCACGCTCAA CCTGACCAGC GCCCAACTCT GCGACGCCTT CTCCGGCGCC
421 AAGACCACCT GGGGTCAACT GCTGGGCACC ACCGACAGCA CGCCGATCCG CATCGTCTAT
481 CGCACCGGTA GCAGCGGCAC CACCGAACTG TTCACCCGCC ACCTGAACTC GATCTGCCCG
541 ACTCGCTTCG CCACCAACTC GACCTTTACC AACGCCCGTC TGCCGGCCGG CGGTACGTTG
601 CCGAGCAACT GGGTTGGCGT CGCCGCCACT TCCACCGTGG TGTCGACCGT CAAGGCAACC
661 AACGGCTCCC TCGGCTATGT CAGCCCGGAT GCGGTGAACA TCAACAGCAA CGCCGAGGTT
721 TCCCGTGTGA ACGGCAACCT GCCGACCCAG GCTAACGTTT CCACTGCCCT GGGCAGCGTG
781 GCTCCGCCGG CCAACGCCGC CGACCGTGCG GACCCCAGCA AGTGGGTTCC GGTGTTCACC
841 AATCCGAGCG CCGGCTACTC CATCGTCGGT TACACCAACT TCGTCTTCGG CCAGTGCTAC
901 AAGGACGCCA GCGTTTCCAC CGACGTCCGC GCCTTCATCA ACAAGCACTA CGGTGGCACT //
2.开放性阅读框(ORF)分析
利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下:
/projects/gorf/orfig.cgi
参数选择:Genetic Codes:1 Standard
5'3' Frame 1
Met F K R S L I A A S L S V A A L V S A Q A Met A V T G G G A S L P A E L Y K G S A D S I L P A N F S Y A V T G S G T G K N A F L T N N S S L F G T T G T V H Y A G S D S V L S G S E L T T Y N S N Y N G T Y G P L I Q I P S V A T S V T V P Y R K D G N T T L N L T S A Q L C D A F S G A K T T W G Q L L G T T D S T P I R I V Y R T G S S G T T E L F T R H L N S I C P T R F A T N S T F T N A R L P A G G T L P S N W V G V A A T S T V V S T V K A T N G S L G Y V S P D A V N I N S N A E V S R V N G N L P T Q A N V S T A L G S V A P P A N A A D R A D P S K W V P V F T N P S A G Y S I V G Y T N F V F G Q C Y K D A S V S T D V R A F I N K H Y G G T
4.对蛋白质序列的结构功能域分析
运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对manORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。[12]
网址如下: