基因序列分析的步骤和方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因序列分析的步骤和方法

拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium

Google图片搜索:Google Image Search

为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。-

序列分析的步骤:

首先查看科学论文数据库例如,PubMed

从基因数据库例如GenBank中下载序列文件

/DIST/docs/tutorial/examples/ls_orchid.fasta

/DIST/docs/tutorial/examples/ls_orchid.gbk

把序列信息转换成python可用的数据结构;

分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等

>>> from Bio import SeqIO

>>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):

... print seq_record.id

... print repr(seq_record.seq)

... print len(seq_record)

......

Found 94 records The last record Z78439.1

Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATC

TGTTTACT...GCC', IUPACAmbiguousDNA()) 592 The first record

Z78533.1

Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATG AGACCGTGG...CGC', IUPACAmbiguousDNA()) 740

python2.7有至少四个目录作为新软件包的安装目录,标准库都放在第一个目录里;自己编译的通常放在第二个、第三个目录里;第三方软件放在第四个目录里:

1./usr/lib/dist-packages

2./usr/local/lib/dist-packages

3./usr/local/lib/site-packages

4./usr/lib/pymodules/python2.7

相关文档
最新文档