基因序列分析的步骤和方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因序列分析的步骤和方法
拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium
Google图片搜索:Google Image Search
为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。-
序列分析的步骤:
首先查看科学论文数据库例如,PubMed
从基因数据库例如GenBank中下载序列文件
/DIST/docs/tutorial/examples/ls_orchid.fasta
/DIST/docs/tutorial/examples/ls_orchid.gbk
把序列信息转换成python可用的数据结构;
分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等
>>> from Bio import SeqIO
>>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
... print seq_record.id
... print repr(seq_record.seq)
... print len(seq_record)
......
Found 94 records The last record Z78439.1
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATC
TGTTTACT...GCC', IUPACAmbiguousDNA()) 592 The first record
Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATG AGACCGTGG...CGC', IUPACAmbiguousDNA()) 740
python2.7有至少四个目录作为新软件包的安装目录,标准库都放在第一个目录里;自己编译的通常放在第二个、第三个目录里;第三方软件放在第四个目录里:
1./usr/lib/dist-packages
2./usr/local/lib/dist-packages
3./usr/local/lib/site-packages
4./usr/lib/pymodules/python2.7