北邮生物信息基础大作业
生物信息学课后习题

绪论1、生物信息学的概念及其组成部分生物信息学(Bioinformatics):是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。
生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库(primary database):数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。
例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库(secondary database):在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。
例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核糖核苷酸(ddNTP)延伸的特性,通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段,然后通过聚丙烯酰胺凝胶电泳(PAGE)分离并通过扫描仪读取序列(300-800bp)②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段,然后对这些片段分别测序,测完后再将这些片段拼接起来—鸟枪法(shortgun)③一次性测序例如:表达序列标签(EST)是其中的代表,它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段,代表cDNA的一部分。
生物信息学作业(一)

生物信息学实验作业一1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。
答:(1)、NCBI: (National Center of Biotechnology Information,简称NCBI)美国国立生物技术信息中心。
其主页为:。
NCBI 是在NIH的国立医学图书馆(NLM)的一个分支。
NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。
NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。
他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。
这些问题包括基因的组织,序列的分析,和结构的预测。
在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。
NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。
同美国专利和商标局的安排使得专利的序列信息也被整合。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。
BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW 或FTP来获得。
NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
主要任务:(1)建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统(2)实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究(3)加速生物技术研究者和医药治疗人员对数据库和软件的使用。
生物信息学习题(2010-7)

生物信息学练习题(2009-2010学年第2学期)姓名:性别:班级:学号:说明:(1)此作业主要是让大家熟悉一下生物信息学的基本知识点,并真正练习一下生物信息软件的使用。
(2)此作业将作为我们的成绩,不交者将没有成绩,请认真对待;(3)作业统一用A4纸打印,并装订;(4)在7月10日前,各班学委收起后,交到新生化大楼C615房间;(5)如有问题可与我联系,一.问答题:1. 当今世界上主要的三大生物数据库是指哪些数据库?答:当今世界上主要的三大生物数据库是美国国家生物技术信息中心NCBI(National Center for Biotechnology Information),EBI(European Bioinformatics Institute)欧洲生物信息研究所,DDBJ(DNA Data Bank of Japan)日本核酸数据库2. 人类基因组计划的完成将绘制出“四张图“,请问这四张图是指哪些图?答:人类基因组计划的完成将绘制出“四张图“是指:1遗传图谱,又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组。
2物理图谱,是以一段已知核酸序列的片段STS序列为路标,以碱基对数目的多少为图距来表示两个遗传标记之间的物理距离[基本单位是Mb、kb、bp]的图谱。
3序列图谱,是分别将各染色体全部碱基序列绘制的图谱。
包括转录序列和非转录序列。
4转录图谱谱也叫基因表达图谱,以表达序列标签(expressed sequence tag , EST )为位标,反映基因在不同条件下的表达情况的图谱。
3. 生物信息学的定义有狭义与广义之分,请问狭义的生物信息学定义是什么?答:目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。
生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。
生物信息学习题集

生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程,初步了解不同的数据库和分析工具/2can/Education二、生物数据库1. 熟悉各种数据库。
2. 重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。
三、关键词或词组为基础的数据库检索1. 熟练掌握Entrez检索体系。
2. 查找与水稻抗病基因Xa21有关的资料(1) 由多少碱基构成?编码多少个氨基酸?(2) exon和intron的位置?(3) 是否有3-D structure数据?1) 由多少碱基构成?编码多少个氨基酸?4623b.p., 1025A.a.;2) exon和intron的位置?Exon: 24~2700,3543~3943 intron: remaining;3) 是否有3-D structure数据?没有.3. 查找C. elegans基因组的资料。
(1) chromosome I的测序是否已完成?(2) 已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码?1) chromosome I的测序是否已完成?完成.2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35.4. 查看人类基因组第1染色体上基因的分布。
/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=15. 查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。
比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(/Taxonomy/Browser/wwwtax.cgi?id=3701,/mapview/maps.cgi?taxid=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。
生物信息学作业1.doc

生物信息学实验作业试验一一.找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号, 并记录查找过程。
GI:224576211步骤1.进入NCBI主页2.搜索arabidopsis phyA3.Arabidopsis thaliana phytochrome A (PHYA) gene, partial cds4.VERSION:GI:224576211二.以phyA为检索词,在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。
Results: 614三.仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释,理解各字段的含义,并比较NCBI 与EMBL中序列格式的异同。
实验二一.分析你感兴趣核酸序列的分子质量、碱基组成。
Composition 35 A; 25 C; 35 G; 15 T; 0 OTHERPercentage: 32% A; 23% C; 32% G; 14% T; 0%OTHERMolecular Weight (kDa): ssDNA: 34.26 dsDNA: 67.8二.列出你所分析核酸序列(或部分序列)的互补序列、反向序列、反向互补序列、DNA双链序列和RNA 序列。
R S1 ACTACTCGAG AAGCAGCGAC AGAGGCGTTA GCCCGCTCAG CAGACTGGCA GTTCTCTACC61 GACAAAAAAG AGGTAGGAGG CACAGTAATG ATACAGGCGT AGCAGGAGGGC S1 CCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 TGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTR C S1 TGATGAGCTC TTCGTCGCTG TCTCCGCAAT CGGGCGAGTC GTCTGACCGT CAAGAGATGG61 CTGTTTTTTC TCCATCCTCC GTGTCATTAC TATGTCCGCA TCGTCCTCCCD DNA S1 GGGAGGACGA TGCGGACATA GTAATGACAC GGAGGATGGA GAAAAAACAG CCATCTCTTGCCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 ACGGTCAGAC GACTCGCCCG ATTGCGGAGA CAGCGACGAA GAGCTCATCATGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTRNA S1 GGGAGGACGA UGCGGACAUA GUAAUGACAC GGAGGAUGGA GAAAAAACAG CCAUCUCUUG61 ACGGUCAGAC GACUCGCCCG AUUGCGGAGA CAGCGACGAA GAGCUCAUCA三.列出核酸序列的限制性酶切位点分析结果(酶及识别位点)。
生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵,用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵,用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有 、
、、
和
等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小?
5、对于下列 5 条序列的比对构造一个距离矩阵,其中序列之间的距离值为比对中失配的碱
基数目,但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC
生物信息学作业题

生物信息学作业题生物信息学作业题绪论1.什么是生物信息学?2.生物信息学有哪些主要研究领域?第一章生物信息学的分子生物学基础1.DNA的双螺旋结构要点是什么?2.什么是基因组和蛋白质组?对它们的研究有何意义?第二章生物信息学的计算机基础1.简述网络操作系统的类型。
第三章核酸序列分析1.什么是全局比对?2.什么是局部比对?有哪些优点?第四章分子进化分析1.分子进化分析具有哪些优点?2. 简述分子进化的中性学说。
第五章基因组分析1. 什么是基因组学?其主要研究内容是什么?2.简述基因预测分析的一般步骤。
第六章蛋白质组分析1. 蛋白质组学的概念和主要研究的大致方向是什么?2. 蛋白质组功能预测的程序是怎样的?第七章生物芯片数据分析1. 什么是生物芯片?2. 生物芯片有哪些方面的应用?第八章核酸与蛋白质结构预测1. RNA二级结构典型的预测方法有哪些?2. 基于统计学的预测蛋白质二级结构的方法有哪些?第九章生物信息学平台与工具软件1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。
>1mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>2mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl>3mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>4mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl>5mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk>6mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们把原始数据集按这些方向投影,得到的就是降维后的观测向量。选择较少的主成分来表示数据,不但可以用作特征的降维,还可以用来消除特征中的噪声。
4、Fisher线性判别分析
Fisher线性判别分析的基本思想是:将所有的样本投影到一个方向上,然后在这个一维空间确定一个阈值。选择最优的投影方向应该使得各个样本点的类内方差最小,类间方差最大。我们定义类内离散度矩阵 ,类间离散度矩阵 ,投影向量 ,准则的目标函数为:
gi|2073112|dbj|AB003356.1| GGGTGTGGTCCTGCGAAGGCTGCAAGGCCTTCTTCA---AGAGGAGCA-- 893
gi|145308317|gb|EF530592.1| GGGTGTGGTCATGCGAGGGGTGCAAGGCTTTCTTCA---AACGAAGCA-- 55
5、最小错误率贝叶斯决策
最小错误率贝叶斯决策的决策规则为:
如果 > ,则x ,否则x 。
其中,后验概率可以使用贝叶斯公式求得:
但是,将一个疑似患者判为病毒携带者和排除其患病可能性,其代价(损失)是不一样的。对此,我认为可以采用最小风险的贝叶斯决策。这种决策方法中,决策表是需要人为确定的,需要认真分析研究问题的内在特点和分类目的,与疾病防控领域的专家共同决策,设计出适当的决策表。
>gi|61097789|dbj|AB190290.1|RutilusrutilusERbmRNA for estrogen receptor beta, completecds
我们利用ClustalW2网站,对以上7条序列作了在线多序列比对,比对的结果如下(篇幅所限,这里只给出节选):
gi|30962102|emb|AJ314602.1| CTGCCCGCC--TCAAGTGGCCTACAGC-GAAACACACTCACACACTGCCT 429
gi|89037528|ref|NW_925528.1| AAAAAT--TCCTG-GAAAAC--CCAGACTTATCTCAGACAGAGGAGAAAC 662
gi|30962102|emb|AJ314602.1| CCTGAGAGAGCCAGTGAAGAAGCCAT-ACACG-GAGGC-CAGCATGATGA 1059
下面给出星形比对的基本过程:
1.选择核心序列
2.计算与核心序列的两两比对
3.逐对聚合两两比对的结果,获得多重比对
选定一个核心序列,把多重比对转化为k个两两比对聚集过程。从某一个两两比对开始,比如sc和s1,然后逐步加上其他的两两比对。在这个过程中,逐步增加sc中的空位字符,以适应其他的比对,但不删除sc中已经存在的空位字符。
由于整条序列做多序列比对,可能时间复杂度较大,最后得到的变异位点信息也和我们想要的相差较大。我们可以选择和病毒的致病能力密切相关的几个基因,作为多序列分析的原材料。
2、求解流程
3、多序列比对
下面简要介绍多序列比对的实现方法。由于病毒的DNA序列较长,我们采取星形比对的方案。
星形比对的基本思想是:在给定的若干序列中,选择一个核心序列,通过该序列与其它序列的两两比对,形成所有序列的多重比对,从而使得该多重比对在核心序列和任何一个其它序列方向的投影是最优的两两比对。
gi|61097789|dbj|AB190290.1| CTGCCCACC--TCCGCTGGCCTACAGC-GAAACATTCTCACACACTGCCT 376
gi|23466358|gb|AF349413.3| CTGCCCGCC--TCCGCTGGCCTACAGC-GAAACACGTTCACACAGCGCCT 433
gi|61097789|dbj|AB190290.1| CCTGAAAGAGCCAGTGAAAAAGCCGT-ACACT-GAGGC-CAGCATGATGA 1006
gi|23466358|gb|AF349413.3| CCTGAGAGAGCCGGTGAAAAAGCCAT-ACACT-GAGGC-TAGCATGATGA 1063
gi|145308317|gb|EF530592.1| --------------------------------------------------
gi|89037528|ref|NW_925528.1| TAGATAACAAGTCCGGTTTCCTGCAGAAGAGGCCTCATCGCCAGCACCCT 433
FASTA格式的各个序列头标记:
>gi|145308317|gb|EF530592.1|Paramisgurnusdabryanusestrogen receptor beta mRNA, partialcds
>gi|23466358|gb|AF349413.3|Daniorerioestrogen receptor beta b mRNA, completecds
一、疾病自动诊断问题
1、题目分析
根据题目要求,我们需要设计一套计算机自动筛选方案,目的是通过EBOV-10得到的十项指标,将疑似患者中的埃博拉病毒可能携带者筛选出来。目前,我们已有的训练集是经过专家筛选后的100例疑似患者的十项指标。其中,20位为埃博拉病毒可能携带者,80位已被排除患病可能性。
综上所述,我认为该问题为一个监督下的模式分类问题,两个分类指标为“埃博拉病毒可能携带者”、“非埃博拉病毒可能携带者”,观测向量为经过EBOV-10得到的疑似患者的十项指标:
gi|32186925|gb|AY305027.1| CCTCATGGAGGAGCAGAAGAAGCCTT-TTACC-GAGGC-CAGCATGATGA 1174
gi|2073112|dbj|AB003356.1| CCTCATGAAGGAGCTGAAGAAGCCCT-TCACC-GAGGA-CAGCATGATGA 1268
gi|145308317|gb|EF530592.1| CCTGAAAGAGCAGGTGCAGAAGCCGT-ACACT-GAGGC-CAGCATGATGA 457
gi|89037528|ref|NW_925528.1| TTTCAGACAGTTTCT-----ACCTGTATCACCCAAGGTGCAGTTTGATGT 1056
矩阵更新策略:
4、寻找变异位点
需要的序列经过了比对,已经对齐。我们可以定义一个阈值 ,当碱基序列中连续出现的变异碱基个数超过了这个阈值后,我们即可认定这个序列是变异序列,与原序列的差异较大。阈值的选择要与疾病防控领域的专家一起协定,这样才能够准确的发现基因出现的变异情况。
5、可靠性检验
下面,我们对上述方法作了可靠性的检验:
由于我们缺乏埃博拉病毒的必须DNA数据,所以我们选择了来自其他生物的7组DNA数据对上述多序列比对的方案作了验证。这七组DNA分别是:大鳞泥鳅雌激素受体βmRNA,斑马鱼雌激素β受体BmRNA,海猪鱼雌激素受体βmRNA,鳗鲡雌激素受体mRNA,人类14号染色体部分片段,须鱲雌激素受体βmRNA,拟鲤ERB基因雌激素受体mRNA。(注:以上七条数据来自Nucleotide数据库)
2、建模流程
信息获取与预处理部分,在之前的EBOV-10检查中已经较为详细的给出,这一步不再设计;特征选择与提取部分,我计划使用主成分分析方法,通过对十项标准进行线性组合,可以得到更能够体现类间信息的新的一组观测向量;分类器设计采用Fisher线性判别分析+最小错误率贝叶斯决策的方法。
3、主成分分析
选择核心序列的方法为:尝试将每一个序列分别作为核心序列,进行星形多重序列比对,取比对结果最好的一个。
在上面提到的星形比对中,最基本的核心是两两比对,我们使用的两两比对的方法为:全局最优序列比对的动态规划求解算法。
给出求解过程:
1初始化DP辅助矩阵
2根据状态转移方程递归计算DP辅助矩阵A
3确定最优路径,即对应于最优比对
选择一阶马氏链碱基排序的原因有二:一是实验的样本太少,我考虑了对于氨基酸密码子做转移概率矩阵,但是计算得到的矩阵很多都是0元素,这对最终的计算结果影响很大,我也尝试了二阶和更高阶次的马氏链,同样由于训练样本太少,转移概率中概率为0的点太多,故不采纳高阶方案;二是在题目中,明确给出了该病毒RNA具有特定的排列顺序的条件,所以不对密码子做转移概率计算。
gi|32186925|gb|AY305027.1| CTGCCCACA--GCCTCTGGGCTACAAT-GAATCCGGCTTACACGCACCCT 526
gi|2073112|dbj|AB003356.1| CTTCCAGCA--GCCCCTGGTGTACAGA-GAGCCCGCC---CACTCCCCGT 677
这是一个约束条件下的极值问题,我们可以利用拉格朗日乘子法求解。拉格朗日函数:
上式在极值点处,应该满足对w的偏导数等于零。可以解得:
式中, 为Fisher线性判别准则下的最优投影方向。 为两类的类均值向量。
由于Fisher线性判别分析不对样本的分布做任何假设,当样本维数较高样本数也较多的时候,投影到一维空间后样本接近正态分布。这时可以在一维空间中使用正态分布拟合样本,再使用上面提到的最小错误率贝叶斯决策,往往会有很好的效果。
具体的决策步骤:
(1)利用贝叶斯公式计算后验概率
(2)利用决策表,计算条件风险
(3)决策:在各种决策中选择风险最小的决策,即
二、病毒变异与否的判断
1、问题分析
针对病毒变异与否的判断问题,我认为应该采样合适数目的埃博拉病毒DNA序列(可以是关键部分的基因),然后使用多序列比对的方案,将多条序列对齐,就可以方便的定位出序列中碱基对的差异位置,从而评估病毒是否发生了变异。
>gi|32186925|gb|AY305027.1|Halichoerestenuispinisestrogen receptor beta mRNA, completecds