DNA
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2000网易杯全国大学生数学建模竞赛题目
A题 DNA序列分类
2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
1)下面有20个已知类别的人工制造的序列(见反面),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):
A类; B类。
请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。
这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:
网易网址:教育频道在线试题;
教育网: News mcm2000
教育网: /mcm
2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。
提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。
Art-model-data
1.ag gca cgg aaa aac ggg aat aac gga gga gga ctt ggc acg gca tta cac gga gga cgag gta aag gag gct tgt cta cgg ccg gaa gtg aag ggg gat atg acc gct tgg
2.cg gag gac aaa cgg gat ggc ggt att gga ggt ggc gga ctg ttc ggg gaa tta ttc ggtt taa acg gga caa gga agg cgg ctg gaa caa ccg gac ggt ggc agc aaa gga
3.gg gac gga tac gga ttc tgg cca cgg acg gaa agg agg aca cgg cgg aca tac acg gcgg caa cgg acg gaa cgg agg aag gag ggc ggc aat cgg tac gga ggc ggc gga
4.at gga taa cgg aaa caa acc aga caa act tcg gta gaa ata cag aag ctt aga tgc atat gtt ttt taa ata aaa ttt gta tta tta tgg tat cat aaa aaa agg ttg cga
5.cg gct ggc gga caa cgg act ggc gga ttc caa aaa cgg agg agg cgg acg gag gct acac cac cgt ttc ggc gga aag gcg gag ggc tgg cag gag gct cat tac ggg gag
6.at gga aaa ttt tcg gaa agg cgg cag gca gga ggc aaa ggc gga aag gaa gga aac ggcg gat att tcg gaa gtg gat att agg agg gcg gaa taa agg aac ggc ggc aca
7.at ggg att att gaa tgg cgg agg aag atc cgg aat aaa ata tgg cgg aaa gaa ctt gttt tcg gaa atg gaa aaa gga cta gga atc ggc ggc agg aag gat atg gag gcg
8.at ggc cga tcg gct tag gct gga agg aac aaa tag gcg gaa tta agg aag gcg ttc tcgc ttt tcg aca agg agg cgg acc ata gga ggc gga tta gga acg gtt atg agg
9.at ggc gga aaa agg aaa tgt ttg gca tcg gcg ggc tcc ggc aac tgg agg ttc ggc catg gag gcg aaa atc gtg ggc ggc ggc agc gct ggc cgg agt ttg agg agc gcg
10.t ggc cgc gga ggg gcc cgt cgg gcg cgg att tct aca agg gct tcc tgt taa gga ggtg gca tcc agg cgt cgc acg ctc ggc gcg gca gga ggc acg cgg gaa aaa acg
11.g tta gat tta acg ttt ttt atg gaa ttt atg gaa tta taa att taa aaa ttt ata tttt tta ggt aag taa tcc aac gtt ttt att act ttt taa aat taa ata ttt att
12.g ttt aat tac ttt atc att taa ttt agg ttt taa ttt taa att taa ttt agg taa gatg aat ttg gtt ttt ttt aag gta gtt att taa tta tcg tta agg aaa gtt aaa
13.g tat tac agg cag acc tta ttt agg tta tta tta tta ttt gga ttt ttt ttt ttt tttt ttt taa gtt aac cga att att ttc ttt aaa gac gtt act taa tgt caa tgc
14.g tta gtc ttt ttt aga tta aat tat tag att atg cag ttt ttt tac ata aga aaa tttt ttt ttc gga gtt cat att cta atc tgt ctt tat taa atc tta gag ata tta
15.g tat tat att ttt tta ttt tta tta ttt tag aat ata att tga ggt atg tgt tta aaaa aaa ttt ttt ttt ttt ttt ttt ttt ttt ttt ttt taa aat tta taa att taa
16.g tta ttt tta aat tta att tta att tta aaa tac aaa att ttt act ttc taa aat tggt ctc tgg atc gat aat gta aac tta ttg aat cta tag aat tac att att gat
17.g tat gtc tat ttc acg gaa gaa tgc acc act ata tga ttt gaa att atc tat ggc taaa aac cct cag taa aat caa tcc cta aac cct taa aaa acg gcg gcc tat ccc
18.g tta att att tat tcc tta cgg gca att aat tat tta tta cgg ttt tat tta caa tttt ttt ttt ttg tcc tat aga gaa att act tac aaa acg tta ttt tac ata ctt
19.g tta cat tat tta tta tta tcc gtt atc gat aat ttt tta cct ctt ttt tcg ctg agtt ttt att ctt act ttt ttt ctt ctt tat ata gga tct cat tta ata tct taa
20.g tat tta act ctc ttt act ttt ttt ttc act ctc tac att ttc atc ttc taa aac tgtt tga ttt aaa ctt ttg ttt ctt taa gga ttt ttt tta ctt atc ctc tgt tat
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga
22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg
23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc
24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt
25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca
26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac
27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag
28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga
29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc
30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta
31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt
32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg
33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac
34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa
35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc
36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg
37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt
38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac
39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat
attagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt