全国大学生数学建模竞赛题选讲 [PDF]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其他较新颖的解决方案
(大连理工大学)深入地分析了序列问题的生
物来源, 又观察人工序列的数学结构和数值 试验结果, 在一些DNA 序列几何表达文献的 启发下, 提出了简捷的几何分类法, 得到了 出色的分类结果. (中国科技大学)研究了我国著名学者, 中科 院院士张春霆教授的Z 曲线方法 , 并简化用 于A 题分类,也取得好的结果. ……
立意
源于科学实际, 解法充分开放 A题将DNA结构的研究具体化为不同序列的
分类 由于”结构“的含义是广泛的, 担心学生因此 无从下手, 出题者在题目中特别举出三种结 构为例:
四种碱基的丰度 三字符串对蛋白质的编码 DNA序列的长程相关性
题目中有两套数据: 一套是人工构造的数据
2) 在同样网址的数据文件Nat-model-data 中给出了182个 自然DNA序列,它们都较长。用你的分类方法对它们进 行分类,像1) 一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分 类方法有许多途径,例如提取序列的某些特征,给出它们 的数学表示:几何空间或向量空间的元素等,然后再选择 或构造适合这种数学表示的分类方法;又例如构造概率统 计模型,然后用统计方法分类等。
背景
出题人: 北京工业大学 孟大志 2000年6月26日, “人类基因组计划”规定
的禁发时间(北京时间18:00)刚过, 新华社 、法新社、美联社、路透社……各国新闻 发布机构以第一条消息发布了人类基金组 草图绘就的重要消息。 作为解读基因组这一庞大计划的一个十分 重要而又基础的部分, 就是研究基因组的结 构, 而其中更基础的是DNA序列的结构.
作为研究DNA序列的结构的尝试,提出以下对序列集合进 行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中 序列标号1—10 为A类, 11-20为B类。请从中提取特征, 构 造分类方法, 并用这些已知类别的序列,衡量你的方法是否 足够好。然后用你认为满意的方法, 对另外20个未标明类 别的人工序列(标号21—40)进行分类, 把结果用序号(按从 小到大的顺序)标明它们的类别(无法分类的不写入): A类______________; B类_______________
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaa atttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga 22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtac gctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccg gattaaggtttagcttcccgggatttagggcccggatggctgggaccc 24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagc tagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccc cagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca (26~40略)
这些方法很容易想到,但不加修正的使用效果
不好 人工已知数据只有20个,均较短。而待分类的 自然序列有182个,而且长得多。从小样本中得 到的统计规律处理大样本时效果显然不佳。
用各种方法构造判别函数(包括神经网络方
法) 各种分类方法的综合使用
其他较新颖的解决方案
(中国科技大学)将序列看作信息流,注意到
这里“结构”这个词的含义十分广泛: 作为由
A、T、C、G四个字符组成的一个有序字符 串, 任何呈现规律性的特征都可以称为结构
局部结构(小尺度结构) 整体结构(大尺度结构)
这些结构的揭示将大大有助于人们对于基
因与基因组的解读. 在这一世界科学发展的大背景下, 2000年数 学建模比赛A题就取材于DNA结构的研究.
字母出现的特征是熵的改变。他们最终又将 设计好的几个模型形成综合判别的目标函数, 也得到好的分类效果。 (北京大学) 将DNA 字符串看作一篇文章, 而 利用了类似文本分类中的特征判别方法定义 关键词标准, 进而使用优选法, 找出关键词的 特征, 然后使用层次分类. 他们的方法精细, 尽管分类最终效果并不十分理想, 仍不失为 值得一读的好文章.
请详细描述你的方法,给出计算程序。如果你部分地使用 了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Artmodel-data 标识,供下载. (网址略)
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacgg aggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccg cttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattat tcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaa gga (3~10略) 11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttt taggtaagtaatccaacgtttttattactttttaaaattaaatatttatt 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatga atttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa (13~20略)
虽然人类对这部“天书”知之甚少, 但也发现了DNA 序列中的一些规律性和结构。例如, 在全序列中有一些是 用于编码蛋白质的序列片段, 即由这4个字符组成的64种 不同的3字符串, 其中大多数用于编码构成蛋白质的20种 氨基酸。又例如, 在不用于编码蛋白质的序列片段中, A和 T的含量特别多些, 于是以某些碱基特别丰富作为特征去 研究DNA序列的结构也取得了一些结果。此外, 利用统计 的方法还发现序列的某些片段之间具有相关性, 等等。这 些发现让人们相信, DNA序列中存在着局部的和全局性的 结构, 充分发掘序列的结构对理解DNA全序列是十分有意 义的。目前在这项研究中最普通的思想是省略序列的某 些细节, 突出特征, 然后将其表示成适当的数学对象。这 种被称为粗粒化和模型化的方法往往有助于研究规律性 和结构。
1)tgacctcttgtcctgtatagcaacctatttggtaatgattccagcactcacagaaaagcttgcaca
catacacacacaccccacccctccccactaacaaatgcaagttggtaaacaaattccaaaaaggc ataacaaaccttatatatatagacaaatatatattaaagttttttagtctgtactagaaagagcttca gacagaactgaccaccattccattgctcatcaatttcctgggacagcacctgagcgtgcgcttacgc gcgtacacacacatagacacgcactgcgatacaagtcctgatttgggagtccgtccttttaaaaac agccacatgctttcacgctctgagacccacccgtttctgtgagcagggggagggcaaggaaagcc ctggcctcagtccagccttttctctgcttccacctgctcaggctgtgtgctcttggttctgtcctgcactt gtgtgaattccaaaactgtttttttaaaaaatggcccgcaccccaaatgtctccctgccccatactttg caacaagagaaaactttaggatgcttctcttttgggtggcggaggttgttaacttcaagaatttaga agaatcattgctccgacaaatccactgtctcctgagttttctttattcatgttaacaaggcaagagtca gagaaaagggagacttggtctgcttcccacatgcagctgagcggaggggccgtcacagcacagg gtcacctgcagagctgaagccgctcctcaggctccccctccaagagggctggggcaaggtccctg ggctgaggcctcccaggggggcctgggcaaggcttccttgggttctggatcccccctgcaatgctg ccccatcctgcccccacccccacgtcattaaacacgatggagggtttttcggtcggttggttggttgg tgttctaaatcaaggaaaatggtccgactggaccccttgtctctctctctacagactgcttcacggac tctttgctgttgacgatctcctggtagcatgaccttttggcctttgttaagacacacagcctttctgtat caagccccctgtctaacctacgacccagagtgactgacggctgtgta (2~182略)
2000A题
DNA序列分类
全国大学生数学建模竞赛题选讲
2000A题: DБайду номын сангаасA序列分类
2000年6月, 人类基因组计划中DNA全序列草图完成, 预计2001年可以完成精确的全序列图, 此后人类将拥有一 本记录着自身生老病死及遗传进化的全部信息的“天书”。 这本大自然写成的“天书”是由4个字符A, T, C, G按一定顺 序排成的长约30亿的序列,其中没有“断句”也没有标点符 号, 除了这4个字符表示4种碱基以外, 人们对它包含的“内 容”知之甚少,难以读懂。破译这部世界上最巨量信息的 “天书”是二十一世纪最重要的任务之一。在这个目标中, 研究DNA全序列具有什么结构, 由这4个字符排成的看似 随机的序列中隐藏着什么规律, 又是解读这部天书的基础, 是生物信息学(Bioinformatics)最重要的课题之一。
特征提取(二)
二字符串、三字符串等在序列中出现的频率
字符串开始位置的处理 这时特征一下子增加了很多,需要从中评判挑选并
排出特征(或特征的组合)的重要性次序。
按出现频率的大小排序 主成分分析法 人工选取 等等
其他
相关性 碱基在序列中的间隔
等等
分类方式
统计的方法(特别是聚类方法)
, 另一套是来源于自然的DNA数据库. 这两 套数据既有联系又有明显的区别.
企图用比较简单的方法而不加区别地处理
这两类数据将不会得到好的效果. 要求解体者具有立足于实际, 从有限而不完 全的已知数据去探索更复杂数据中的未知 规律这样一种研究素质.
分析
典型分类方法:
特征提取 按照提取的特征构造分类标准
特征提取(一)
A、T、C、G四个字符在字符串中出现的
频率,即“单个碱基丰度”
单纯使用这一特征,许多学生的文章对人工数
据取得好的结果,但对182个自然序列的分类却 常常不太理想 好的例子(浙江大学): 将这一特征提取后形成四 维向量,分别用欧氏距离、马氏距离、Fisher 判别模型分类。当然,他们还提出了利用序列 相关度的分类方法。 还有学生在此基础上考虑字符出现的顺序,将 模型做得更复杂一些。