数学建模竞赛试题--基因识别问题及其算法实现
数学建模遗传算法例题
数学建模遗传算法例题数学建模中,遗传算法是一种基于进化思想的优化算法,可以应用于复杂的优化问题中。
本文将介绍一些遗传算法的例题,帮助读者更好地理解遗传算法的应用。
例题一:背包问题有一个体积为V的背包和n个物品,第i个物品的体积为vi,价值为wi。
求这个背包最多能装多少价值的物品。
遗传算法的解决步骤:1. 初始化种群:随机生成一定数量的个体作为初始种群。
2. 适应度函数:将每个个体代入适应度函数,计算其适应度值。
3. 选择:根据每个个体的适应度值,选择一定数量的个体进入下一代。
4. 交叉:对被选中的个体进行交叉操作,生成新的个体。
5. 变异:对新的个体进行变异操作,引入新的基因。
6. 重复以上步骤,直到符合终止条件。
在背包问题中,适应度函数可以定义为:背包中物品的总价值。
交叉操作可以选择单点交叉或多点交叉,变异操作可以选择随机变异或非随机变异。
例题二:旅行商问题有n个城市,旅行商需要依次经过这些城市,每个城市之间的距离已知。
求旅行商经过所有城市的最短路径。
遗传算法的解决步骤:1. 初始化种群:随机生成一定数量的个体作为初始种群,每个个体代表一种旅行路线。
2. 适应度函数:将每个个体代入适应度函数,计算其适应度值。
3. 选择:根据每个个体的适应度值,选择一定数量的个体进入下一代。
4. 交叉:对被选中的个体进行交叉操作,生成新的个体。
5. 变异:对新的个体进行变异操作,引入新的基因。
6. 重复以上步骤,直到符合终止条件。
在旅行商问题中,适应度函数可以定义为:旅行商经过所有城市的总距离。
交叉操作可以选择顺序交叉或部分映射交叉,变异操作可以选择交换或反转基因序列。
总结:遗传算法是一种强大的优化算法,可以应用于多种复杂的优化问题中。
在数学建模中,遗传算法的应用也越来越广泛。
本文介绍了背包问题和旅行商问题的遗传算法解决步骤,希望对读者有所帮助。
2020华为杯数学建模C题(试题、答案和解析)
针对问题四:睡眠数据中使用四种脑电波信号做一个多分类的睡眠预测模型。由于数
1
据量的限制采用神经网络和机器学习的方法对数据进行建模,将睡眠分期预测问题转化为 一个五分类问题来解决,通过预测效果对分类性能进行分析。对数据集进行训练集和测试 集的划分,具体采用随机的方式,对数据集进行多次随机打散,以 8:2 的比例首次划分训 练集和测试集,分别使用 XGBoost 和 MLP 训练模型,由于数据量过小,多次训练使用的 数据在前一次划分的基础上再次打散随机划分。在不断重复的情况下按比例划分训练集和 测试集,机器学习模型和神经网络模型两个的训练结果在测试集上预测的准确率分别为 76%和 72%。在训练数据过少的情况下进行多分类任务,机器学习模型和神经网络模型均 表现出较好的效果,但是神经网络模型在效率上略差于机器学习模型。 关键字:脑电信号;随机森林;特征选择;XGBoost
中国研究生创新实践系列大赛
“华为杯”第十七届中国研究生 数学建模竞赛
2022年MathorCup高校数学建模挑战赛A题
2022年第十二届MathorCup 高校数学建模挑战赛题目A 题 大规模指纹图像检索的模型与实现在生物特征识别领域,指纹作为最具独特性与持久性的生物特征之一,被广泛应用于身份识别。
指纹识别过程分为特征提取和比对两个环节。
其中特征提取环节会提取用于指纹识别的指纹特征,一般国际上最为常见的指纹特征为“细节点”特征,其可视化展示形式如图1中的浅蓝色小圆圈及对外伸出的浅蓝色短线段,短线段用于指示细节点处纹线方向。
细节点一般采用三元存储格式: ,分别表示x 轴像素坐标、y 轴像素坐标及细节点方向。
一般而言:(1)指纹图像坐标体系:左上角为坐标原点,且x 轴方向向右,y 轴方向向下;(2)细节点表达约定:细节点x , y 的位置采用指纹图像坐标系表达,其方向规定:零度方向为x 轴正方向(向右),90度方向为y 轴负方向(向上),180度方向为x 轴负方向(向左),270度方向为y 轴正方向(向下),最大角度为359度。
角度的最小区分单位为1度。
图1 指纹识别原理(,,)x y q在指纹匹配环节,需要对两幅指纹图像的“同一性”进行定量评价,通常采用相似度指标。
常见的两枚指纹之间的相似度评价主要依据每枚指纹图像中各个细节点之间的匹配关系。
如图1所示,相互具有匹配关系的细节点之间用一根跨越两幅图像的红线将其互相连接,用于可视化展示。
在指纹图像匹配环节,常需要考虑如下的情况:考虑到在采集指纹图像时,手指按压图像采集设备的角度、轻重及位置各不相同,因此两幅指纹图像需要做图像的旋转、平移后才能相互对准。
由于手指皮肤较为柔软,通过按压方式采集到的指纹图像会发生一定程度的不规则弹性形变,在图1中会发现两幅指纹图像中,某些相互匹配的细节点在对准时,不能完全“重叠”,有一定幅度的位置及角度的偏差。
这一现象也可以从“跨越两幅图像的红线并不是都平行”现象中观察到。
考虑到手指可能存在临时性蜕皮、褶皱等因素,且空气中的湿度及皮肤表面的干燥程度或粘附在皮肤上的异物等都会导致采集到的指纹图像存1中可以观察到并不是所有的细节点都有对应的红线进行关联。
23年数学建模c题
23年数学建模c题2023年数学建模竞赛C题:题目:基于深度学习的图像识别问题描述:随着人工智能技术的不断发展,图像识别已成为日常生活中不可或缺的一部分。
图像识别技术广泛应用于人脸识别、自动驾驶、智能安防等领域。
为了提高图像识别的准确率和效率,深度学习技术被广泛应用于图像识别领域。
任务要求:1. 请简要介绍深度学习的基本原理。
2. 请简述在图像识别中常用的深度学习模型及其特点。
3. 请给出一种基于深度学习的图像识别算法的实现步骤。
4. 请设计一个实验,验证所提出的图像识别算法的有效性。
解题思路:1. 深度学习的基本原理:深度学习通过构建多层神经网络来模拟人脑的认知过程,通过不断地学习和优化,神经网络能够自动提取输入数据的特征,从而实现复杂的分类和识别任务。
2. 常用深度学习模型及其特点:在图像识别中,常用的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等。
CNN适用于处理图像数据,能够有效地提取图像中的局部特征;RNN适用于处理序列数据,在图像文字识别等领域有广泛应用;GAN能够生成逼真的图像,常用于图像生成和修复等任务。
3. 基于深度学习的图像识别算法实现步骤:首先,需要收集大量的标注数据,用于训练和验证模型;然后,选择合适的深度学习模型,并根据任务需求进行模型设计和参数调整;接着,使用训练数据对模型进行训练,并使用验证数据对模型进行验证和调整;最后,使用测试数据对模型进行测试,评估模型的性能。
4. 实验设计:为了验证所提出的图像识别算法的有效性,需要设计一个严谨的实验。
首先,需要准备实验数据集,包括不同类别的图像数据和对应的标注;然后,将数据集分为训练集、验证集和测试集,分别用于训练、验证和测试模型;接着,使用训练集训练模型,并使用验证集对模型进行验证和调整;最后,使用测试集对模型进行测试,评估模型的性能。
评估指标可包括准确率、精确率、召回率和F1分数等。
2023研究生数学建模国赛e题
标题:指纹识别中的模式匹配算法研究摘要指纹识别作为一种常见的生物识别技术,在现代社会中得到广泛应用。
本文针对指纹识别中的模式匹配算法进行研究,探讨了传统的指纹特征提取和匹配算法的局限性,并介绍了一种基于深度学习的指纹识别算法。
通过对比实验,证明了基于深度学习的指纹识别算法在准确性和鲁棒性方面的优势。
本研究为指纹识别技术的进一步发展提供了一种新的思路和方法。
引言指纹作为一种独特的生物特征,具有不可伪造性和稳定性,因此在安全验证领域被广泛应用。
指纹识别的关键任务之一是通过模式匹配算法,实现指纹图像的识别和比对。
传统的指纹识别算法主要基于特征提取和匹配的两个步骤。
然而,传统算法在对指纹图像的光照、旋转和变形等干扰下,容易出现准确性和鲁棒性不足的问题。
因此,本文旨在通过研究和比较不同算法,探索指纹识别中的模式匹配算法的优化方案。
传统模式匹配算法传统的指纹识别算法通常采用Minutiae特征提取和匹配的方法。
Minutiae特征是指指纹图像中细小特征点的位置和方向信息,如脊线和分叉点等。
传统算法会首先对指纹图像进行预处理,包括图像增强和去噪等操作,然后提取Minutiae特征。
特征提取通常通过对指纹图像进行滤波和边缘检测等操作,以获取特征点的位置和方向信息。
提取得到的Minutiae特征会被转换为可比较的特征向量,并用于后续的模式匹配。
传统的模式匹配算法通常基于相似性度量,如欧氏距离、曼哈顿距离等,来计算待比对指纹图像和数据库中指纹图像的相似性。
然而,传统算法在处理光照变化、旋转和变形等情况时,容易出现准确性下降的问题。
特别是在指纹图像质量较低的情况下,传统算法的准确性更加有限。
因此,为了提高指纹识别算法的性能,需要引入更加高级的算法模型。
基于深度学习的指纹识别算法近年来,深度学习技术在图像识别领域取得了巨大的突破,在指纹识别中也引起了研究者的广泛关注。
基于深度学习的指纹识别算法通常采用卷积神经网络(CNN)作为基本模型。
11544-数学建模-2000年A题《DNA序列的分类》题目、论文、点评
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
第十九届华为杯全国研究生数学建模竞赛 题目解析
第十九届华为杯全国研究生数学建模竞赛题目解析摘要:I.竞赛背景与介绍A.第十九届华为杯全国研究生数学建模竞赛B.竞赛的举办方与目的C.参赛人员与规模II.竞赛题目解析A.题目一:基因识别问题及其算法实现1.题目背景与要求2.解题思路与方法3.算法模型与实现B.题目二:数模研赛1.题目背景与要求2.解题思路与方法3.算法模型与实现C.题目三:其他题目1.题目背景与要求2.解题思路与方法3.算法模型与实现III.竞赛成果与意义A.获奖情况B.竞赛对研究生培养的作用C.竞赛对数学建模领域的推动正文:第十九届华为杯全国研究生数学建模竞赛于2022 年举行,该竞赛由华为公司冠名,由中国学位与研究生教育学会、中国科协青少年科技中心等单位主办,旨在提高研究生创新能力和解决实际问题的能力。
本届竞赛共有来自全国各地的465 家研究生培养单位的63345 名研究生参赛,规模空前。
竞赛题目分为三个部分,分别涉及基因识别问题及其算法实现、数模研赛以及其他题目。
其中,题目一要求参赛者针对基因识别问题提出一种或多种算法,并实现这些算法。
在解题过程中,参赛者需要深入研究基因识别领域的相关知识,结合数学建模方法,提出具有创新性的解决方案。
题目二要求参赛者通过数模研赛的方式,对某一具体问题进行建模与求解。
此题考查参赛者对数学建模方法的理解与运用能力,需要参赛者具备较强的实际问题解决能力。
其他题目则涉及不同领域,要求参赛者具备广泛的知识面和灵活的思维方式。
本届竞赛的获奖情况显示,我国研究生在数学建模领域取得了丰硕的成果。
这些成果不仅体现了参赛者个人的优秀能力,也展示了我国研究生教育在培养创新型人才方面的成果。
此外,竞赛的成功举办对提高研究生培养质量、增强研究生解决实际问题的能力、培养研究生在工作中的科学态度和严谨学风等方面都起到了积极作用。
研究生数学建模竞赛
历年竞赛试题
第七届(2010)(NPMCM)A题:确定肿瘤的重要
基因信息 第七届(2010)(NPMCM)B题:与封堵溃口有关 的重物落水后运动过程的数学建模 第七届(2010)(NPMCM)C题:神经元的形态分 类和识别 第七届(2010)(NPMCM)D题:特殊工件磨削加 工的数学建模
历年竞赛试题
第五届(2008)
(NPMCM)A题:汶川地震唐家山 堰塞湖泄洪问题 第五届(2008) (NPMCM)B题:城市道路交通信 号实时控制问题 第五届(2008) (NPMCM)C题:货运列车的编组 调度问题 第五届(2008) (NPMCM)D题:中央空调系统节 能设计问题
历年ห้องสมุดไป่ตู้赛试题
第六届(2009) (NPMCM)A题:我国就业人数 或城镇登记失业率的数学建模 第六届(2009) (NPMCM)B题:枪弹头痕迹自动 比对方法的研究 第六届(2009) (NPMCM)C题:多传感器数据融 合与航迹预测 第六届(2009) (NPMCM)D题:110警车配置及 巡逻方案
2013年, 第十届竞赛由中南大学承办 来自全国332家研究生培养单位的3884支参赛队、 11643名选手参加了比赛。较上届相比,本届参赛 单位增加了81家,参赛人数提高了55%,竞赛规模 创历史新高。经过上百名专家评审,共评选出一等 奖101支、二等奖678支、三等奖参赛队881支。
历年竞赛试题
第六条 经费
参赛队向组委会交纳报名费,每队二百元。 承办单位的资助。 社会各界的赞助。
竞赛的由来
2003年,在一批参加过大学生数学建模竞赛
的研究生的要求下,东南大学、南京大学、 中国科技大学、合肥工业大学等江苏、安徽 省12所高校研究生会联合发起了“南京及周 边地区研究生数学建模竞赛”,有20所学校 近200名研究生参加。东南大学“长江计划 特聘教授”、生命科学专家陆祖宏赞助了这 次竞赛,竞赛的成功举办在研究生中产生较 大的反响。
基因组组装 数学建模
基因组组装摘要基因组组装是生物信息学的核心,有着极其重要的应用价值。
本文针对提高基因组组装问题的不同途径和规模,利用了图论中的De Bruijn图法和欧拉路径问题的思想建立模型,并对传统De Bruijn图模型中存在的一些问题(如overlap 部分判定速度较慢、内存占用大等)建立了相应模型进行改进,利用所建模型对附录中给出的reads进行了组装,并对原文件中错误和低质量的reads进行了筛选,提高了原始数据的质量,对问题进行了拓展。
首先,在模型的建立方面,我们利用了图论中de Bruijn图法和欧拉路径问题的思想并结合实际,建立了基因组序列组装模型,基于de Bruijn图法的模型不仅避免了使用OLC方法组装第二代基因测序技术所产生的高通量、短序列、高覆盖的基因组易产生错误、运行较慢的弊端,并且还可以减少冗余数据量,提高了内存效率。
其次,在模型的优化改进方面,我们通过建立基于De Bruijn sequence的碱基序列替换改进模型和k值选择模型对传统De Bruijn 图模型进行了改进,很好的解决了原有模型存在的overlap比对速度慢、不同k取值导致资源占用不同等问题,提高了基因组组装过程中的时间效率和容错率。
最后,在对于原始reads数据的处理方面,我们利用了Hash算法的思想,对每条k-mer建立Hash值,并建立了基于Phred法的reads记录评分筛选模型,对于低质量和错误的reads记录进行了筛选去除,提高了原始reads数据的质量,使最终得到的contig更加准确。
关键词:De Bruijn图欧拉路径Phred质量评分Hash算法快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义,对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。
获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。
全国研究生数学建模竞赛题目
中国研究生数学建模竞赛试题汇总2021赛题汇总2021-A:相关矩阵组的低复杂度计算和存储建模2021-B:空气质量预报二次建模2021-C:帕金森病的脑深部电刺激治疗建模研究2021-D:抗乳腺癌候选药物的优化建模2021-E:信号干扰下的超宽带(UWB)精确定位问题2021-F:航空公司机组优化排班问题2020赛题汇总2020-A:芯片相噪算法2020-B:汽油辛烷值建模2020-C:面向康复工程的脑信号分析和判别建模2020-D:无人机集群协同对抗2020-E:能见度估计与预测2020-F:飞行器质心平衡供油策略优化2019赛题汇总2019-A: 无线智能传播模型2019-B:天文导航中的星图识别2019-C:视觉情报信息分析2019-D:汽车行驶工况构建2019-E:全球变暖?2019-F:多约束条件下智能飞行器航迹快速规划2018赛题汇总2018-A :关于跳台跳水体型系数设置的建模分析2018-B:光传送网建模与价值评估2018-C:对恐怖袭击事件记录数据的量化分析2018-D:基于卫星高度计海面高度异常资料获取潮汐调和常数方法及应用2018-E:多无人机对组网雷达的协同干扰2018-F:机场新增卫星厅对中转旅客影响的评估方法2017赛题汇总2017-A:无人机在抢险救灾中的优化运用2017-B:面向下一代光通信的VCSEL激光器仿真模型(华为命题)2017-C:航班恢复问题2017-D:基于监控视频的前景目标提取2017-E:多波次导弹发射中的规划问题2017-F:构建地下物流系统网络2016赛题汇总2016-A:多无人机协同任务规划2016-B:具有遗传性疾病和性状的遗传位点分析2016-C:基于无线通信基站的室内三维定位问题2016-D:军事行动避空侦察的时机和路线选择2016-E:粮食最低收购价政策问题研究2015赛题汇总2015-A:水面舰艇编队防空和信息化战争评估模型2015-B:数据的多流形结构分析2015-C:移动通信中的无线信道“指纹”特征建模2015-D:面向节能的单/多列车优化决策问题2015-E:数控加工刀具运动的优化控制2015-F:旅游路线规划问题2014赛题汇总2014-A:小鼠视觉感受区电位信号(LFP)与视觉刺激之间的关系研究2014-B:机动目标的跟踪与反跟踪2014-C:无线通信中的快时变信道建模2014-D:人体营养健康角度的中国果蔬发展战略研究2014-E:乘用车物流运输计划问题2013赛题汇总2013-A:变循环发动机部件法建模及优化2013-B:功率放大器非线性特性及预失真建模2013-C:微蜂窝环境中无线接收信号的特性分析2013-D:空气中PM2.5问题的研究2013-E:中等收入定位与人口度量模型研究2013-F:可持续的中国城乡居民养老保险体系的数学模型研究2012赛题汇总2012-A:基因识别问题及其算法实现2012-B:基于卫星无源探测的空间飞行器主动段轨道估计与误差分析2012-C:有杆抽油系统的数学建模及诊断2012-D:基于卫星云图的风矢场(云导风)度量模型与算法探讨2011赛题汇总2011-A:基于光的波粒二象性一种猜想的数学仿真2011-B:吸波材料与微波暗室问题的数学建模2011-C:小麦发育后期茎秆抗倒性的数学模型2011-D:房地产行业的数学建模2010赛题汇总2010-A:确定肿瘤的重要基因信息2010-B:与封堵溃口有关的重物落水后运动过程的数学建模2010-C:神经元的形态分类和识别2010-D:特殊工件磨削加工的数学建模2009赛题汇总2009-A:我国就业人数或城镇登记失业率的数学建模2009-B:枪弹头痕迹自动比对方法的研究2009-C:多传感器数据融合与航迹预测2009-D:110警车配置及巡逻方案2008赛题汇总2008-A:汶川地震中唐家山堰塞湖泄洪问题2008-B:城市道路交通信号实时控制问题2008-C:货运列车的编组调度问题2008-D:中央空调系统节能设计问题2007赛题汇总2007-A:建立食品卫生安全保障体系数学模型及改进模型的若干理论问题2007-B:机械臂运动路径设计问题2007-C:探讨提高高速公路路面质量的改进方案2007-D:邮政运输网络中的邮路规划和邮车调度2006赛题汇总2006-A:Ad Hoc网络中的区域划分和资源分配问题2006-B:确定高精度参数问题2006-C:维修线性流量阀时的内筒设计问题2006-D:学生面试问题2005赛题汇总2005-A:Highway Traveling time Estimate and Optimal Routing 2005-B:空中加油2005-C:城市交通管理中的出租车规划2005-D:仓库容量有限条件下的随机存贮管理2004赛题汇总2004A:发现黄球并定位2004B:实用下料问题2004C:售后服务数据的运用2004D:研究生录取问题。
2020年第十七届中国研究生数学建模竞赛赛题
文章标题:深度解析2020年第十七届我国研究生数学建模竞赛赛题一、引言在2020年第十七届我国研究生数学建模竞赛中,参赛选手面对的赛题涉及到许多复杂的数学模型和实际问题。
本文将深度解析这些赛题,从简到繁地探讨其中的数学原理和建模方法,让我们一起来探索并理解这些有价值的题目。
二、赛题概述2020年第十七届我国研究生数学建模竞赛的赛题涉及到三个主要方面:航线规划、精准医疗和资源分配。
这些赛题涵盖了数学建模的多个领域,包括优化算法、数理统计、差分方程等。
选手需要通过建立数学模型和运用相应的算法,解决实际的、复杂的问题。
三、航线规划赛题分析在航线规划的赛题中,参赛选手需要根据航线的长度、飞行时间、飞行成本等因素,设计出最优的航线规划方案。
这涉及到图论、最短路径算法、动态规划等数学原理。
通过对航线规划问题的深入分析和建模,选手可以找到最优解,并为实际飞行工作提供参考和指导。
四、精准医疗赛题分析精准医疗赛题要求参赛选手运用数理统计、机器学习等方法,根据患者的基因数据和医疗记录,预测患者的治疗反应和疾病进展趋势。
这需要选手能够熟练地掌握回归分析、分类算法等数学模型,以实现对个体化治疗的精准预测和决策支持。
五、资源分配赛题分析资源分配赛题涉及到如何合理分配医疗资源以应对突发公共卫生事件或医疗需求的激增。
参赛选手需要利用排队论、整数规划等数学原理,设计出有效的资源分配方案。
这对选手的逻辑思维和数学建模能力提出了极大的挑战。
六、总结与回顾通过对2020年第十七届我国研究生数学建模竞赛赛题的深入分析,我们不仅了解了各个赛题涉及到的数学原理和模型方法,更加了解了这些数学模型与实际问题之间的联系。
数学建模竞赛为我们提供了一个锻炼数学建模能力和解决实际问题的评台,这对我们的学习和成长都有着极大的促进作用。
七、个人观点与理解参与数学建模竞赛,不仅能够提高我们的数学建模能力,更能够培养我们的创新思维和团队协作能力。
这也让我们深刻感受到数学在实际问题中的应用和价值。
数学建模-遗传基因
数学建模-遗传基因数学模型—遗传模型引⾔:遗传是我们⼀直关⼼的⼀个话题,所谓常染⾊体遗传,是指后代从每个亲体的基因中各继承⼀个基因从⽽形成⾃⼰的基因型.如果所考虑的遗传特征是由⼀对基因A和a控制的,那么就有三种可能的基因型:AA,Aa和aa.例如,豌⾖的⾼颈与矮颈是由⼀对遗传基因决定它的遗传症状,AA型是⾼颈,Aa型是⾼颈,⽽aa型是矮颈.这⾥的AA型和Aa 型表⽰了同⼀外部特征(⾼颈),则⼈们说基因a对于A是隐性的.当⼀个亲体的基因型为Aa,另⼀个亲体的基因型为aa,那么后代便可从aa型中得到基因a,从AB型中得到A或a,且是等可能性地得到。
1.问题提出豌⾖植物的基因型有AA,Aa和aa.现计划采⽤AA型植物与每种基因型植物相结合的⽅案培育植物后代,试预测,若⼲年后,这种植物的任⼀代的三种基因型分布情况.2.模型假设(1)按问题分析,后代从上⼀代亲体中继承基因A或a是等可能的,即有双亲体基因型的所有可能结合使其后代形成每种基因型的概率分布情况如表5-1.(2) 以和分别表⽰第n代植物中基因型为AA,Aa和aa的植物总数的百分率,表⽰第n代植物的基因型分布,即有(5 .1)就是当n=0时,表⽰植物基因型的初始分布,所以有3.模型建⽴因为原问题是采⽤AA型与每种基因型相结合,因此这⾥只考虑遗传分布表的前三列.⾸先考虑第n代中的AA型,按上表所给数据,第n代AA型所占百分率为即第n-1代的AA与AA型结合全部进⼊第n 代的AA型,第n-1代的Aa型与AA型结合只有⼀半进⼊第n代AA型,第n-1代的aa型与AA型结合没有⼀个成为AA型⽽进⼊第n代AA型,故有(5 .2)同理,第n代的Aa型和aa型所占有⽐率分别为(5 .3)(5 .4)将(5.2)、(5.3)、(5.4) 式联⽴,并⽤矩阵形式表⽰,得到(5 .5)其中利⽤(5 .5)进⾏递推,便可获得第n代基因型分布的数学模型(5 .6)(5.6)式明确表⽰了历代基因型分布均可由初始分布与矩阵M确定. 4.模型求解这⾥的关键是计算.为计算简便,将M对⾓化,即求出可逆阵P,使,即有从⽽可计算其中为对⾓阵,其对⾓元素为M的特征值,P为M的特征值所对应的特征向量.分别为,故有即得于是即是由上式可见,当时,有即当繁殖代数很⼤时,所培育出的植物基本上呈现的是AA型,Aa型的极少,aa型不存在.5.模型分析(1)完全类似地,可以选⽤Aa型和aa型植物与每⼀个其它基因型植物相结合从⽽给出类似的结果.特别是将具有相同基因植物相结合,并利⽤前表的第1、4、6列数据使⽤类似模型及解法⽽得到以下结果:这就是说,如果⽤基因型相同的植物培育后代,在极限情形下,后代仅具有基因AA与aa,⽽Aa消失了.。
判别分析法(数学建模相关习题)
1 1 2 , a 1 1 2 2
W x a ' x
举例
2、μ1 ≠ μ2,∑1 ≠ ∑2
d 2 x,1 x 1 1 x 1
'
d 2 x, 2 x 2 1 x 2
化简
d 2 x, 1 d 2 x, 2 2 x
x 1 , 若d 2 x, 1 d 2 x, 2 x 2 , 若d 2 x, 1 d 2 x, 2
1 2
2
1 ' 1 2 2x a 2a x '
0.0784 0.0647 0.0197 0.0217 总体样本离差矩阵 s1 0.0647 0.1350 s2 0.0217 0.0389
平均协方差阵的估计ˆ V
0.0075 0.0066 1 s1 s2 0.0066 0.0134 n1 n2 2
1
2
例题:对28名一级和25名健将级标枪运动员测试了6个 影响标枪成绩的训练指标; 30米跑(x1)、 投小铅球( x2 )、 挺举重量( x3 )、
抛实心球( x4 )、前抛铅球( x5 )、 五级跳( x6 )。
编号 组别 x1
Hale Waihona Puke x24.30 4.10 : 4.20 4.00
4.30
x3
82.3 87.48 : 89.20 103.00
平均 y=0.9625x+0.6065 用它来判定发现不好 2、心型平分线 取Af和Apf的中心(1.41,1.80), (1.22,1.93),垂直平分线方程是 y=1.52576x-0.1485
数学建模实例DNA序列分类
2000全国大学生数学建模竞赛题目A题 DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。
蓝基因模拟三套题资源
蓝基因模拟三套题资源以下是三套关于蓝基因模拟的题目资源:套题一:1. 猪的基因组中包含ATGC四个碱基对,假设某猪的基因组序列为:ATGCTAGCGATGCCGTTAAC。
请编写程序,统计该基因组序列中每个碱基的数量。
2. 请编写一个函数,接受两个参数(字符串seq和整数n),返回字符串中长度为n的子序列列表。
例如,给定字符串"ATGC"和整数2,函数应返回["AT", "TG", "GC"]。
3. 请编写一个程序,比较两个基因组序列之间的相似性。
给定两个基因组序列A和B,编写一个函数,返回它们之间的相似度百分比。
相似度百分比的计算方法为:相同碱基对的数量除以基因组序列的长度,并将结果乘以100。
套题二:1. 基因变异是指基因序列发生改变的过程。
请编写一个函数,判断两个基因序列是否存在基因变异。
给定两个基因序列A和B,如果它们的长度不同,或者在相同位置上存在不同的碱基对,则认为它们发生了基因变异。
2. 研究人员根据基因组序列找到了一个与某种疾病相关的基因。
请编写一个程序,自动从一个基因组序列中查找特定的基因。
给定一个基因组序列和一个目标基因序列,编写一个函数,如果目标基因序列存在于基因组序列中,则返回True,否则返回False。
3. 编写一个程序,自动将基因序列中的某个碱基对替换为另一个碱基对。
给定一个基因序列和两个碱基对old_base和new_base,编写一个函数,将基因序列中所有与old_base相同的碱基对替换为new_base。
套题三:1. 请编写一个函数,接受一个基因组序列作为参数,并返回该序列的反向互补序列。
反向互补序列是指将每个碱基对的顺序颠倒,并将A换成T,T换成A,G换成C,C换成G。
2. 编写一个程序,将基因组序列按照指定的长度进行分割,并返回分割后的子序列列表。
给定一个基因组序列和一个整数n,编写一个函数,返回长度为n的子序列列表。
基因遗传数学建模
基因遗传数学建模
基因遗传数学建模是一种将基因遗传学的概念和数学建模相结合
的方法,用于探究基因遗传及其影响因素的变化规律。
本文将介绍基
因遗传数学建模的定义、应用和指导意义。
首先,基因遗传数学建模是一种利用数学工具分析基因遗传学中
基因的遗传方式、变异方式、表达方式等的方法。
这种方法包括遗传
学基本原理、概率论和统计学的知识。
利用基本原理和工具可以对基
因表达方式进行数学描述,再通过概率和统计方法探究基因变异和表
达规律。
其次,基因遗传数学建模在实际应用中有着广泛的用途。
例如医
学领域中,利用基因遗传学理论和数学方法研究遗传病的发病机制、
寻找遗传病的致病基因和药物靶点等。
在农业领域中,利用基因遗传
数学模型研究粮食作物的性状、培养方法和杂交选择等问题。
在生态
学领域中,可以利用基因遗传数学模型研究动植物的遗传多样性、环
境变化对生态系统的影响等。
最后,基因遗传数学建模的指导意义是帮助人们深入了解基因遗
传学的基本原理和变异规律,为人们提供更多重要的分析工具和方法,进一步提高基因遗传学研究的准确性和深度,生成更加全面的科学成果。
综上所述,基因遗传数学建模是一种将基因遗传学的概念和数学建模相结合的方法,应用广泛、实用性强,对于进一步推动基因遗传学的研究具有重要意义。
基因序列分析
南开大学数学院“学而思”杯数学建模比赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):A 题:基因序列分析摘要本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。
针对问题一:我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。
两者的相似性表现在:同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。
两者的不同点表现在:基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。
针对问题二:我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。
针对问题三:在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。
关键字:矩阵分析DNAwalk DFA模型问题重述人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷, 导致艾滋病(AIDS). HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。
病毒序列在进化和传播的过程中主要是envelope基因变化很快。
全国研究生数学建模大赛-具有遗传性疾病和性状的遗传位点分析
2016年“华为杯”第十三届全国研究生数学建模竞赛学校西南大学参赛队号队员姓名1.彭敏2.吴战3.陈环宇题目具有遗传性疾病和性状的遗传位点分析摘要遗传性疾病和性状的相关联位点分析对人类研究遗传学具有重要意义。
目前许多疾病或性状均有典型的多基因遗传特性,即具有众多基因共同控制,且单个基因的作用较小的特点,非常适用于全基因组关联性分析(GWAS)的研究。
本文通过建立卷积神经网络模型(Convolutional Neural Network,CNN),对相应的数据进行分析和统计,完成了对遗传疾病、性状与其相关联位点的分析。
我们通过训练该网络模型,实现了在许多位点中寻找与相应疾病或性状有关的位点。
对于问题一,要求根据合适的方法,把1000个样本在染色体片段上所有的位点信息转换为数值编码方式。
本文考虑到数值编码不仅要体现碱基的生物特性,同时要考虑到后续的数据存储、运行和统计分析。
因此,我们的编码方式是C对应(01)、T对应(11)、A对应(00)、G对应(10)。
对于问题二,要找到某种疾病最有可能的一个或几个致病位点。
本文的解决方法是采用卷积神经网络建立模型。
首先把每个样本的位点信息转换为数字编码信息进而转变为位点编码图。
通过建立卷积神经网络模型,之后采用反卷积的方式,建立每个样本的特征图。
本文通过对1000个特征图累加并进行统计分析,最终选取了15个位点。
在模型验证中,本文选取常用的分类器进行分类,包括线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)、朴素贝叶斯分离器(NBC)和Adaboost分类。
对得到的15个特征位点进行分类,其结果均在80%以上,证明了本模型选取的15个位点的有效性以及合理性。
对于问题三,基因是若干个位点组成的集合,并且每个基因包含的位点数目不同。
在问题二的基础上,如果当某个基因包含的位点集合中的一个或几个位点属于我们已经找到的致病位点集合,那么我们认为该基因与疾病相关。
2020-51MCM-Problem C
2020年第十七届五一数学建模竞赛题目C题饲料混合加工问题饲料加工厂需要加工一批动物能量饲料。
饲料加工需要原料,如加工猪饲料需要玉米、荞麦、稻谷等。
加工厂从不同的产区收购了原料,原料在收购的过程中由于运输、保鲜以及产品本身属性等原因,存在着效能率的问题(如1吨玉米可加工成0.7吨左右的玉米面)。
这个数据在原料进厂之后可以通过随机抽样进行检测得到。
某饲料加工厂有9个加工窖,现有一批加工任务,要将16个加工原料(见表1)按照某种混合方案一次性放入加工窖中进行加工。
一个加工窖的混合产品称为一个加工包。
如果某加工原料重量不少于500千克,则可以单独成为一个加工包。
因产品属性原因,要求品种代码10的加工原料不能单独成为一个加工包。
每一个加工窖能够加工的重量有限定范围(见表2)。
加工窖加工成本由点火成本(也称固定成本)与加工量成本(也称可变成本)构成,其他成本暂不考虑。
表1提供了各加工原料的品种代码、总重量和效能率。
表2提供了每一个加工窖能够加工的重量范围以及点火成本、加工量单位成本数据。
由于加工窖数量低于饲料加工原料的品种数,所以在加工前需要将若干个加工原料进行混合。
为了保证加工后饲料的质量,要求混合的任何两个加工原料之间必须具有亲缘关系。
工厂技术人员对每种加工原料进行了基因检测,得到了10个关键位点的基因序列(见表1),并规定,两个加工原料如果有N个相同位点的基因序列标记相同,就认为这两个加工原料的亲缘值为N(如果N大于0,则说明这两种加工原料之间具有亲缘关系),一个加工包中所有原料两两之间亲缘值的平均值称为亲缘度。
例如品种代码1、2、5的加工原料混合成为一个加工包,假设品种代码1和品种代码2的亲缘值为5,品种代码1和品种代码5的亲缘值为3,品种代码2和品种代码5的亲缘值为5,那么它们的亲缘度就是(5+3+5)/3。
如果一个加工包中只含有一种加工原料,则该加工包的亲缘度为10。
本题仅从亲缘度角度考虑混合加工饲料的质量,亲缘度越高,饲料质量就越高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因识别问题及其算法实现一、背景介绍DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。
DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。
其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。
其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。
在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。
外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在图1真核生物DNA 序列(基因序列)结构示意图蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。
DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。
DNA 序列外显子(Exon ) 内含子(Intron)DNA序列剪接、转录、复制蛋白质序列图2蛋白质结构示意图对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。
诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。
一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。
” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。
二、数字序列映射与频谱3-周期性:对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。
基因预测问题的一类方法是基于统计学的[1]。
很多国际生物数据网站上也有“基因识别”的算法。
比如知名的数据网站/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。
但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。
另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。
但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。
因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视 [4]。
1. 数字序列映射在DNA 序列研究中,首先需要把A 、T 、G 、C 四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。
令{,,,}I A T G C =,长度(即核苷酸符号个数,又称碱基对(Base Pair )长度,单位记为bp )为N 的任意DNA 序列,可表达为{[]|[],0,1,2,1}S S n S n I n N =∈=-即A 、T 、G 、C 的符号序列S :[0],[1],,[1]S S S N -。
现对于任意确定的b I ∈,令1,[][]0,[]b S n b n S n bu =⎧⎨≠⎩=, 0,1,2,1n N =-称之为Voss 映射[5],于是生成相应的0-1序列(即二进制序列){[]}b u n :[0],[1],,b b u u ,[1]b u N - (b I ∈)。
例如,假设给定的一段DNA 序列片段为S = ATCGTACTG ,则所生成的四个0-1序列分别为:{[]}A u n :{1,0,0,0,0,1,0,0,0}; {[]}G u n :{0,0,0,1,0,0,0,0,1}; {[]}C u n :{0,0,1,0,0,0,1,0,0}; {[]}T u n :{0,1,0,0,1,0,0,1,0}。
这样产生的四个数字序列又称为DNA 序列的指示序列(indicator Sequence )。
2. 频谱3-周期性为研究DNA 编码序列(外显子)的特性,对指示序列分别做离散Fourier 变换(DFT )21[[]],0,1,,1nk N j N b b n U k u n e k N π--===-∑ (1)以此可得到四个长度均为N 的复数序列{[]}b U k ,b I ∈。
计算每个复序列{[]}b U k 的平方功率谱,并相加则得到整个DNA 序列S 的功率谱序列{[]}P k :2222[][][][][],0,1,1A T G C P k U k U k U k U k k N =+++=- (2)对于同一段DNA 序列,其外显子与内含子序列片段的功率谱通常表现出不同的特性500010000kP (k )500010000kP (k )图3 编号为BK006948.2的酵母基因DNA 序列的功率谱(因为对称性,实际这里只给出了功率谱图的一半)。
(a ) 上图是基因上一段外显子(区间为[81787,82920],长1134bp ) 对应的指示序列映射的功率谱,它具有3-周期性;(b) 下图是基因上一段内含子(区间为[96361,97551],长1191bp )的指示序列的功率谱,它不具有3-周期性。
可以看到:外显子序列的功率谱曲线在频率3Nk =处,具有较大的频谱峰值(Peak Value ),而内含子则没有类似的峰值。
这种统计现象被称为碱基的3-周期(3-base Periodicity )[2][3]。
记DNA 序列S 的总功率谱的平均值为1[]N k P k E N-==∑ (3)而将DNA 序列在特定位置,即3Nk =处的功率谱值,与整个序列S 的总功率谱的平均值的比率称为DNA 序列的“信噪比”(Signal Noise Ratio ,SNR ),即[]3NP R E=(4) DNA 序列的信噪比值的大小,既表示频谱峰值(Peak Value )的相对高度,也反映编码或非编码序列3-周期性的强弱。
信噪比R 大于某个适当选定的阈值0R (比如02R =),是DNA 序列上编码序列片段(外显子)通常满足的特性,而内含子则一般不具有该性质[6]。
在DNA 序列{[]S n , 0,1,2,1}n N =-中,若N 为3的倍数,将核苷酸符号b {,,,}I A T G C ∈=出现在该序列的0,3,6,... N -3与1,4,7,…N -2以及2,5,8,…N -1等位置上的频数分别记为,b b x y 和b z ,则3N处的总功率谱值即为[3][6] []3N P 2[]3b b INU ∈==∑22221133[][]N n N N jjn Nbb b In b In u n eu n eππ⋅----∈=∈=⋅=⋅∑∑∑∑22233jjb b b b Ix y ez eππ-∈=+⋅+⋅∑222()b b b b b b b b b b Ix y z x y x z y z ∈=++---∑ 易见,当四种核苷酸符号b (b I ∈)在序列的上述第一、第二、第三个子序列上出现的频数,,b b b x y z 越接近相等时,3N处的谱值也就越接近于零。
所以,基因外显子序列的功率谱曲线,在3N频率处具有较大的频谱峰值(Peak V alue ),反映了在基因外显子片段上,四种核苷酸符号在序列的三个子序列上分布的“非均衡性”。
通常认为这种现象源于编码基因序列“密码子”(coden )使用的偏向性(bias )。
虽然目前对此现象产生的“机理”还不是十分地清楚,但是频谱的3-周期性被普遍认为是可用于识别基因编码序列(外显子)的一个重要的特征信息。
3. 基因识别频谱峰值特征的发现,或者频谱与信噪比概念的引入,其最终目的是要探测、预报一个尚未被注释的完整的DNA 序列的所有基因编码序列(外显子)片段。
图4 基于序列频谱3—周期性的的基因预测方法流程图已经有一些研究者提出了识别基因的算法(如参见[6]及其后面的文献)。
目前利用信噪比的基因识别算法通常有两种:一是固定长度窗口滑动法[2] [3];另一是移动信噪比曲线识别法[6]。
基于固定长度滑动窗口上频谱曲线的基因识别方法:对一个DNA 序列S 和它的指示序列{[]}b u n ,b I ∈,0,1,2,1n N =-。
取长度M (通常取为3的倍数,例如M =99, 129, 255, 513等)作为固定窗口长度。
对任意n (01n N ≤≤-),在以n 为中心的长度为M 的序列片段[n 12M --,n 12M -+]上(当n 接近序列的两端时,窗口实际有效长度可能会小于M ),作四个指示序列的离散Fourier 变换(DFT )12122[[]],0,1,,1M M i n ikj M b bi n U k u i e k M π--=+-=-==-∑并求出它在3M 处总频谱(;)3Mp n ,即 2222[][][][][](;)333333A T G C M M M M M M P U U U U p n ∆=+++= 把这样得到的频谱值(;)3Mp n ,0,1,2,1n N =-,经过标准化处理(即除以最大频谱值01max {(;)}3n N Mp n ≤≤-),并画出其频谱曲线nucleotide position nD N A s p e c t r u m p (n )图5 固定长度滑动窗口的频谱(;)3Mp p n =曲线(人类线粒体基因,NC_012920_1.fasta ) 图中红色水平细线条是DNA 序列实际的基因外显子的区间。
滑动窗口频谱(;)3Mp n 曲线的峰与基因外显子区间具有“对应”关系。
基于DNA 序列上“移动序列”信噪比曲线的基因识别方法: 设已知DNA 序列S 和它的指示序列{[]}b u n ,b I ∈,0,1,2,1n N =-。
对任意n(01n N <≤-),通常n 取3的倍数并逐渐增大。
在n 的左边一个长度为n 的序列片段[0,n -1]上,相应的子序列0~1n S -称为DNA 序列S 的“移动子序列”,作该移动子序列对应的四个指示序列的离散Fourier 变换(DFT )21[[]],0,1,,1iki n j M b b i U k u i e k n π=--===-∑并求出移动子序列0~1n S -,0,1,,1n N =-上的信噪比[]R n2222[][][][][]33333[][][]A T G C n n n n n U U U U P R n E n E n +++==,01n N <≤-其中[]E n 为移动子序列0~1n S -的功率谱的平均值1[][]n k P k E n n-==∑。