A题—D题(2015年深圳杯夏令营题目)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特别提醒:A、B、C题的附件较大,请注意单独下载,D题没有附件,如需要数据,请自行查找。网址:/
2015年“深圳杯”数学建模夏令营
A题:医保欺诈行为的主动发现
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。
注:数据中病人姓名、身份证号、电话号码、医保卡号为非真实数据。
数据见2.1 2.2 2.3 2.4 2.5 2.6
B题:DNA序列的k-mer index 问题
这个问题来自DNA序列的k-mer index问题。
给定一个DNA序列,这个系列只含有4个字母ATCG,如S =“CTGTACTGTAT”。给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA),然后从S的第二个位置,取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer 。如对序列S来说,所有5-mer为
{CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT}
通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。
问题
现在以文件形式给定100万个DNA序列,序列编号为1-1000000,每个基因序列长度为100 。(1)要求对给定k,给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k值。
(2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。
(3)给出建立索引所用的计算复杂度,和空间复杂度分析。
(4)给出使用索引查询的计算复杂度,和空间复杂度分析。
(5)假设内存限制为8G,分析所设计索引方法所能支持的最大k值和相应数据查询效率。
(6)按重要性由高到低排列,将依据以下几点,来评价索引方法性能
∙索引查询速度
∙索引内存使用
∙8G内存下,所能支持的k值范围
∙建立索引时间
C题:福田红树林自然保护区湿地生态系统模型框架的构建
及应用实例研究
与国内外其他大规模湿地生态系统相比,福田红树林自然保护区因其面积小,湿地生态系统的生态健康更加脆弱,迫切需要构建湿地动态监测、生态健康评估及预警系统来支撑其保护、管理工作。但目前的生态健康评价主要采用基于抽样监测数据和专家经验的静态方法,仅仅围绕主要生物因子开展调查而没有覆盖到噪声、大气等环境因子,而且监测点信息的时间、空间离散度较大(时间间隔较长、测点密度过于稀疏),致使难以完全满足福田红树林自然保护区科学管理的实际需要。因此,保护区准备用三至五年的时间完成保护管理数字化支撑平台建设,其中构建新型的生态系统动态监测和健康评估及预警科学管理支撑体系是重要工作内容。
鉴于上述情况,请你们查询相关资料,为福田红树林湿地构建一体化生态系统模型框架,为生态系统动态监测提供大数据管理支撑平台,为生态系统健康评估及预警提供动态模拟分析支撑平台。
例如,模型框架可由若干生态场景模型组成,生态场景模型以量化方式描述红树林湿地中各种生物、生境的空间结构和生态功能;模型框架应能通过刻画生态场景模型之间的关系实现对湿地生态系统能量流动、物质循环等物种依存竞争关系的动态描述;依托具体的生态场景模型可建设具体的保护、管理业务场景信息系统;全体保护、管理业务场景信息系统基于一体化生态系统模型框架,可以形成完整的生态系统动态监测和健康评估及预警科学管理支撑体系。
然后,请你们基于自己构建的模型框架完成下述工作:
1、如果福田红树林自然保护区采用你们设计的模型框架来构建湿地动态监测和健康评估预警系统,你们如何根据模型框架的数据构成要求设计保护区未来的生态环境监测方案?你们对自己模型框架的后续完善工作有何建议?
2、请查阅相关资料、收集数据,选取一个你们认为当下福田红树林最迫切需要解决的生态系统问题,基于你们构建的模型框架从健康预警的角度出发对其生态发展趋势进行预测分析,并给出具体的保护、管理建议。
为方便大家,本题目附件给出部分参考资料,其中大部分为经由网络获得的公开资料:
附件1:福田红树林自然保护区及红树林知识简介.doc
附件2:2012.4-2013.4福田红树林保护区生物多样性监测报告(缩略版).docx
附件3:红树林湿地健康评价指标体系.caj
附件4:森林生态系统服务功能评估规范.pdf
附件5:深圳福田红树林自然保护区的生态问题及修复对策研究.caj
附件6:深圳福田红树植物海桑种群生态学研究.nh
附件7:深圳湾河床演变及其对湿地生态系统的影响.caj
附件8:海桑资料.docx
附件9:福田红树林湿地生态系统EWE模型的构建.pdf
附件10:国内外湿地研究进展与展望.caj
附件11:广西近海生态系统健康评价.caj
附件12:无瓣海桑的引种及生态影响.pdf
D题: 航班延误问题
香港南华早报网根据 的统计称:中国的航班延误最严重,国际上航班延误最严重的10个机场中,中国占了7个。其中包括上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流等机场。请自行收集数据并研究以下问题:
(1)上述结论是否正确?
(2)我国航班延误的主要原因是什么?
(3)有什么改进措施?