数学建模假期学习备赛规划
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数学建模假期规划
2022年6月22日星期三一、文献学习安排
阅读近十年(2010-2021)的优秀论文。
时间规划:每2天看1篇,一周3篇左右(至少一周2篇)。
建议睡前晚上看,一方面有时间,一方面可以联想题目,扩展思路可能同时帮助入睡(想着想着就睡着了)。
重点可以看看论文的思路、每一问它回答的逻辑、模型的选择、算法原理它是自己理解的写的还是官网复制过去的,此外,论文思路是否一开始做了一个流程图放在论文中、是否每小问都有模型评价与验证还是到最后一章节才有的一个总的模型验证,是否这些优秀论文每问都只是选用了一个模型、是否对比、数据预处理是怎么处理的,格式、论文写法上是否有可以借鉴的地方等等。
二、算法模型学习安排
重点学习机器学习算法,学有余力可以看看深度学习关于对抗网络、目标检测、图像分割的算法模型。
暑假期间主要需要掌握或者了解的算法有:聚类算法、Floyd算法、旅行商算法、模拟退火算法(SA)、BP神经网络、LSTM时间序列
预测算法、贪婪算法、线性规划算法、遗传算法(GA)等。
(其他没想到的,大家可以后面补充,第四部分后面有留白-补充空间)
具体展开这些算法,算法适用性:
(1)投资风险收益类题目:线性规划(或非线性规划)算法、拟合算法、少不了数据预处理。
(2)最短路径、巡视类题目:最小生成树算法、旅行商算法(这个在其他优秀论文中出现过多次)
(3)分类、优化类题目:BP神经网络(题目中对象可以数据化为有结点有关系有权重的题目,多用此网络)、拟合算法、Floyd等
(4)数学分析类题目:数据挖掘、聚类算法(K-means(如果已经知道大体会分为几类,可以选用这个算法)、KNN、均值聚类、高斯混合模型等)、LSTM时间序列预测算法、贪婪算法等。
(5)数据量不够、目标识别检测类冷门题目:可以考虑迁移学习、对抗网络扩展数据量、采用Fast-CNN、YOLO系列算法完成建模。
三、建模思路分享
1.数据预处理:首先几乎所有题目特别是数据分析前两问,都需要先对给定的数据或爬取的数据进行预处理,主要解决缺值、数值异常等问题。
简要说一下方法、怎么进行的数据清洗。
2.数据的选定:其次,建模之前往往有大量数据,需要分析其中有用的数据,一般不会一股脑都有用,比如2021年的气象题目给了2万条数据,通过阅读优秀论文也可以看出,都是选取某一个时间段、各个城市均有都数值进行数学分析、选取数据比较完整的数据并对选择他的理由进行了说明,这样我认为题目的每一步都无懈可击,比较完善,我选它是有理由的,评委也只能点头看下去。
3.数学建模:建模的思想要先想清楚,比如校赛的题目,选择哪几个数据量作为模型的元素、我用模型算法是要与什么进行评价对比,最后才能验证模型是准确、合适的。
往往最重要的不是选取什么模型算法,而是没法想到如何去验证模型,导致模型缺少验证,就不够严谨,最好是每个小问后面都能跟一个模型的评价或者验证,或者举用两个模型对比,验证我之模型准确合理性(参考优秀论文标准)。
模型的评价或者验证可以用测试集进行预测的方式发现预测结果与真实结果相符来佐证模型的可靠性,或者还可以采用平均精度、召回率等指标,对比佐证模型结果的可靠性,进而证明模型靠谱,等等等等。
此外具体问题具体分析,比如2021年建模B题要求根据气象特征对天气进行分类,一种方法是参考文献,可以根据降雨量、温湿度等五个特征分为5类,这样就可以先确定好结果再根据结果去选用模型,比如我已经决定分为5类,那么我可以将提供的所有气象的数据(风速、温湿度、降雨量等)进行聚类,采用K-means算法(因为这个已经知道5类,K取5)这样就知道可以选定采用聚类算法中的K-means算法作为所用的模型之一。
如果我没有阅读文献,我不知道该分为几类,那么就可以选择其他聚类算法模型,比如高斯混合模型,然后根据结果去分为几类,也可以这样,两种思路用的就是两个不同的模型。
但是无论哪种,思路逻辑要能自圆其说。
此外,像20年的一个题目要求根据预测接下来疫情的走势和发展变化,这种就可以考虑它随着日期的变化趋势,那么就可以选定基于时间序列的LSTM算法和时间分析法作为模型,如果题目没有要求或者我想基于周期或者基于死亡人数来预测趋势可能就不适用LSTM算法了,等等等等举的是我熟悉的例子,类似的还有很多。
四、校赛总结与其他注意事项:
按照我们校赛暴露的问题,我们存在逻辑紊乱(为啥选择B站为啥选择点赞数、评论数作为舆情影响因素,为啥不是其他元素这个我们没说明,是有漏洞的,逻辑上要没问题需要做一个相关性分析证明这几个因素对舆情正相关选用啥啥啥作为关键因素进行深入研究)、题目隐藏的点没找到题目回答的不全、校赛的前三问没做到关联(一般多少第一二问的结果或者结论会影响到第三四问)、基本没来及提到模型评价或者模型验证这个不是必需的模块,往年优秀论文中大多是涉及到的,有则更好。
最后,建模总结来说就是自圆其说的一个过程,必须要自己说服自己,我为啥这么做,这么做我考虑的是啥,然后我怎么证明我的模型是对的,它比其他人牛所以我一等别人二三等,如果论文全程能自圆其说基本上问题不大了。
(还有其他需要补充的注意事项或者上述所述不准确或者需要修改的地方,大家可以继续用不同颜色的字体补充或者直接修改,发回到群文档。
)
补充空间:
(可补充在这里,最后一页有我做的学习规划表,往下滑)
学习规划表
文献/题目学习的算法与模型进度/%备注周一
周二
周三
周四
周五
周六
周日
总计/篇已学会的算法模型:
可用于国赛的片段或者思路总结:
收获分享
这个学习表是我自己做的,下面的案例也是,可以参考这种格式,进行每周(或者每五天)一次学习打卡,等于变相督促自己学习,具体要不要这样做,如何做可以再讨论。
案例:
文献/题目学习的算法与模型进度/%备注
周一2018年C题遗传算法(GA)20%原理已经摸清、论文思路画了图更直观、
周二2018年C题遗传算法(GA)
旅行商算法
100%
50%
遗传算法会应用
旅行商目前看懂了原理
周三2019年A题......数据预处理方法可以直接
国赛用、...
周四...周五...周六...周日...
总计/篇已学会的算法模型:
可用于国赛的片段或者思路总结:
收获分享发现聚类算法应用较多,2019年C题优秀论文2019****C写的较好,大家可以看看。
建议:
每2天看1篇,一周3篇左右(至少一周2篇),暑假期间主要需要掌握或
者了解的算法有:聚类算法、Floyd算法、旅行商算法、模拟退火算法(SA)、BP神经网络、LSTM时间序列预测算法、贪婪算法、线性规划算法、遗传算法(GA)等。