• 微信公众号:美女很有趣。 工作之余,放松一下,关注即送10G+美女照片!

2021年美赛c题F奖论文分块讲解&建模历程

互联网 diligentman 1周前 (04-29) 7次浏览

先上证书:

2021年美赛c题F奖论文分块讲解&建模历程

刚看了下我们小群的历史消息,居然大半都是类似于“干饭干饭”这样()

我们队是在美赛前重组的,(之前和kana酱是同一组,同组男队员实在太拉了,不管性格还是能力).

三人实战经验無い,指导老师组织模拟过三次,我和小刘是气象学的同班同学.

小刘年级前1%,kana酱是计算机学院的年级前1%,我:(平平无奇二次元)

我们之前在不同组,国赛都拿了省三

小刘想靠美赛加分保研,kana酱和我一直没拿到什么耀眼的成绩,想在本科最后一次数模比赛中出一口恶气.

小刘之前做A题多一些,没碰过统计,我和kana一直选c但没做出什么成绩,严重缺乏自信心,所以出成绩第二天,刚起床,看到拿了Finalist(震惊)(不是眼花了吧.jpg)

然后开始分析题目和讲一下我们的解题方法和思路吧!

第一问:预测有害生物随时间的传播和准确度

(这题是小刘做的,我来简要阐述)

随时间传播,必然要考虑到空间上和数量上,小刘选用(48.5N°-49.5N°, 123.5W°-121.5W°) 用于后续分析和预测,考虑到胡蜂分布与巢位密切相关,用NAA(Predict the range of activity from original nest to new nest)模型来定位巢穴并预测蜂的活动范围,兼并考虑华盛顿州的地形作用,来改进原有NAA模型,并构建误差矩阵来计算准确性和灵敏度.我则使用了基于信息扩散和人口增长的Fick-logistic扩散模型来解决数量增长问题.

NAA模型基本思路:对空间进行离散处理后,基于往年胡蜂位置的历史数据,以及胡蜂觅食的特性,构建胡蜂出现概率p与位置离散点的分段函数p(i,j),然后通过聚类算法将空间点分为两类,自然,p较大的一类的空间点即为nest可能出现的位置,个数即为预计的巢穴位置的总数。

同时引入queen的经验建巢距离,以达成根据方程组预测新巢位置的目的.同时考虑到一般觅食在2km以内,为了增加2km范围内黄蜂出现概率,对公式加入订正因子.

最后得到的结果也很好,预测范围包含所有实测范围!且预测其主要向东南方向扩散,但考虑地形,华盛顿州西部有大片林地,有利于Asian giant hornets 筑巢繁衍。所以其更有可能向南进一步扩散。

最终构建的方程组如下:(另外,推荐在建模的过程中由简入繁,从模型简单到复杂完善化的过程全部po在论文上,这样看起来思路完整)

2021年美赛c题F奖论文分块讲解&建模历程

构建误差矩阵计算准确性的过程比较基础,如下,不再赘述:

2021年美赛c题F奖论文分块讲解&建模历程

数量预测方面(我做的):

基于胡蜂的种群数量动态特征,将胡蜂的数量增长分为两类:某蜂群内部的受精繁殖过程称为“内部增长”,将不同的两个群落之间互相影响而相互受精繁殖的过程称为“外部增长”,再耦合:

  • logistic 模型——自然状况下的,种内竞争加剧,的世代重叠的连续种群增长模型

  • Fick 扩散模型——“菲克第二定律”:在物理学中,“扩散”是指某种物质分子通过一 个浓度梯度或浓度差异移动的现象,即物质分子由高浓度区域移至低浓度区域,至分子均匀分布为止 .

生成关于种群密度的,两种模型的混合模型,以偏微分方程组的形式,再设置初边界条件,以求解偏微分方程.

可圈可点的是,我使用了数值模拟生物实验的过程以得到华盛顿州内胡蜂种群密度,因为美国于 2020 年九月份于加拿大不列颠哥伦比亚省温哥华岛(49°23‘𝑁, 123°06′𝑊) 第一次发现了胡蜂巢,故以此为源点,且时间序列从 2020 年九月开始统计胡蜂的出现量.

在如下参数设置下进行了蒙特卡洛数值模拟仿真实验:

  1. 初始密度𝜙(𝑥, 0):由开始传播前的密度估计量所决定. 𝜙(𝑥, 0) = 8.231

  2. 内部繁殖率 r:根据已经确定的参数与混合模型,对 r 进行多次拟合,得到

    r=0.02735(with 95% confidence bounds (0.0265,0.0282))

  3. 环 境 所 能 容 纳 的 最 大 限 度 N:N=42.34(with 95% confidence bounds

    (11.26,73.84)).

  4. 外部增长率 d:其反应任意两个蜂群之间的互相繁殖增长率,因为随着时间的

    推移,群体与群体之间繁殖扩散的程度会逐渐趋于均匀,即外部参数是看作 时间 t 的递减函数,如下等式所定义:

    𝑑(𝑡) =1.4𝑒J<.K(LJ<) + 0.25

根据上述参数设定,对胡蜂群落的增长过程进行了数值仿真模拟, 并改变传播参数模 拟美国 2020 年 10 月下半月进行的清剿巢穴活动对种群密度的影响作用.执行仿真 过程的步骤如下:

1. 输入初始参数(与估计出的 2019 年 9 月种群密度一致),时间上限设为 400 天,设定仿真计数参数为1

2. 计算 t=i+1 时的种群密度,更新 N(t)并记录

3. 重复执行步骤 2,直到到达清剿巢穴活动开始的时间点(i=375)

4. 清剿巢穴的作用不但在于直接减少种群密度,还在于削减了不同蜂群之间的交流繁殖,对外部增长率 d 有明显衰减作用.减少 d 来模拟此过程. 5. 重复计算 t=i+1 时的种群密度,更新𝜙(t)并记录,直到达到仿真上限时间.

2021年美赛c题F奖论文分块讲解&amp;建模历程
不同增长率的数值仿真结果

可以看出,政府若不实行清剿行动,每 15 天蜂群密度扩张将呈现指数型增长.

然后计算预测准确率的评价函数,通过三次样条将数据插值,得到不 同时间对应不同距离上种群密度的预测准确率情况(结果不错):

 

2021年美赛c题F奖论文分块讲解&amp;建模历程

至此,第一问结束.

可以改进的部分:

我是学气象的啊啊啊,一定是专业课没学好的缘故,当时没有想到暖湿气流对胡蜂的分布状况也具有影响(冬季,胡蜂对暖湿的地区具有倾向性,可以在NAA以及数量扩散加入影响因子),如果考虑了过落基山的风速风向以及下沉气流是焚风还是布拉风,只需要下载NCEP数据,截出美国的经纬度矩阵…再做一点中尺度的分析,总体上来说一定更完备.

写得太慢了还复不复习考研了()

准备把第二三四放在一起写:(这三题是我和kana酱一起做的)

第二问:利用图像集和文本数据集,对胡蜂进行分类,分析准确性

第三问:用训练好的分类模型分类unverified和unprocessed(其实就是应用以及建立好的模型分类未知数据)

第四问:在有新报告加入的情况下更新分类模型

我先对图像和comments数据进行了清洗和处理,将图像全部整理成jpg格式(matlab程序批处理,个别自己手动调的),并删除了detection date中的乱码日期和1980年的信息条,隐藏了submission date.然后在一本关于图像处理的古籍上看到了图像配准的黑科技,它可以处理图像的扭曲变形,输入一张标准参考图像,可以使得未经处理的图像与标准图像视角一致,有利于后期图像的量化,效果如下:

2021年美赛c题F奖论文分块讲解&amp;建模历程

然后kana酱学过图像处理,就交给她量化了….!

2021年美赛c题F奖论文分块讲解&amp;建模历程

她运用了主成分分析,得到四个主成分:颜色成分,图片目标清晰度成分,位置信息,notes情感色彩成分,以便农业部在进行筛选时着重注意以上四点.

然后整理出了用于分类的训练数据集,格式如下:

2021年美赛c题F奖论文分块讲解&amp;建模历程

构建贝叶斯分类器(机器学习那一卦的,python直接调包),第二题用十折交叉验证(Bayes包里的一句命令)算准确率(68%)和召回率(93%)

第三题:Classification of unverified and unprocessed events

也许因为指标多,数据充足,朴素贝叶斯分类器分类性能很好,结果分出七个阳性.

第四题,一种基于赋权淘汰更新机制的集成分类器

将训练数据分为等大的单位数据块,每个数据块中包含数量相同的样本数据. 集成分类,对基分类器实现动态更新和为基分类器分配合适的权重,即集成分类器的动态 迭代更新,可以在此基础上提出一个加权函数,对具有不同参数特征的数据流进行有针对 性的获得基分类器的最佳权重,从而提升集成分类器的整体性能.

简单的说,就是选一个性能较好的传统分类器,比如NB,SVM什么的,对默认参数进行调整,整合出适合我们自己的基分类器(马克思中国化(什)),综合所有原因,且基于风险最小化的 SVM 对小数据量分类很友好,由上分析,最终选用 SVM 分类算法.

2021年美赛c题F奖论文分块讲解&amp;建模历程

对下一个到来的数据块,先利用集成分类器{𝐸#, 𝐸%, 𝐸&, … , 𝐸(}对每个数据分类,得到新 数据块的分类准确率,将旧基分类器的准确率与新分类器的进行比较,淘汰掉效果不好的基分类器.

初始权重全定义为1,有数据块投入后将分错率的倒数作为基分类器的权重. 将所有分类结果进行加权平均作为集成模型的最终结果,若有新报告被提交,则在累积够一个数

据块所包含的最佳样本数后,聚成一个数据块投入集成分类器,后通过比较当前模型中各 集成分类器的分类准确率与此前已完成分类的数据块来进行模型更新,淘汰掉已经不适 应现有数据概念的基分类器.

思想大致如上,至于最佳样本数,毋庸置疑,可以用来解释时效性,于是我们运行模型,讨论每次引进的数据块中所含提交报告数 n 对分类器性能的影响(即控制参数查看结果,相当于敏感性实验)

2021年美赛c题F奖论文分块讲解&amp;建模历程
不同数据块中所含提交报告对集成分类器的性能的影响

由表清晰可得当每次输入的新数据块中含有 25 个信息条时模型效果最好,即每次额外的新报告累积达到 25 条时,聚成一个数据块投入分类器,此时集成分类器具有较高的分类准确率和较好的性能.即更新的频率为每 25 条提交报告更新一次分类模型.第四题至此结束!

可以改进的部分

是在短期气候预测课上想到的,可以使用泰勒图(Taylor diagram)来选取最优基分类器,其气象应用是可以通过一张图直观衡量不同模式和真实观测结果之间拟合程度,精度指标有相关系数,标准差以及均方根误差(RMSE),可以依此来选出最佳模式.同理,可以用此图来选择最佳基分类器,如下:

2021年美赛c题F奖论文分块讲解&amp;建模历程
泰勒图
2021年美赛c题F奖论文分块讲解&amp;建模历程
我们在论文所使用的算法比较图

第五题明早专业英语课上写…..已经错过饭点了呜;  ;

第五题:给出可以确定胡蜂在华盛顿州灭绝的证据

为了确定一个物种的灭绝,最有效与常用的手段就是持续检测。监测时间的长短极大地影响了结果。时间过短,有可能造成“遗漏”,从而种群又重新增长起来;时间过长,又可能造成人力物力的浪费。所以需要合理的评价物种灭绝的模型来对二者进行权衡.

REA(Rapid eradication assessment快速根除估计)模型经常被用来评价一个物种被灭绝的可能性,因为构建检测网格在线上无法实现(数值模拟大约需要很多计算资源以及复杂的方程式,我们不是此专业并不了解),所以我们参考了两篇经济学报文章:有关一次岛屿上的田鼠灭除记录的数据,我们更多地监测可能来自于群众的目击。因此,我们仅借用REA中的Bayesian logic 来确定在无目击情况下物种消除成功的条件概率P(success | no detection),构建P(success | no detection),与P(detection)t ( 在时间t至少发现一只 Asian giant hornet的概率)之间的关系式,从而,用描述民众目击到的胡蜂个数来判断胡蜂是否已被根除.

我们对P(detection)t取不同值进行模拟,选取时的临界值作为判断the eradication of vespa mandarinia的第一判据;

得到在不同发现概率的情况下所对应的根除成功率:

2021年美赛c题F奖论文分块讲解&amp;建模历程

结果:显然,当发现胡蜂的概率为0.013时,其确认灭除成功概率随时间显著递增:

为此我们提出了判断the eradication of vespa mandarinia的第一判据:一年中在华盛顿州发现Asian giant hornets的概率应小于0.013。即:每有1000个detetions,最终被证实存在Asian giant hornets的detection的数目应不超过13。

第二判据则参考实际情况,如果发现的是一只落单的胡蜂,但却将其计入P_detection是不准确的,所以给出判断此是否是一只落单胡蜂的判据二:

根据胡蜂的习性,它不会在距离巢穴八公里之外的地方觅食,以8km为半径则以16km为直径,那在其周围的16km内若没有发现其余的Asian giant hornet,我们可以近似认为这只Asian giant hornet是“被遗漏”的个体,且不具备繁殖能力。示意图如下:

2021年美赛c题F奖论文分块讲解&amp;建模历程

 

并以第二判据为基础来修正第一判据.

综合以上两个判据提出最终的判别标准:

若公众在一年以内观察胡蜂出现概率,若其检测概率小于1.3%(在95%置信区间下),且其周围16km内均无发现新胡蜂,综上两者,可以顺利地证明华盛顿州政府已经把有害生物的数量减少到一个安全的水平,政府可以公开宣布有害生物已经被彻底消灭。

至此,第五题结束.

总的来说,我觉得能拿到F的原因在于我们队的论文有如下优点:

1.完整解决了题目中给出的问题

2.基于实用的角度和目标来着手做&回答问题

比如,在memo中插入了便于政府理解的图片,以及在进行分类时显著的分类特征:

2021年美赛c题F奖论文分块讲解&amp;建模历程

即把题目当作正在解决的问题,以利于方便政府去着手处理的角度去写论文.

3.学点机器学习(简单又好用,直接调包大胜利)

可以找一些比较古老的书,里面说不定会有黑科技(比如图像配准)

4.最重要的,有靠谱的好队友.

2021年美赛c题F奖论文分块讲解&amp;建模历程

OVER~~!

 

 

 


程序员灯塔
转载请注明原文链接:2021年美赛c题F奖论文分块讲解&建模历程
喜欢 (0)