• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

互联网 diligentman 1周前 (10-18) 13次浏览

GOLD-NAS

本文是华为,清华与同济大学联合发表的基于可微分网络搜索的论文,论文目前已投递到 ICLR2021。本文基于传统DARTS搜索空间受限,二阶优化不稳定,超网络离散化误差大的这三个问题,对DARTS进行了一场全面的手术。本文针对上述三个问题提出了渐进式的(Gradual),一阶段的(One-Level),可微分的(Differentiable) 神经网络架构搜索(GOLD-NAS)。在标准的图像分类基准中,GOLD-NAS 可以找到单个搜索过程中的一系列的帕累托最优架构。

  • 论文题目:GOLD-NAS: Gradual, One-Level, Differentiable
  • 开源代码:https://github.com/sunsmarterjie/GOLD_NAS

DARTS目前的问题

搜索空间受限

DARTS的搜索空间非常有限,例如,对于每个边保留了一个运算符,每个节点固定接收两个前继输入,等等。这些约束有利于NAS搜索的稳定性,但它们也缩小了强大的搜索方法带来的准确性。最典型的,某些启发式设计(例如,每个单元格中有两个跳连运算符)或搜索技巧(例如,Early Stop),甚至随机搜索也可以达到令人满意的效果。

双层优化不稳定

DARTS需要双层优化,即训练阶段以优化网络权重验证阶段以更新体系结构参数。这种机制带来了计算负担,更重要的是,梯度估计存在很大的不准确性可能会大大降低搜索过程

离散化误差大

在超级网络建立之后,DARTS会立即剪掉弱的运算符和边,但此步骤可能会带来较大的离散误差,尤其是当权重为被修剪的运算符不能保证很小。

GOLD-NAS的解决方案

搜索空间重定义

  • 不同的Cell可以拥有不同的结构
  • 每条边可以包含超过一个操作
  • 每条边只保留两个操作(Skip-Connect 和 Sep-conv-3×3)
  • 每个节点可以选择从任数量的前继作为输入
  • 训练过程中,操作参数从原始的Softmax归一化(竞争)修改为Signoid元素化(独立)

一阶段优化

可微分NAS的目标是解决以下优化问题:


一阶段优化目标旨在同步更新架构参数











和网络权重











:


根据NAS的搜索架构我们了解到架构参数











(10数量级)和网络权重











(百万数量级)存在很大的参数数量差距
。因此,在之前的训练中往往采用不同的优化器设置不同的优化参数,但是,由于参数数量上的差距优化器仍然会趋向于优化网络参数











。本文,将训练集进一步切分为两部分































,分别训练架构参数和网络权重:




一级优化往往存在更严重的搜索不稳定问题,文中给出的解决方法是:针对小数据集(CIFAR-10)可以在训练过程中添加正则化(例如,Cutout或AutoAugment); 亦或是直接在大数据集(ImageNet)上搜索

基于资源约束的渐进式剪枝

传统的DARTS在超网络训练完成后按规则进行离散化剪枝,但是在兼职过程中会产生巨大的离散化误差。本文,为了解决离散化误差的问题采用的渐进式剪枝过程,并且在多次剪枝过程中,每次剪掉参数趋于0的操作,尽量避免因剪枝造成的离散误差。另外,为了实现架构参数在训练过程中趋于0或者1,本文添加了基于资源约束的正则化Loss:



GOLD-NAS 算法流程图

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
GOLD-NAS 算法流程图

结果

帕累托边界

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
帕累托边界

CIFAR-10 结果

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
CIFAR-10 结果
GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
CIFAR-10搜索结果可视化:红色线代表Skip-Connect;蓝色线代表sep-conv-3×3

ImageNet 结果

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术GOLD-NAS:针对神经网络可微分架构搜索的一次大手术



GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

神经网络架构搜索——可微分搜索(DAAS)

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

神经网络架构搜索——二值可微分搜索(BATS)

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

神经网络架构搜索——可微分搜索(Latency-DARTS)

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

神经网络架构搜索——可微分搜索(DARTS+)

GOLD-NAS:针对神经网络可微分架构搜索的一次大手术

神经网络架构搜索——可微分搜索(DARTS)




GOLD-NAS:针对神经网络可微分架构搜索的一次大手术
更多内容关注微信公众号【AI异构】

本文分享自微信公众号 – AI异构(gh_ed66a0ffe20a)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。


喜欢 (0)