您当前的位置:创新研究网资讯正文

韩松朱俊彦等人提出GAN紧缩法算力耗费不到1/9现已开源

放大字体  缩小字体 2020-03-23 22:23:48  阅读:7297+ 作者:责任编辑NO。魏云龙0298

选自arXiv

作者:Muyang Li等

机器之心编译

机器之心编辑部

GAN 也可以大幅紧缩,MIT 韩松团队的最新研讨让许多研讨者们为之一振。

生成模型 GAN 是机器学习范畴里最为重要的发展趋势之一。但这类算法需求耗费巨量算力,大大都研讨者现已很难得出新作用。近年来,这一方向颇有被大型组织独占的趋势。

但近来,来自麻省理工学院(MIT)、Adobe、上海交通大学的研讨者提出了一种用于紧缩条件 GAN 的通用办法。这一新技术在坚持视觉保真度的一同,将 pix2pix,CycleGAN 和 GauGAN 等广泛运用的条件 GAN 模型的核算量削减到 1/9~1/21。该办法适用于多种生成器架构、学习方针,配对或非配对设置。

现在该研讨的论文已被 CVPR 2020 大会录入,有关 GAN 紧缩结构的 PyTorch 版完成也已开源。

项目链接:https://github.com/mit-han-lab/gan-compression

GAN 紧缩后的详细功能怎么?在研讨者们展现的 Demo 中,运用 CycleGAN 为视频中的马添加斑马条纹所需的算力不到 1/16,帧数进步了三倍,而且作用还有所进步:

值得一提的是,该研讨所运用的硬件渠道是英伟达的边际 AI 核算芯片 Jetson Xavier GPU。根据官方发布的数据,Jetson Xavier 的 INT8 算力为 22+10TOPS,骁龙 865 则是 15TOPS。紧缩后的 GAN 现在看来现已可以跑在机器人、无人机等小型设备上了,未来塞进手机指日可下。

论文链接:https://arxiv.org/pdf/2003.08936v1.pdf

全体介绍

出产对立网络(GANS)拿手组成十分传神的图画。GAN 的一种变体——条件式生成对立网络(conditional generative adversarial network,cGAN)在许多核算机视觉和图画学运用中都可以完成可操控的图画组成。但这些运用大都需求模型与人互动,因而需求低推迟的设备上才干取得更好的运用者实在的体会。

但是,近来推出的一些 cGAN 在核算强度上比当时辨认卷积神经网络(CNN)大 1 至 2 个量级。举例而言,GanGAN 每张图画耗费 281G Macs,而 MobileNet-v3 仅需 0.44G Macs,这就导致前者很难用于交互式布置。

而且,就现在来看,边际设备又大都遭到内容以及电池之类硬件层面上的约束,也阻止了 GAN 在边际设备上的布置。

因而,根据 GAN 和 cGAN 在图画组成范畴存在的这样一些问题,韩松团队提出了 GAN 紧缩,这是一种通用紧缩办法,用于削减 GAN 的推理时刻以及核算本钱。一同,紧缩生成模型面对两个根本困难:GAN 练习不安稳,尤其是在未配对的情况下;生成器与 CNN 不同,因而很难运用现有的 CNN 规划。为了处理此问题,团队将常识从原始的教师生成器中心标明层传递到其相应的学生生成器层中。

为了下降练习本钱,团队还经过练习包括一切或许通道数的「once- for-all network」,将模型练习与架构查找别离。这个「once-for-all network」可以终究靠权重同享发生许多子网络,无需练习就可以评价每个子网络的功能。该模型可运用至各种条件下的 GAN 模型,不论其归于哪种模型架构、学习算法或监督设置(配对或未配对)。

经过很多的试验,团队已证明了此办法可以将 pix2pix,CycleGAN 以及 GauGAN 三种广泛运用的 GAN 模型核算量削减至 1/9 到 1/21,一同还不会丢失生成图画的保真度。

详细办法

咱们都知道,对用于交互式运用的条件式生成模型进行紧缩具有挑战性,这主要是由以下两方面原因形成的。其一,从本质上讲,GAN 的动态练习十分不安稳;其二,辨认和生成模型之间存在的巨大架构差异导致很难直接运用现有的 CNN 紧缩算法。

根据这些原因,研讨者提出了专门针对高效生成模型的练习方案,并运用神经架构查找(NAS)进一步添加紧缩比。GAN 紧缩结构全体架构如下图 3 所示,其间他们运用 ResNet 生成器作为示例。需求着重的是,同一结构可以运用于不同的生成器架构和学习方针。

图 3:文中 GAN 紧缩结构的全体架构图。

方针函数

1. 一致配对学习和非配对学习

广泛的练习方针使得构建通用紧缩结构十分困难。为了处理这一问题,研讨者在模型紧缩设置中一致了配对和非配对学习,不论教师模型开始是怎么练习的。给定原始教师生成器 G′,研讨者将非配对练习设置转换为配对设置。关于非配对设置,可以将原始生成器输出视为真值并运用配对练习方针练习紧缩后的生成器 G。

学习方针总结如下:

根据这些修正,现在可以将同一个紧缩结构运用于不一样的 cGAN。而且,与原始的非配对练习设置比较,运用上述伪对(pseudo pair)进行学习可以使练习愈加安稳,并发生更好的成果。

2. 从教师判别器中学习

虽然此研讨致力于紧缩生成器,但判别器 D 中储存着 GAN 的有用信息。因而,研讨者运用了同一个判别器架构,运用来自教师判别器的预练习权重,与紧缩生成器一同微调判别器。

在试验中,研讨者观察到,预练习判别器可以辅导学生生成器的练习。运用一个随机初始化的判别器一般会导致练习不安稳及图画质量下降。这个 GAN 的方针可以写成以下办法:

在上式中,研讨者运用来自教师判别器 D′的权重来初始化学生判别器 D。他们运用一个规范的极小化极大优化器练习 G 和 D。

3. 中心特征蒸馏

常识蒸馏是 CNN 模型紧缩用到的一种遍及办法。经过匹配输出层 logit 的散布,可以将来自教师模型的暗常识(dark knowledge)迁移到学生模型中,进步学生模型的功能。但是,条件 GAN 一般会输出一个确认的图画,而不是概率散布。

为了处理上述问题,研讨者匹配了教师生成器的中心标明。中心层包括的通道越多,它们所能供给的信息越丰厚,学生模型所获取的输出之外的信息也越多。蒸馏方针如下:

其间,G_t(x) 和 G′_t(x) 是学生和教师模型中第 t 个被选层的中心特征激活,T 标明层数。

4. 完好优化方针

终究方针可以写成如下办法:

其间,超参数λ_recon 和 λ_distill 操控每个项的重要性。

高效生成器规划空间

挑选一个规划杰出的学生架构对终究常识蒸馏的作用是至关重要的,研讨者发现,光是减缩教师模型的通道数量并不能使学生模型更紧凑:当核算减缩量超越 4 倍时,功能就会明显下降。

1. 卷积分化和层灵敏度

现有的生成器一般选用传统卷积来匹配 CNN 分类和分段规划。近来一些高效的 CNN 规划广泛选用卷积的分化办法(depthwise + pointwise),在功能和核算二者之间的均衡性更好。研讨者发现,分化的卷积也可以用在 cGAN 的生成器规划上。

2. 运用 NAS 完成主动裁剪通道

现有的生成器在一切层上运用手动规划(而且简直一致)的通道数,如此一来就会发生冗余,远非最优办法。为了进一步进步紧缩功率,研讨者运用通道剪枝(channel pruning)来主动挑选生成器中的通道宽度,然后削减冗余,二次削减核算量。这一办法支撑有关通道数的细粒度挑选,针对每个卷积层,可以从 8 的倍数中挑选卷积层,然后平衡 MAC 和硬件并行性。

解耦练习与结构查找

研讨者按照最近 one-shot 的 NAS 办法的研讨,将模型练习与架构查找脱钩。首要,练习一个支撑不同通道数量的「once-for-all」网络,其间的每个子网络都经过了平等练习。图 3 阐释了整个结构。研讨者假定原始的教师生成器有

个通道,关于给定的通道数

,从「once-for-all」的权重张量提取第一个

通道,取得子网络的权重网络。

在每一个练习过程中,运用学习方针对具有某一通道数的子网络进行随机取样,核算输出和梯度,更新提取的权重(公式 4)。因为最早被抽取的几个通道更新频率更高,它们在一切权重之中扮演着更为要害的人物。

这个「once-for-all」网络练习好之后,研讨者直接在验证集上评价了每个子网络的功能,找出了最佳的子网络。「once-for-all」网络现现已过了权值同享的完全练习,无需再进行微调(fine-tuning)。这个成果近似于从头开始练习模型的功能。

经过这种办法,只需求练习一次,且无需再进一步练习,就能评价一切评价一切通道的装备,并根据查找成果找到其间最佳。当然,也可以对选中的架构进行微调来进一步进步其功能。

试验成果

研讨者在以下三种条件式 GAN 模型上进行试验以验证文中 GAN 紧缩结构的泛化性,它们别离是 CycleGAN、Pix2Pix 和 GauGAN。所运用的四个数据集为 Horsezebra、Edgesshoes、Cityscapes 和 Mapaerial photo。

下表 1 展现了在上述四个数据集上紧缩 CycleGAN、Pix2Pix 和 GauGAN 模型的量化成果。

表 1:三种条件式 GAN 模型紧缩的量化评价,其间 Cityscapes 数据集上运用 mAP 衡量(越高越好),其他数据集上运用 FID 衡量。成果显现,在功能细微下降的情况下,文中 GAN 紧缩办法可以在 MACs 大将当时 SOTA 条件式 GAN 紧缩 7 至 21 倍,在模型巨细上紧缩 5 至 33 倍。关于 CycleGAN 模型紧缩,文中 GAN 紧缩办法远优于以往的 CycleGAN-specific Co-evolution 办法。

功能与核算之间的权衡

该办法除了可以完成较大的紧缩率以外,一同其也可以进步不同模型巨细的功能。下图 6 显现了在 pix2pix 模型中,在不同数据集上的功能与核算的权衡。

图 6:在 Cityscapes 与 EdgesShoes 数据集上 pix2pix 的权衡曲线。剪枝与蒸馏办法在大型模型中超出了从头开始练习,但是在模型被急剧紧缩时体现较差。

作用展现

下图 4 为运用该办法得到的作用展现。图中别离给出了输入数据、规范输出、原始模型输出以及紧缩后模型的输出。从图中可以精确的看出,即便在较大的紧缩率下,研讨者所提办法依然能坚持输出图画的视觉可信度。

图 4:Cityscapes、EdgesShoes 以及 HorseZebra 数据集上作用比较。

硬件推理加快

关于实在场景交互运用而言,在硬件设备上推理加快的重要性要远大于削减核算耗费。如下表 2 所示,为验证所提办法在实践运用中的有效性,研讨者在具有不同运算功能的设备上面测试了紧缩模型的推理速度。

表 2:在 NVIDIA Jetson AGX Xavier、NVIDIA Jetson Nano、1080Ti GPU 和 Xeon CPU 上测到的内存和推迟下降。

定论

在本文中,韩松团队提出的通用紧缩结构可以明显下降条件式 GAN 中生成器的核算花销和模型巨细,而且经过常识蒸馏和天然架构查找来进步练习安稳性以及模型功率。试验标明,文中提出的 GAN 紧缩办法可以在坚持视觉质量的一同紧缩数种条件式 GAN 模型。他们标明,未来的研讨工作将侧重于下降模型推迟以及构建生成视频模型的高效结构。

首期「AI 开发者生长方案」由机器之心联合微众银行开设《联邦学习 FATE 入门与运用实战》公开课,并特邀合作伙伴 VMware 带来为期 4 周共 6 期课程,设置主题解说、项目实操、在线答疑等环节,协助 AI 开发者从零入门联邦学习。公开课第四课将于 3 月 24 日开讲,欢迎我们报名参加。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!