您当前的位置:创新研究网资讯正文

Bengio等人提出新型循环架构大幅提升模型泛化性能

放大字体  缩小字体 2019-10-08 16:17:48  阅读:2547+ 作者:责任编辑NO。魏云龙0298

选自arXiv

作者:Anirudh Goyal

机器之心编译

参加:路雪

近来,来自 Mila、哈佛大学等组织的研讨者提出一种新式循环架构——循环独立机。它具有专门化特性,可以大幅提高模型在很多不同使命上的泛化功用。

模块化结构可以反映环境动态,学习这类结构可完成更好的泛化作用和对细小改动的稳健性。最近,来自 Mila、哈佛大学等组织的研讨者提出循环独立机(Recurrent Independent Mechanism,RIM),这一新式循环架构包括多组循环单元,它们可以处理简直独立的转化动态(transition dynamics),仅经过留意力瓶颈进行稀少通讯。此外,这些循环单元仅在最具相关性的时刻步处进行更新。该研讨证明,RIM 具有专门化(specialization)特性,并反过来大幅提高了模型在很多不同使命上的泛化功用。

模块化结构

国际的物理进程一般具有模块化结构,而把各个较简略的子体系组合起来有必定的杂乱度。机器学习测验发现并运用物理国际中的规则。虽然这些规则表现为计算学依靠联络(statistical dependency),但它们的底层逻辑是物理国际中的动态进程。这些进程一般是相互独立的,只存在偶然交互。例如,咱们可以将两个球的运动建模为两个独立的机制,虽然它们都阅历了地球引力和彼此之间的弱引力。可是,它们或许偶然才经过磕碰发作强交互。

独立或自主机制的概念在因果揣度范畴中有很强的影响力,它不只应用于动态进程,还可用于时刻无关数据集。例如,给出某地的海拔高度,则该地年平均温度的条件散布是因果机制的笼统(包括多个杂乱的物理进程,如气压等),它独立于该地的海拔分。因而,这可套用到相同气候区中具有不同海拔散布的不同国家。

一个杂乱的生成模型,不管它是否为时序模型,都可看作是独立机制或「因果」模块的组成体。在因果揣度范畴,这一般被以为是对此类模型所确认的变量履行部分干涉(localized intervention)的先决条件 (Pearl, 2009)。人们以为,当一个模块呈现改动时(如散布漂移),另一个模块或许坚持稳健性或坚持不变。你可以假定,假如大脑可以处理单个独立同散布使命以外的多个问题,那么学习可被灵敏重用、组成和修正的独立机制从而学得模块化结构,无疑是一种经济实惠的办法。

在动态设置中,咱们以为整个体系由多个相对独立的子体系构成,受力(force)和干涉(intervention)的影响,这些子体系跟着时刻不断演化。学习智能体无需每次都对一切子体系支付平等的留意力:在拟定决议计划或规划时,只要那些存在强交互的子体系才需要被联合考虑 (Bengio, 2017)。

这样的稀少交互可以下降学习难度,由于无需一次性考虑那么多交互,这也减少了调整子体系时的不必要干涉。按这种办法学得的模型更有或许捕捉到国际的组成生成结构(compositional generative structure)或因果结构,从而在多项使命上完成更好的泛化作用(这些使命中只要一小部分机制发作改动,大多数机制坚持不变)。推进该研讨的中心问题是:怎么使机器学习办法学习独立且稀少交互的循环机制,从而从模块化结构中获益。

具有稀少交互的循环独立机

该研讨提出的动态体系建模办法将整个模型分割成 k 个小的子体系(或模块),其间每一个都是可以捕捉动态的循环结构。研讨者将这些子体系称作循环独立机(RIM),每个 RIM 具有不同的函数,这些函数依据数据主动学得。RIM k 在时刻步 t 的状况为 h_(t,k),其间 t = 1, . . . , T。每个 RIM 具有参数 θ_k,一切时刻步同享这些参数。

图 1:循环独立机图示。

该模型的每一步包括四个阶段(左图展现了两步)。第一阶段,RIM 生成一个 query,从当时输入中读取数据。第二阶段,运用依据留意力的比赛机制(competition mechanism)依据编码视觉输入选择要激活的 RIM(右图),其间蓝色 RIM 为激活状况,白色 RIM 反之。第三阶段,激活 RIM 依照默许转化动态运转,而非激活 RIM 坚持不变。第四阶段,RIM 之间运用留意力进行稀少通讯。

整体来看,研讨者想让每个 RIM 默许处理自己独立的动态,与其他相关 RIM 和编码输入选中元素进行偶然交互。参数总量可以很小,由于 RIM 可以专用于简略的子问题。这种专门化和模块化特性不只具有核算和计算优势,还可以阻挠单个 RIM 主导及建模杂乱的组成机制。研讨者希望,比较于练习一个大型同质神经网络,RIM 可以带来更稳健的体系。此外,模块化还阐明,RIM 应该坚持其独立功用,即便其他 RIM 发作改动。

试验

试验方针是,证明 RIM 可以改进模型在不同环境和/或模块化使命中的泛化作用。该研讨不重视该办法是否超出高度优化的基线模型,而是想展现该办法面临很多不同使命时的通用性,且这些使命的环境是不断改动的。研讨者依照以下次序展现试验成果:依据时序形式、方针和二者处理泛化问题。

举一个 out-of-distribution 泛化的比如,研讨者发现,运用 RIM 可以将休眠期长度从练习阶段的 50 扩展到测验阶段的 200,并坚持完美功用(详见表 1),而基线办法(LSTM、NTM 和 RMC)的功用则呈现明显下降。

表 1:在仿制使命上的功用(左),在 sequential MNIST resolution 使命上的功用(右)。

研讨者考虑了一个归纳「弹跳球」使命,该使命中多个不同分量和巨细的球依据牛顿物理学移动。这个使命十分合适 RIM,由于除了球与球之间偶然发作磕碰,其他大部分时刻内这些球都是独立运动的。在练习阶段,研讨者运用 teacher forcing 在每个时刻步猜测下一帧。

研讨者将 LSTM 和 R-NEM 作为基线模型,然后输出 rollouts,成果发现 RIM 可以更好地猜测球的未来运动(示例见图 3、图 10 和图 4)。

图 3:猜测弹跳球的运动。给定前 15 个真值帧,体系猜测接下来 15 个时刻步。试验证明 RIM 的功用优于 LSTM(黑色是猜测成果,蓝色是真值)。留意 LSTM 猜测成果的重影。

图 10:RIM 与 LSTM 基线模型的比照。在这 4 个不同试验中,研讨者比照了 RIM 和两个不同的 LSTM 基线模型。在一切事例中,研讨者发现 rollout 过程中,RIM 比 LSTM 更精确地捕捉到球的运动轨道。

图 4:处理新式 Out-of-Distribution 改动。这儿,研讨者探讨了 RIM 和 LSTM 基线模型的功用比照状况。输入前 15 个真值帧,体系猜测接下来 10 个时刻步。在 rollout 阶段,RIM 可以更精确地猜测球的动态改动,图中蓝色线表明 RIM 的穿插熵,紫色线表明 LSTM 的穿插熵。留意,当测验集方针与练习集不一起,RIM 的 Out-of-Distribution 泛化作用明显优于 LSTM。

接下来,研讨者从 BabyAI 中选取了一个拾取物体的强化学习使命,即智能体必须在一堆物体中检索出方针物体,且这堆物体中存在搅扰项。下图 5 阐明,RIM 在该使命上的功用优于 LSTM。

图 5:模型对新搅扰项的稳健性。左:在拾取方针物体的使命中,RIM 的功用优于 LSTM。右:当这堆物体中又参加新的搅扰项时,二者的功用比照状况:RIM 优于 LSTM。

本文为机器之心编译,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!