网络知识 娱乐 争取理解深度学习中的专家混合体

争取理解深度学习中的专家混合体

专家混合层(MoE)是一个由路由器控制的稀疏激活的模型,在深度学习中取得了巨大成功。.然而,对这种结构的理解仍然难以捉摸。.在本文中,我们正式研究了MoE层如何提高神经网络学习的性能,以及为什么混合模型不会崩溃成一个单一的模型。.我们的经验结果表明,基础问题的集群结构和专家的非线性是MoE成功的关键。.为了进一步理解这一点,我们考虑了一个具有挑战性的分类问题,在固有的集群结构中,使用单一的专家很难学会。.在MoE层,通过选择专家作为两层非线性卷积神经网络(CNN),我们表明该问题可以被成功地学习。.此外,我们的理论表明,路由器可以学习集群中心的特征,这有助于将输入的复杂问题划分为更小的线性分类子问题,单个专家可以征服。.据我们所知,这是正式了解深度学习的MoE层主题机制的第一个结果。.

《Towards Understanding Mixture of Experts in Deep Learning》

论文地址:http://arxiv.org/abs/2208.02813v1