网络知识娱乐争取理解深度学习中的专家混合体

争取理解深度学习中的专家混合体

发布: 2023年2月14日 10:17:50

专家混合层（MoE）是一个由路由器控制的稀疏激活的模型，在深度学习中取得了巨大成功。.然而，对这种结构的理解仍然难以捉摸。.在本文中，我们正式研究了MoE层如何提高神经网络学习的性能，以及为什么混合模型不会崩溃成一个单一的模型。.我们的经验结果表明，基础问题的集群结构和专家的非线性是MoE成功的关键。.为了进一步理解这一点，我们考虑了一个具有挑战性的分类问题，在固有的集群结构中，使用单一的专家很难学会。.在MoE层，通过选择专家作为两层非线性卷积神经网络（CNN），我们表明该问题可以被成功地学习。.此外，我们的理论表明，路由器可以学习集群中心的特征，这有助于将输入的复杂问题划分为更小的线性分类子问题，单个专家可以征服。.据我们所知，这是正式了解深度学习的MoE层主题机制的第一个结果。.

《Towards Understanding Mixture of Experts in Deep Learning》

论文地址:http://arxiv.org/abs/2208.02813v1