谷歌更新Transformer架构 更节省计算资源!50%性能提升 谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。结果显示,在等效计算量和训练时间上,MoD每次向前传播所需的计算量更小,...