Meta推出新版自研AI芯片：性能较上代提高三倍，降低对英伟达依赖

访客 2024-04-11 12:12:51 89134 抢沙发

默认

AI（人工智能）芯片紧缺之际，越来越多科技巨头选择自行研发。

当地时间4月10日，社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片系列。和去年五月官宣的Meta第一代AI推理加速器MTIA v1相比，最新版本芯片在性能上有显著提升，专为Meta旗下社交软件的排名和推荐系统而设计。分析指出，Meta的目标是降低对英伟达等芯片厂商的依赖。

10日当天，Meta（Nasdaq：META）股价收于每股519.83美元，涨0.57%，总市值1.33万亿美元。Wind数据显示，自今年年初以来，Meta股价已涨超47%。

从名字来看，MTIA即为“Meta训练与推理加速器（Meta Training and Inference Accelerator）”的缩写。尽管含有“训练”二字，这款芯片实际上并不是为AI训练所优化的，而是专注于推理，即在生产过程中运行AI模型的任务。

Meta在博客文章中写道，MTIA是公司“长期计划的重要组成部分”，旨在Meta的服务中使用AI来构建基础设施：“为了实现我们对定制芯片的雄心，这意味着不仅要投资于计算芯片，还要投资于内存带宽、网络和容量以及其他下一代硬件系统。”

Meta新款MTIA芯片。来源：Meta官网

据介绍，新款MTIA芯片“从根本上专注于提供计算、内存带宽和内存容量的适当平衡”。初代MTIA v1芯片采用台积电的7nm制程工艺，而新款 MTIA 芯片采用台积电的5nm工艺，拥有更多的处理核心。该芯片将拥有256MB的片上内存，频率为1.3GHz，而MTIA v1的片上内存为128MB和800GHz。Meta的早期测试结果显示，通过测试两种芯片的“四个关键模型”的性能，新芯片的性能是一代版本的三倍。

在硬件方面，为了支持下一代芯片，Meta开发了一个大型机架式系统，最多可容纳72个加速器。它由三个机箱组成，每个机箱包含12个板，每个板包含两个加速器。该系统可以将芯片的时钟频率从初代的800 MHz提高至1.35GHz，并以90瓦的功率运行，而初代设计的功耗为25瓦。

Meta为MTIA开发的大型机架式系统。来源：Meta官网

在软件方面，Meta强调，新芯片系统运行的软件堆栈与 MTIA v1非常类似，加快团队的部署速度。此外，新的MTIA与为MTIA v1开发的代码兼容，由于Meta已经将完整的软件堆栈集成到芯片中，开发者在几天内就可以使用这款新芯片启动并运行Meta的流量，使Meta能够在九个月的时间内将芯片落地到16个地区，运行生产模型。

根据Meta的总结，迄今为止的测试结果表明，这款MTIA芯片可以处理作为Meta产品组件的低复杂性 (LC) 和高复杂性 (HC) 排名以及推荐模型：“因为我们控制整个堆栈，与商用GPU相比，我们可以实现更高的效率。”

目前，新款MTIA芯片已被部署在Meta的数据中心，并展现出了积极成果：“公司能够为更密集的AI工作负载投入并投资更多的算力。事实证明，在针对元特定工作负载提供性能和效率的最佳组合方面，该芯片与商用GPU具有高度互补性。”

今年2月，已有外媒透露了关于第二代MTIA芯片的消息，称Meta拟在今年投产被内部称为“阿尔忒弥斯（Artemis）”的AI芯片，以进一步加速公司在AI领域内的扩张。当时，Meta发言人确认该计划属实，称该芯片将与Meta采购到的数十万个GPU协同工作。

随着AI竞赛加剧，高性能的AI芯片变得越来越抢手。今年1月18日，Meta的CEO马克·扎克伯格曾高调宣布，Meta正在计划构建自己的AGI（通用人工智能），计划在今年年底前获得约35万块来自英伟达的H100 GPU，再算上其他GPU，公司拥有的算力总和将接近于60万块H100所能提供的算力。即使按照明星芯片H100的最低售价25000美元来计算，Meta仍将为35万块H100支付约87.5亿美元的支出。

当然，Meta并不是唯一一家将目光转向自研芯片的科技巨头。就在几天前，谷歌宣布其正在制造基于ARM架构的定制CPU，名为“Axion” ，计划让其支持谷歌云上的YouTube广告等服务，并将于2024年晚些时候上市。此前，微软和亚马逊也都开始研发能够处理AI任务的定制芯片。

市场研究机构CFRA的分析师表示，这些大型科技公司正在面临成本上的压力，需要靠自研芯片来加以缓解。尽管这些芯片对于公司来说是“必要的”，它们在性能上可能无法追上英伟达最新的Blackwell平台产品。

标签：芯片英伟