关闭广告

MIT最新发现:这十年,算法进步被高估了

机器之心Pro2067人阅读



机器之心报道

机器之心编辑部

在过去十年中,AI 的进步主要由两股紧密相关的力量推动:迅速增长的计算预算,以及算法创新。

相比之下,计算量的增长较容易衡量,但我们仍然缺乏对算法进步的清晰量化,究竟哪些变化带来了效率提升,这些提升的幅度有多大,以及它们在不同计算规模下是否依然成立。

2024 年,有研究通过分析数百个语言模型,他们估计在过去十年里,算法进步在所谓的有效计算量(effective compute)方面贡献了超过 4 个数量级的提升;而根据对历史 AI 文献的分析,计算规模本身增长了 7 个数量级。

具体而言,所有算法创新加起来使模型的效率提高了大约 22,000 倍,这意味着在理论上可以用少得多的浮点运算次数(FLOPs)达到相同的性能水平。

然而,我们仍然缺乏对这类进步的精确分解,而关于算法进步来源的许多关键问题仍未得到充分研究。例如:各种算法改进之间是如何相互作用的?算法进步是由一系列小改动累积而成,还是由少数几次重大突破推动的?算法改进是像摩尔定律那样平滑持续地发展,还是呈现间断平衡(即长时间停滞 + 突然大跳跃)的模式?

为回答这些问题,来自 MIT 等机构的研究者采用了三种互补的方法:

  • 对语言模型中的重要算法改进进行消融实验;
  • 开展 scaling 实验,以测量不同架构在最优 scaling 行为上的差异;
  • 对数据与参数 scaling 转换进行理论分析。



  • 论文地址:https://arxiv.org/pdf/2511.21622
  • 论文标题:On the Origin of Algorithmic Progress in AI

最终得到三条结论:

1:经过实验评估的大多数算法创新都只带来了小幅的、与规模无关的效率提升,总体计算效率提升不到 10 倍,并且在推算到 2025 年的计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到 10%。这表明,与规模无关的算法进步在整体效率提升中所占的份额很小

2:本文发现有两项强烈依赖规模(scale-dependent)的算法创新:从 LSTM 到 Transformer,以及从 Kaplan 到 Chinchilla 。当将其外推到 2025 年的计算前沿时,这两项创新合计占据了全部效率提升的 91%。这意味着:对于小规模模型而言,算法进步的幅度比此前认为的要小几个数量级。

3:在规模依赖型创新的情况下,效率提升不仅需要持续的计算投入,而且算法进步的速度还强烈依赖于你选择的参考算法。换句话说,相对于某一个基线算法,连续模型之间的进步率可能看起来是指数级的;但相对于另外一个基线算法,它却可能完全为零。

总体来看,这些发现表明:算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长计算规模。同时,这也意味着算法进步对大模型开发者的益处远大于对小规模参与者的益处。



规模不变型算法

本文首先通过大量的消融实验来分析单个算法的影响,从而绘制出算法改进的细粒度图景。此外,本文还尝试估计了多项算法组合后的联合效果。

本文发现:原始论文(即提出某项算法改进的那篇论文)所声称的效率提升,往往远高于后续文献给出的估计,也高于本文的实验结果。



规模不变型算法的效率提升既小且分布高度不均

实验中发现,从 LSTM 切换到 Modern Transformer 的总效率提升为 6.28×,而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69×。这比 Ho 等人(2024)的估计(他们认为 LSTM→Transformer 的提升约 60×)小得多。

虽然本文确实观察到一些改进(例如 Adam 优化器、以及从 post-layernorm 切换到 pre-RMSNorm)带来了大约 2× 的效率提升,但作者测量的大多数创新带来的提升都很小。

有趣的是,他们看到一个高度偏斜的效率提升分布:尽管所有被消融的创新带来的提升都低于 4×,但提升倍数却极不均匀,主要集中在少数几项改进上,例如 Adam 或 pre-layernorm。

从这个角度来看,算法进步比之前想象的更加断裂 / 不连续:多年小幅改进之后,会出现一次较大的算法跃迁。

许多改进的效率提升幅度很小,这也推动本文开展第二部分实验,比较算法变化在不同规模下的影响,从而揭示这些变化对神经网络 scaling laws 的作用。

依赖于规模的算法

前文提到,算法改进在小规模模型上带来的收益非常有限。因此自然会产生一个问题:在大规模下,算法收益会变得更大吗?

因此,本文对不同架构、优化器,以及算法创新进行了 scaling 实验,以更好地理解它们的效率提升如何随计算规模变化。

实验模型主要为 LSTM、Transformer,以及两种 Transformer 变体:Modern Transformer、Retro Transformer。

规模扩展实验:从 LSTM 到 Transformer

图 4A 展示了 LSTM 与现代 Transformer 在 scaling 上的差异,图 4B 展示了现代 Transformer 与 Retro Transformer 的 scaling 差异。



Scaling 图表表明,神经网络架构的改进并不是规模不变的,而是具有随规模增加而回报提升的特性(increasing returns to scale)。

算法进步强烈依赖于算力规模与参考基线

算法进步可能主要由算力提升所驱动

本文提出一个疑问:此前将算法进步与时间挂钩的说法,是否其实是由算力投入的持续增长所驱动?

已有估计表明,前沿模型的计算预算正以每年 4.2 倍的速度呈指数增长。因此,随着算力预算呈指数级提升,算法进步的速率可能更多是受这一规律性的算力扩张所推动,而不是源于不断涌现的算法创新。

本文发现:在 2017–2025 年间,几乎所有可解释的算法进步都来自两项规模依赖型的创新:从 LSTM 换成 Transformer,以及从 Kaplan 换成 Chinchilla 的训练策略。其他所有算法改进加起来只占很小一部分。

在总计 21,400 倍(相对于 LSTM 模型)的性能提升中,本文发现 846 倍的提升是通过从 LSTM 模型转向 Kaplan Transformer 模型实现的,而近 10 倍的提升则归功于 Chinchilla 调整训练策略。这两项创新共同构成了总相对效率提升的 91%。



算法进步的速度,取决于你拿谁当对照组

如果算法变得更强,是不是意味着进步更快,其实这完全取决于你选谁来当参照物。换个参照物,算法进步的速度立刻就变了。

因为有些算法改进是规模依赖型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下几乎没作用。

这导致一个有趣现象:如果你用 LSTM 当参照:Transformer 系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约 63%,非常快);但如果你用 Transformer 自己当参照,随着规模变大,你只看到算法只比以前好 2 倍,几乎没增长。

也就是说:换个对照组,算法进步就从指数增长变成增长幅度很少。



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周定洋告别成都蓉城:人生最艰难决定!在对的时间开启新挑战

奥拜尔 浏览 1790

AI正在成为“孤独止痛药”,这是社交能力的一场不可逆退化

虎嗅APP 浏览 1790

马杜罗纽约"首秀"神态轻松 比"V字剪刀手"遭多方解读

红星新闻 浏览 6353

詹姆斯正建造两栋豪宅!11000平米一分为二:为布朗尼准备婚房?

罗说NBA 浏览 2409

三星单季利润暴增208%

21世纪经济报道 浏览 1755

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

北京日报客户端 浏览 5577

贾国龙宣战失败,西贝亏损超6亿元,到底谁的责任?

数字财经智库 浏览 1690

伯利再挖布莱顿,邮报:前布莱顿技术总监威尔加盟斯特拉斯堡

懂球帝 浏览 2260

球员是否因阿森纳输球更有动力?瓜帅:我建议他们专注于自己

懂球帝 浏览 1624

混动系统为内燃机续命 沃尔沃最新消息曝光

乐选爱车 浏览 2268

专家:美方受到来自北京的迎面正击 特朗普真没招了

澎湃新闻 浏览 11193

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 2014

或搭载激光雷达 长城硬派越野车谍照曝光

车质网 浏览 1911

洪九果品响退市警报,“榴莲大王”梦断资本路

斑马消费 浏览 2683

携程迎来监管风暴

华尔街见闻官方 浏览 1724

俄称控制一城镇 乌称击退多次进攻

环球网资讯 浏览 1688

智能设备迭代更新 酒泉将精准“跟拍”神舟回家影像

环球网资讯 浏览 5

同样是星二代,为什么她路人缘那么好?

伊周潮流 浏览 2315

杨振宁回国定居在清华园已超20年 为自家取名"归根居"

南方都市报 浏览 10528

保时捷失守中国市场

第一财经资讯 浏览 1921

科学家构建AI“赛博学术小镇”,让化工科研实现自主演化

DeepTech深科技 浏览 2825
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1