欧洲杯体育而是在每次迭代之间加入了一个言语推理的行径-开云官网登录入口 开云app官网入口
好家伙,AI 不测生成的内核(kernel),性能比东谈主类群众特意优化过的还要好!
斯坦福最近表现了一组新发现,终结果然太亮眼了。
由 AI 优化的内核,在常见深度学习操作上,翻倍卓绝原生 PyTorch,性能至多可以提高近 400% ——
矩阵乘法(Matmul,FP32):性能达到 PyTorch torch.matmul 的 101.3%。
二维卷积(Conv2D):性能达到 torch.nn.Conv2D 的 179.9%。
Softmax:性能达到 torch.softmax 的 111.8%。
层归一化(LayerNorm):性能达到 torch.nn.LayerNorm 的 484.4%。
Conv2D+ReLU+MaxPool 组合操作:性能达到 PyTorch 参考终了的 290.1%,以及 torch.compile ( ) 参考终了的 189.0%。
(在 NVIDIA L40S GPU 上进行基准测试,性能百分比界说为参考时间除以生成的 kernel_size 时间)
更惊东谈主的是,这一切都是不测终了的。
洽商团队蓝本的主义是生成合成数据以锤真金不怕火内核生成模子。
遣泄气现,仅在测试阶段生成的合成数据自己,果然可以生成性能相配优秀的内核。
围不雅网友:没猜测 AI 也要取代内核工程师了。
还有东谈主发现,除了性能大幅提高外,洽商团队接纳的方法也相配好奇好奇:
他们莫得简便的在操作上逐步优化(访佛于爬坡算法),而是在每次迭代之间加入了一个言语推理的行径,通过这种形式饱读舞搜索历程愈加各类化。
也等于说,他们是让系统在每次纠正时通过访佛"想考"的形式产生更多概念,从而找到更好的贬责决策。
具体如何终了,一谈来看。
改代码前先生成天然言语优化想想
按照斯坦福团队博客的形容,这种内核生成的想路相配简便——给定 torch 代码,然后告诉都能写编写自界说内核来替换 torch 算子。
这些内核是用纯 CUDA-C 编写,无需使用 CUTLASS 和 Triton 等库和 DSL(Domain-Specific Language,边界专用言语)。
不同于传统方法的是,模子并不是一上来就成功改代码,而是先用天然言语生成优化想想,然后再将这些想想悠扬为新的代码变体。
团队这么作念的原理是,"按划定修改"式的优化想路枯竭各类性,导致堕入局部极小值,重复走访吞并类退换或络续断地优化莫得出路的轨迹。
为了进一步增强想路各类性,斯坦福团队还使用了多分支的探索模式。
具体来说,他们的方法并非每一步都只优化一个候选决策,而是将每个概念散布开来,使其繁衍出多个终了,并使用性能最高的内核行动下一轮的种子。
团队使用 OpenAI o3 和 Gemini 2.5 Pro 挑战 KernelBench 1 级中的 10 个问题,运行多轮后,最好内核运转出现。
其中大深广最好终结出当今后续轮次(统统 5 轮),何况主如果第 4 轮或第 5 轮。
KernelBench 是斯坦福团队我方建议的一套 AI 生成内核测试基准,基准中的任务分为 3 个级别,其中 1 级是指单一原始操作(Single primitive operation),包括 AI 的基础构建块(举例卷积、矩阵 - 向量与矩阵 - 矩阵乘法、死亡函数、激活函数以及层归一化)。
这一发现再加上之前 DeepMind 的 AplhaEvolve,以及 o3 发现 Linux 的 0day 纰缪等一系列事件,让网友们以为 Gemini 2.5Pro 和 o3 的智商水平也曾达到了新的层级。
回到斯坦福的面貌,在生成历程当中,可以看到模子的生成想路运转泄漏出与东谈主类的熏陶相似之处——
内存走访优化: 提高不同内归档次结构(全局内存、分享内存、寄存器)之间数据出动的服从,并确保以最大化带宽和最小化突破的形式走访数据;
异步操作和延伸阴事: 通过将慢速操作(如全局内存走访)与策划或其他内存传输重复,"阴事"慢速操作的延伸;
数据类型和精度优化: 尽可能使用低精度数据类型(如 FP16 或 BF16)以减少内存带宽条件、提高缓存服从;
策划和提醒优化:提高算术策划自己的服从,减少提醒数目,或哄骗特意的硬件提醒;
并行性和占用率增强:最大化流多处理器(SM)上的步履线程数目,以更好地阴事延伸并提高合座浑沌量;
限定流和轮回优化:减少与轮回、分支和索引策划关系的支出。
何况斯坦福团队还展示了一组具体的优化轨迹,从中可以看出,并不是每一步优化都一定能让速率更快,但经过多个行径的组合,内核的速率能够获得大幅提高,并最终卓绝 PyTorch。
在具体终了上,有东谈主接头 AI 生成 CUDA 内核时的优化建议,是否可以被悠扬为对应代码终了、照旧说仅仅触发了立时探索?
作家恢复说,尽管还莫得进行更严谨的系统考据,然而手动查验的案例中,生成的 CUDA 视野与建议的优化建议是梗概匹配的。
即 AI 并不是在王人备立时作念优化,而是如确切尝试终了它我方建议的政策。
华东谈主主创团队不测发现
这项洽商共有三位作家:Anne Ouyang、Azalia Mirhoseini 和 Percy Liang。
Ouyang 咫尺是斯坦福大学膨胀智能履行室的博士生,她本硕毕业于麻省理工,曾在英伟达 cuDNN 团队责任。
Percy Liang 是斯坦福大学策划机科学副阐明兼统计学助理阐明,咫尺担任斯坦福基础模子洽商中心主任。
曾和李飞飞一谈发布、鼓动了多项洽商责任。
Azalia Mirhoseini 是斯坦福大学策划机科学助理阐明、斯坦福膨胀履行室首创东谈主。她曾在 DeepMind、Google Brain 以及 Anthropic 责任过。
她此前参与的洽商包括 MoE、芯片设策划法 AlphaChip 等。
本次洽商,蓝本是但愿生成数据来锤真金不怕火内核生成模子。
然而在历程中却出现了出东谈主预料的终结,仅在测试阶段生成的合成数据自己,果然可以生成性能相配优秀的内核。
因为这些内核哄骗了此前被以为很难终了的高等优化和硬件特点,是以团队决定以博客神气分享这次后果。
不外具体是如何生成数据的,洽商团队暂时不合外发布,仅仅提到了这种瞎想理念也很简便。
最关节的照旧,它也曾展示出了庞杂后劲。
此外,洽商团队也以为这次发现也与最近的一些趋势相呼应——大边界再锤真金不怕火已不是必需。
巧合,智谋的搜索和分支政策,可以解锁科学改进并贬责复杂问题,通过 verifier 进行等闲搜索还能有更多成绩。
将苍劲推明智商与同期探索多个假定荟萃起来,能带来更好终结。就像 AlphaEvolve、AlphaEvolution、 Gemini 2.5 Pro 深度想考雷同。
终末,团队默示这项洽商还有许多可优化的空间。比如他们手头上就还在优化两个维度:
FP16 Matmul:52% performance of torch.matmul
FP16 Flash Attention::9% performance of torch.nn.functional.scaled_dot_product_attention
与 FP16 或 BF16 比较,FP32 在新推出硬件上的优化进度频频比较低,这亦然为何使用 FP32 内核比 PyTorch 更容易终了性能提高。
他们默示,天然当今还有不少放手,然而关于往日出路照旧很乐不雅的。
毕竟最运转,他们连能闲居运行的内核都生成不了,然而通过不停优化搜索方法,也曾能让 flash attention 的性能提高到了一个可以的水平。
值得一提的是,搜索使用的资源也很少,大约只用了 300 万 token 输入和 400 万 token 输出。
One More Thing
本色上,不仅仅一个团队在尝试建立内核大模子。
就在 5 月,建立了 Devin 的 Cognition 开源了首个通过强化学习即可编写 CUDA 内核的大模子 Kevin-32B。
它基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO,终澄澈多轮强化学习,性能优于 o3、o4-mini。
— 完 —欧洲杯体育