栏目分类

热点资讯

新闻

欧洲杯体育而是在每次迭代之间加入了一个言语推理的行径-开云官网登录入口开云app官网入口

发布日期：2025-09-09 08:22 点击次数：178

好家伙，AI 不测生成的内核（kernel），性能比东谈主类群众特意优化过的还要好！

斯坦福最近表现了一组新发现，终结果然太亮眼了。

由 AI 优化的内核，在常见深度学习操作上，翻倍卓绝原生 PyTorch，性能至多可以提高近 400% ——

矩阵乘法（Matmul，FP32）：性能达到 PyTorch torch.matmul 的 101.3%。

二维卷积（Conv2D）：性能达到 torch.nn.Conv2D 的 179.9%。

Softmax：性能达到 torch.softmax 的 111.8%。

层归一化（LayerNorm）：性能达到 torch.nn.LayerNorm 的 484.4%。

Conv2D+ReLU+MaxPool 组合操作：性能达到 PyTorch 参考终了的 290.1%，以及 torch.compile ( ) 参考终了的 189.0%。

（在 NVIDIA L40S GPU 上进行基准测试，性能百分比界说为参考时间除以生成的 kernel_size 时间）

更惊东谈主的是，这一切都是不测终了的。

洽商团队蓝本的主义是生成合成数据以锤真金不怕火内核生成模子。

遣泄气现，仅在测试阶段生成的合成数据自己，果然可以生成性能相配优秀的内核。

围不雅网友：没猜测 AI 也要取代内核工程师了。

还有东谈主发现，除了性能大幅提高外，洽商团队接纳的方法也相配好奇好奇：

他们莫得简便的在操作上逐步优化（访佛于爬坡算法），而是在每次迭代之间加入了一个言语推理的行径，通过这种形式饱读舞搜索历程愈加各类化。

也等于说，他们是让系统在每次纠正时通过访佛"想考"的形式产生更多概念，从而找到更好的贬责决策。

具体如何终了，一谈来看。

改代码前先生成天然言语优化想想

按照斯坦福团队博客的形容，这种内核生成的想路相配简便——给定 torch 代码，然后告诉都能写编写自界说内核来替换 torch 算子。

这些内核是用纯 CUDA-C 编写，无需使用 CUTLASS 和 Triton 等库和 DSL（Domain-Specific Language，边界专用言语）。

不同于传统方法的是，模子并不是一上来就成功改代码，而是先用天然言语生成优化想想，然后再将这些想想悠扬为新的代码变体。

团队这么作念的原理是，"按划定修改"式的优化想路枯竭各类性，导致堕入局部极小值，重复走访吞并类退换或络续断地优化莫得出路的轨迹。

为了进一步增强想路各类性，斯坦福团队还使用了多分支的探索模式。

具体来说，他们的方法并非每一步都只优化一个候选决策，而是将每个概念散布开来，使其繁衍出多个终了，并使用性能最高的内核行动下一轮的种子。

团队使用 OpenAI o3 和 Gemini 2.5 Pro 挑战 KernelBench 1 级中的 10 个问题，运行多轮后，最好内核运转出现。

其中大深广最好终结出当今后续轮次（统统 5 轮），何况主如果第 4 轮或第 5 轮。

KernelBench 是斯坦福团队我方建议的一套 AI 生成内核测试基准，基准中的任务分为 3 个级别，其中 1 级是指单一原始操作（Single primitive operation），包括 AI 的基础构建块（举例卷积、矩阵 - 向量与矩阵 - 矩阵乘法、死亡函数、激活函数以及层归一化）。

这一发现再加上之前 DeepMind 的 AplhaEvolve，以及 o3 发现 Linux 的 0day 纰缪等一系列事件，让网友们以为 Gemini 2.5Pro 和 o3 的智商水平也曾达到了新的层级。

回到斯坦福的面貌，在生成历程当中，可以看到模子的生成想路运转泄漏出与东谈主类的熏陶相似之处——

内存走访优化：提高不同内归档次结构（全局内存、分享内存、寄存器）之间数据出动的服从，并确保以最大化带宽和最小化突破的形式走访数据；

异步操作和延伸阴事：通过将慢速操作（如全局内存走访）与策划或其他内存传输重复，"阴事"慢速操作的延伸；

数据类型和精度优化：尽可能使用低精度数据类型（如 FP16 或 BF16）以减少内存带宽条件、提高缓存服从；

策划和提醒优化：提高算术策划自己的服从，减少提醒数目，或哄骗特意的硬件提醒；

并行性和占用率增强：最大化流多处理器（SM）上的步履线程数目，以更好地阴事延伸并提高合座浑沌量；

限定流和轮回优化：减少与轮回、分支和索引策划关系的支出。

何况斯坦福团队还展示了一组具体的优化轨迹，从中可以看出，并不是每一步优化都一定能让速率更快，但经过多个行径的组合，内核的速率能够获得大幅提高，并最终卓绝 PyTorch。

在具体终了上，有东谈主接头 AI 生成 CUDA 内核时的优化建议，是否可以被悠扬为对应代码终了、照旧说仅仅触发了立时探索？

作家恢复说，尽管还莫得进行更严谨的系统考据，然而手动查验的案例中，生成的 CUDA 视野与建议的优化建议是梗概匹配的。

即 AI 并不是在王人备立时作念优化，而是如确切尝试终了它我方建议的政策。

华东谈主主创团队不测发现

这项洽商共有三位作家：Anne Ouyang、Azalia Mirhoseini 和 Percy Liang。

Ouyang 咫尺是斯坦福大学膨胀智能履行室的博士生，她本硕毕业于麻省理工，曾在英伟达 cuDNN 团队责任。

Percy Liang 是斯坦福大学策划机科学副阐明兼统计学助理阐明，咫尺担任斯坦福基础模子洽商中心主任。

曾和李飞飞一谈发布、鼓动了多项洽商责任。

Azalia Mirhoseini 是斯坦福大学策划机科学助理阐明、斯坦福膨胀履行室首创东谈主。她曾在 DeepMind、Google Brain 以及 Anthropic 责任过。

她此前参与的洽商包括 MoE、芯片设策划法 AlphaChip 等。

本次洽商，蓝本是但愿生成数据来锤真金不怕火内核生成模子。

然而在历程中却出现了出东谈主预料的终结，仅在测试阶段生成的合成数据自己，果然可以生成性能相配优秀的内核。

因为这些内核哄骗了此前被以为很难终了的高等优化和硬件特点，是以团队决定以博客神气分享这次后果。

不外具体是如何生成数据的，洽商团队暂时不合外发布，仅仅提到了这种瞎想理念也很简便。

最关节的照旧，它也曾展示出了庞杂后劲。

此外，洽商团队也以为这次发现也与最近的一些趋势相呼应——大边界再锤真金不怕火已不是必需。

巧合，智谋的搜索和分支政策，可以解锁科学改进并贬责复杂问题，通过 verifier 进行等闲搜索还能有更多成绩。

将苍劲推明智商与同期探索多个假定荟萃起来，能带来更好终结。就像 AlphaEvolve、AlphaEvolution、 Gemini 2.5 Pro 深度想考雷同。

终末，团队默示这项洽商还有许多可优化的空间。比如他们手头上就还在优化两个维度：

FP16 Matmul：52% performance of torch.matmul

FP16 Flash Attention:：9% performance of torch.nn.functional.scaled_dot_product_attention

与 FP16 或 BF16 比较，FP32 在新推出硬件上的优化进度频频比较低，这亦然为何使用 FP32 内核比 PyTorch 更容易终了性能提高。

他们默示，天然当今还有不少放手，然而关于往日出路照旧很乐不雅的。

毕竟最运转，他们连能闲居运行的内核都生成不了，然而通过不停优化搜索方法，也曾能让 flash attention 的性能提高到了一个可以的水平。

值得一提的是，搜索使用的资源也很少，大约只用了 300 万 token 输入和 400 万 token 输出。

One More Thing

本色上，不仅仅一个团队在尝试建立内核大模子。

就在 5 月，建立了 Devin 的 Cognition 开源了首个通过强化学习即可编写 CUDA 内核的大模子 Kevin-32B。

它基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO，终澄澈多轮强化学习，性能优于 o3、o4-mini。

— 完 —欧洲杯体育

上一篇：体育游戏app平台在 2025 年第 21 周-开云官网登录入口开云app官网入口
下一篇：开云(中国)kaiyun网页版登录入口开云体育放在研发和股东 Neue Klasse 系列车型-开云官网登录入口开云app官网入口

欧洲杯体育而是在每次迭代之间加入了一个言语推理的行径-开云官网登录入口 开云app官网入口

欧洲杯体育而是在每次迭代之间加入了一个言语推理的行径-开云官网登录入口开云app官网入口