陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

編輯|Panda、澤南

前兩天,Node.js 之父 Ryan Dahl 在 X 上斷言:「人類編寫代碼的時代已經(jīng)結(jié)束了論文?!乖撎l(fā)廣泛討論,瀏覽量更是已經(jīng)超過了 700 萬。而現(xiàn)在,我們迎來了一個對這一判斷的有力證明。

剛剛,英偉達杰出工程師許冰(Bing Xu)在 GitHub 上開源了一個新項目 VibeTensor,讓我們看到了 AI 在編程方面的強大實力論文。

從名字也能看出來,這是 Vibe Coding 的成果論文。事實也確實如此,這位谷歌學(xué)術(shù)引用量超 20 萬的工程師在 X 上表示:「這是第一個完全由 AI 智能體生成的深度學(xué)習(xí)系統(tǒng),沒有一行人類編寫的代碼。」

展開全文

更具體來說,VibeTensor 是一個可運行的深度學(xué)習(xí)系統(tǒng),配備了 RCU 風(fēng)格的調(diào)度器、緩存分配器和反向模式自動微分器論文。該智能體還發(fā)明了一種 Fabric 張量系統(tǒng) —— 這是目前任何框架中都不存在的新東西。

很明顯論文,許冰分享的這張項目架構(gòu)圖也是 AI 生成的

其 Vibe Kernel 包含 13 種不同類型、總計約 4.7 萬行代碼的自動生成內(nèi)核,這些內(nèi)核使用 Triton 和 CuteDSL 編寫,并且具有很強的性能表現(xiàn)論文。

許冰表示,VibeTensor 由英偉達的第四代智能體生成論文。但它也呈現(xiàn)出了一種「弗蘭肯斯坦效應(yīng)(Frankenstein Effect)」:系統(tǒng)本身是正確的,但某些關(guān)鍵路徑的設(shè)計效率低下。因此,其性能無法與 PyTorch 相媲美。

更重要的是,許冰強調(diào):「自 2025 年夏天以來,我一行代碼都沒寫過論文?!顾f這項工作是他看過 Andrej Kaparthy 的播客之后開始的。「我當(dāng)時并不認同他的觀點,所以我和 Terry Chen(英偉達首席工程師)開始用它來測試我們的智能體的能力。弗蘭肯斯坦效應(yīng)最終暴露了我們智能體的一些局限性 —— 但方向很明確。」

該項目在 X 上引起了不少關(guān)注,許冰的幾位著名英偉達同事(也被列為參與者)也有分享點評論文。

比如陳天奇表示:VibeTensor 很有意思,它表明 AI 智能體能夠構(gòu)建深度學(xué)習(xí)框架這樣復(fù)雜的東西論文?!干傻拇a還有一些需要改進的地方,但它能夠做到這一點本身就非常有趣?!?/p> 陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

賈揚清的評價則更高,他表示該項目的出現(xiàn)罕見地驗證了一個根本性問題:AI 能否編寫復(fù)雜的系統(tǒng)代碼?而該項目給出的答案是「能,但是……(仍有問題)」論文。他說 AI 正以驚人的速度前進,「如果我們能掌握更多正確的原則,AI 終將完全超越人類程序員。這就像 2015 年 1 月的 AlphaGo?!?/p> 陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

目前,許冰已經(jīng)在 GitHub 上 NVlabs 帳號下發(fā)布了 VibeTensor 的相關(guān)內(nèi)容,其中也包含一篇論文論文。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

論文標(biāo)題:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

論文地址論文

項目鏈接論文

有意思的是,當(dāng)我們初看這篇論文時,我們發(fā)現(xiàn)論文中有一些 AI 生成的內(nèi)容論文。于是我們詢問了許冰本人,而他給出的答案讓我們非常震驚:這篇論文竟也是 100% 由 AI 撰寫的!

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

許冰的回復(fù)

下面我們就來詳細看看這個 AI 編寫的項目究竟是什么論文。

VibeTensor論文:全球首個完全由 AI 智能體生成的全棧系統(tǒng)

VibeTensor 可不僅僅是又一個深度學(xué)習(xí)庫論文。它是全球首個完全由 AI 智能體生成的全棧系統(tǒng)。從 Python/Node.js 的上層綁定,到 C++ 核心調(diào)度器,再到最底層的 CUDA 內(nèi)存管理,每一行代碼的增刪改查、每一次 Bug 的修復(fù)、每一輪構(gòu)建驗證,全部由英偉達第四代智能體(Agent)獨立完成。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

而人類的作用是提供了高層級的需求指導(dǎo),然后像監(jiān)工一樣看著 AI 智能體在兩個月內(nèi)瘋狂輸出論文。下面就來拆解一下這個氛圍編程版的 PyTorch:VibeTensor。

首先,性能上雖然 VibeTensor 目前還無法與 PyTorch 這種經(jīng)過多年磨礪的框架抗衡(根據(jù)論文測試,部分場景慢了約 1.7 到 6.2 倍),但作為一個功能完整的技術(shù)原型,其設(shè)計的完整度令人吃驚論文。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

根據(jù)論文描述,VibeTensor 并不是一個簡單的包裝庫,它擁有極其硬核的底層架構(gòu)論文。

核心運行時的「暴力美學(xué)」

VibeTensor 的 C++20 核心并非簡單的庫調(diào)用論文。它實現(xiàn)了一個完整的 TensorImpl 架構(gòu),作為參考計數(shù)的 Storage 之上的視圖。令人驚訝的是,AI 賦予了它支持非連續(xù)視圖(Non-contiguous views)和 as_strided 語義的能力,并引入了原子版本計數(shù)器來確保原地(In-place)操作的安全性。

在算子調(diào)度層面,AI 構(gòu)建了一個 schema-lite 調(diào)度器,能夠?qū)?vt::add 這樣的操作名精準(zhǔn)映射到 CPU 或 CUDA 的內(nèi)核實現(xiàn)上論文。這種設(shè)計支持鎖定(Boxed)和非鎖定(Unboxed)調(diào)用路徑,并通過不可變的快照狀態(tài)(Snapshot states)實現(xiàn)了穩(wěn)態(tài)下的無鎖調(diào)用,極大地壓低了調(diào)度開銷。

獨創(chuàng)的 Fabric 張量系統(tǒng)論文:不屬于任何現(xiàn)有框架

在 VibeTensor 的所有組件中,最令人振奮的莫過于名為 Fabric 的實驗性子系統(tǒng)論文。這是目前市面上任何主流深度學(xué)習(xí)框架(如 PyTorch 或 TensorFlow)中都不曾以這種形式存在的概念。

Fabric 本質(zhì)上是一個顯式的多設(shè)備抽象層論文。它的核心使命是打破單卡運行時的限制,直接接管硬件拓撲的自動發(fā)現(xiàn)過程。根據(jù)論文描述,F(xiàn)abric 能夠主動識別 CUDA P2P(點對點)和 UVA(統(tǒng)一虛擬地址)支持情況。

不同于傳統(tǒng)框架將多卡通信隱藏在復(fù)雜的分布式 API 后,F(xiàn)abric 提供了一套透明的可觀測原語,允許研究者直接控制內(nèi)存的放置與同步策略論文。

在 VibeTensor 的 Blackwell 評估中,AI 甚至基于 Fabric 構(gòu)建了一個可選的環(huán)形全歸約(Ring-allreduce)插件論文。這種插件直接綁定了 CUTLASS 的實驗性內(nèi)核,完全繞過了 NCCL。這意味著 AI 已經(jīng)開始嘗試從底層通信協(xié)議層面,去重構(gòu)大規(guī)模分布式訓(xùn)練的邏輯。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

異步優(yōu)先的「Node.js + Python」雙前端

在用戶界面上,AI 并沒有止步于復(fù)刻一個 PyTorch論文。它不僅利用 nanobind 打造了一個高度兼容的 Python 覆蓋層(vibetensor.torch),還開創(chuàng)性地引入了一個基于 Node-API 的 Node.js 插件。

這個 JavaScript/TypeScript 界面采用了純粹的「異步優(yōu)先」設(shè)計論文。所有的重負載任務(wù)都被調(diào)度至 napi_async_work 以避免阻塞 Node 事件循環(huán),并通過一個全局在途任務(wù)上限(VBT_NODE_MAX_INFLIGHT_OPS)來精細控制排隊壓力。這種橫跨數(shù)據(jù)科學(xué)(Python)與后端工程(Node.js)的選型,體現(xiàn)了 AI 智能體在處理異構(gòu)開發(fā)環(huán)境時的靈活性。

AI 內(nèi)核套件論文:從算子到顯存的全自動進化

在最底層的算子實現(xiàn)上,VibeTensor 附帶了一個由 AI 生成的龐大內(nèi)核套件論文。這里包含了 200 多個源文件,涵蓋了從基礎(chǔ)的 LayerNorm 到復(fù)雜的 Fused Attention 等各類算子。

這些內(nèi)核利用了 Triton 和英偉達自家的 CuTeDSL 編寫論文。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

值得注意的是,AI 生成的內(nèi)核并非只是「能用」,在 H100 的實測中,其生成的 Fused Attention 內(nèi)核在特定形狀下,前向計算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,后向計算快了 1.26 倍論文。盡管這只是孤立算子的表現(xiàn),但它證明了 AI 在掌握硬件特性(如 Hopper 架構(gòu)的 TMA 或 Tensor Cores)方面的巨大潛力。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

弗蘭肯斯坦效應(yīng):AI 編程的隱形墻

盡管 VibeTensor 能夠跑通復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,但許冰和團隊在論文中誠實地提出了一個引人深思的概念:「弗蘭肯斯坦效應(yīng)(Frankenstein Effect)」論文。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

這是 AI 智能體在構(gòu)建復(fù)雜系統(tǒng)時暴露出的核心局限性論文。簡單來說,AI 能夠確保每一個局部子系統(tǒng)(如調(diào)度器、分配器、算子)在邏輯上是正確的,且能通過單元測試。但當(dāng)這些局部組件拼湊成一個龐大的全局系統(tǒng)時,它們之間會產(chǎn)生意想不到的「摩擦」,形成性能瓶頸。

例如,AI 為了確保多線程環(huán)境下的安全性,在 Autograd 引擎中設(shè)計了一個非重入的全局互斥鎖論文。這個設(shè)計從局部看非常穩(wěn)健、安全,但在全局運行時卻成了「扼殺」并行性能的元兇,導(dǎo)致原本高效的顯卡內(nèi)核因數(shù)據(jù)等待而頻繁空轉(zhuǎn)。這種「正確但低效」的代碼,正是目前智能體在系統(tǒng)級架構(gòu)設(shè)計上的天花板。

AI 輔助的開發(fā)方法

VibeTensor 的誕生并非源于一次簡單的提示詞工程,而是一場長達兩個月的、由高層級人類指令驅(qū)動的 Agent 自主演化過程論文。許冰也讓 AI 在論文中用一個章節(jié)專門總結(jié)了「AI 輔助的開發(fā)方法」。

1. 徹底的「黑盒」工作流

在這場實驗中,人類的角色從「程序員」徹底轉(zhuǎn)變?yōu)椤副O(jiān)工」與「策略制定者」論文。許冰及其團隊并沒有進行任何代碼層面的 Diff Review(差異審查),也沒有手動運行過任何驗證命令。

相反論文,開發(fā)流程被簡化為一個持續(xù)循環(huán)的閉環(huán):

目標(biāo)設(shè)定: 人類指定一個作用域明確的目標(biāo)和必須遵守的約束條件論文。

代碼生成: AI 智能體自主提議代碼更改,并以 Diff 的形式應(yīng)用到倉庫中論文

工具校驗: Agent 會自動調(diào)用編譯器、測試框架和差異檢查工具論文。

多智能體評審: 為了彌補單體 AI 可能存在的盲點,團隊引入了多 Agent 協(xié)作評審機制,用于捕捉缺失的邊界情況、冗余的抽象或是潛在的安全隱患論文。

2. 測試驅(qū)動的「硬核」規(guī)范

在 Agent 驅(qū)動的開發(fā)中,測試不再是錦上添花,而是唯一的「真理來源」論文。VibeTensor 的每一行代碼都必須經(jīng)過 C++(CTest)和 Python(pytest)雙重測試套件的洗禮。

更具創(chuàng)新性的是,AI 智能體還利用 PyTorch 作為一個「參考原件」,建立了一套自動化的 API 對齊檢查器論文。當(dāng) AI 編寫的算子出現(xiàn)數(shù)值偏差或內(nèi)存泄漏時,Agent 會自主分析報錯日志,添加一個最小化的回歸測試用例,并重新進入修復(fù)循環(huán)。這種「測試即規(guī)格說明」的模式,確保了即使在缺乏人工干預(yù)的情況下,生成的 16 萬行代碼依然保持了極高的邏輯一致性。

3. 跨層級調(diào)試的挑戰(zhàn)

論文揭示了一個有趣的現(xiàn)象:AI 在處理「單次正確」的任務(wù)時表現(xiàn)卓越,但在處理系統(tǒng)的「組合穩(wěn)定性」時卻面臨巨大挑戰(zhàn)論文。例如,在 Fused Attention 算子的移植過程中,Agent 經(jīng)歷了多次挫?。簭淖畛醯膮?shù)超限、顯存對齊錯誤,到運行數(shù)千次后才暴露出的緩沖區(qū)初始化隱患。

這種跨越 C++ 運行時、CUDA 驅(qū)動程序和 Python 封裝層的多級調(diào)試能力,正是此次英偉達第四代智能體展示出的最核心競爭力論文。它證明了 Agent 已經(jīng)能夠理解復(fù)雜的內(nèi)存語義和硬件約束,而不僅僅是模仿代碼片段。

AI 工程師的「AlphaGo 時刻」論文

VibeTensor 的出現(xiàn)并非為了取代 PyTorch,而是一場關(guān)于「生成式軟件工程」的宏大實驗論文。

正如前文所述,許冰提到這項工作的靈感源于 Andrej Karpathy 的播客論文。當(dāng)時他并不完全認同 Karpathy 關(guān)于「AI 編程」的某些激進觀點,于是決定和首席工程師 Terry Chen 一起,用最硬核的系統(tǒng)開發(fā)來測試智能體的極限。

現(xiàn)在,方向已經(jīng)明確論文。雖然「弗蘭肯斯坦效應(yīng)」依然存在,但 VibeTensor 的誕生標(biāo)志著一個新時代的開啟:未來的系統(tǒng)軟件可能不再是工程師逐行敲出來的,而是由人類定義需求、由 AI 在「氛圍」中生成出來的。

參考鏈接

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/7830.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩