DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

作者|冬梅

今天凌晨,喜歡悶聲做大事的 DeepSeek 再次發(fā)布重大技術(shù)成果,在其 GitHub 官方倉庫開源了新論文與模塊 Engram,論文題為 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,梁文鋒再次出現(xiàn)在合著者名單中論文

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

與傳統(tǒng)的大模型架構(gòu)相比,該方法提出了一種新的“查—算分離”機制,通過引入可擴展的查找記憶結(jié)構(gòu),在等參數(shù)、等算力條件下顯著提升模型在知識調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)論文。代碼與論文全文均已開源。

論文地址論文

代碼地址論文

這種查和算分離的 Engram 新方法的整體架構(gòu)如下圖所示論文

展開全文

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

為什么需要 Engram?

那么論文,我們?yōu)槭裁葱枰?Engram ?

目前主流的大語言模型架構(gòu)依然基于 Transformer 和 Mixture-of-Experts(MoE)結(jié)構(gòu)論文。MoE 是目前推進(jìn)參數(shù)規(guī)模和能力擴展的關(guān)鍵技術(shù)之一,通過動態(tài)路由機制,只激活部分參數(shù)以降低計算成本,同時在任務(wù)容量方面實現(xiàn)大規(guī)模擴展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先進(jìn)的 MoE 方法進(jìn)行擴展訓(xùn)練。

但在這些傳統(tǒng)的 Transformer 架構(gòu)(無論是 Dense 還是 MoE)中論文,模型的參數(shù)實際上承擔(dān)著兩種截然不同的角色:

事實性記憶(Memorization):存儲海量的知識事實論文。例如,“法國的首都是哪里?”、“世界最高的山脈是哪座”等。這類信息相對死板,更多依賴于“查表”式的檢索。

邏輯推理與計算(Calculation):負(fù)責(zé)復(fù)雜的邏輯鏈條、多步推理和情境理解論文。例如,“根據(jù)這段代碼的邏輯推導(dǎo)可能的 Bug”、“解析一段復(fù)雜的哲學(xué)論證”。

目前的大語言模型傾向于將這兩者混在一起論文。當(dāng)你試圖讓模型記住更多知識時,你不得不增加參數(shù)量。而在傳統(tǒng)的 Dense 模型中,參數(shù)量增加意味著前向傳播時的計算量(FLOPs)也會同步激增。MoE 架構(gòu)雖然通過稀疏激活解決了“算力隨參數(shù)同步爆炸”的問題,但 DeepSeek 研究發(fā)現(xiàn),MoE 專家在處理“死記硬背”的任務(wù)時依然不夠高效。

神經(jīng)網(wǎng)絡(luò)本質(zhì)上是連續(xù)的數(shù)學(xué)變換,用高昂的矩陣運算去模擬簡單的“查表檢索”,本身就是一種極大的浪費論文。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表,該算的算”。

Engram 的核心思想與架構(gòu)

聚焦到問題本身論文,Engram 方法為什么能解決上述問題?

“Engram”一詞源自神經(jīng)科學(xué),意為“記憶痕跡”,它是一個 可擴展、可查找的記憶模塊,用于語言模型在推理過程中過去可能已經(jīng)見過的模式或片段論文。

Engram 的核心技術(shù)之一是 現(xiàn)代化的哈希 N-Gram 嵌入(Modernized Hashed N-gram Embeddings)論文。

傳統(tǒng)方式:模型通過多層自注意力(Self-Attention)和 MLP 層的非線性變換,反復(fù)提取輸入文本中的特征論文。

Engram 方式:它對輸入的 Token 序列進(jìn)行 N-Gram(連續(xù) N 個詞)切片,并利用哈希算法將這些片段映射到一個巨大的、可學(xué)習(xí)的查找表(Lookup Table)中論文。

傳統(tǒng)方式:模型通過多層自注意力(Self-Attention)和 MLP 層的非線性變換,反復(fù)提取輸入文本中的特征論文

Engram 方式:它對輸入的 Token 序列進(jìn)行 N-Gram(連續(xù) N 個詞)切片,并利用哈希算法將這些片段映射到一個巨大的、可學(xué)習(xí)的查找表(Lookup Table)中論文。

由于采用哈希索引,這種查找是 確定性且 O(1) 時間復(fù)雜度的論文。這意味著無論模型存儲了多少萬億個記憶片段,檢索的速度幾乎是恒定的,且算力消耗極低。

O (1) 的含義是: 一次查找的耗時是常數(shù)級的,與 N-gram 表的規(guī)模無關(guān)論文。

O (1) 的含義是: 一次查找的耗時是常數(shù)級的,與 N-gram 表的規(guī)模無關(guān)論文。

簡單來說就是 MoE 負(fù)責(zé):“計算密集”神經(jīng)推理與復(fù)雜組合功能、Engram 負(fù)責(zé):“記憶查找”固定模式以及模式重建,兩者協(xié)同構(gòu)成一個更高效的整體架構(gòu)論文。

此外,它還具備條件記憶(Conditional Memory)論文。與簡單的靜態(tài)查找表不同,Engram 是“條件化”的。它會根據(jù)當(dāng)前上下文的隱向量(Hidden States)來決定提取哪些記憶。

在架構(gòu)設(shè)計上,Engram 模塊位于 Transformer 層的早期階段論文。它負(fù)責(zé)“模式重構(gòu)(Pattern Reconstruction)”,即在計算層(MoE 或 Dense)開始干活之前,先把相關(guān)的背景事實和歷史模式檢索出來,作為“素材”喂給后續(xù)的邏輯層。

它與 MoE(Mixture of Experts)的關(guān)系是怎樣的論文?

論文特別指出:Engram 提供了一個新的稀疏性軸,與 MoE 的條件計算不同,它通過條件查找提供靜態(tài)記憶容量論文。下面圖表中從目標(biāo)、計算方式、優(yōu)化方向和作用位置四個維度解釋了 Engram 和 MoE 的區(qū)別。

維度

MoE

Engram

目標(biāo)

條件激活神經(jīng)專家

條件觸發(fā)靜態(tài)記憶查找

計算方式

無極 dense 計算 / 激活部分專家

O(1) 查表

優(yōu)化方向

降低活躍神經(jīng)計算量

減少神經(jīng)計算重建已知模式

作用位置

深層推理

早期模式重建 / 記憶檢索

最后論文,DeepSeek 將 Engram 與 MoE 結(jié)合,形成了一個雙系統(tǒng):

Engram 模塊:負(fù)責(zé)海量知識點的“存儲與快速檢索”論文。

MoE 專家:擺脫了沉重的記憶負(fù)擔(dān),全身心投入到“邏輯推理與合成”中論文。

Engram 模塊:負(fù)責(zé)海量知識點的“存儲與快速檢索”論文。

MoE 專家:擺脫了沉重的記憶負(fù)擔(dān),全身心投入到“邏輯推理與合成”中論文。

這種分工極大地優(yōu)化了參數(shù)效率論文。在 27B 的實驗?zāi)P椭?,Engram 模塊可以占用大量的參數(shù)用于記憶,但在實際推理時,它只消耗極少的計算量(FLOPs)。

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

網(wǎng)友:V4 將采用這種架構(gòu)

在 Reddit、X 和其他平臺的相關(guān)帖子中,Engram 的技術(shù)核心受到了不少用戶的肯定和技術(shù)肯定論文。眾多網(wǎng)友認(rèn)為這個模塊的特點在于讓模型架構(gòu)處理“記憶模式查找”和“神經(jīng)計算推理”兩塊職責(zé)分離,從而開啟了新的稀疏性方向。

在 Reddit 平臺有用戶評論說論文

“Engram 嵌入方法很有意思論文。大多數(shù)模型僅通過 MoE 進(jìn)行擴展,但 Engram 增加了靜態(tài)記憶作為補充的稀疏性軸,查找復(fù)雜度為 O(1)。他們發(fā)現(xiàn) MoE 和 Engram 之間存在 U 形縮放規(guī)律,這指導(dǎo)著如何在兩者之間分配容量。分析表明,這減輕了早期層級靜態(tài)模式重建的壓力,從而保留了用于復(fù)雜推理的深度。確定性尋址意味著它們可以將嵌入表卸載到主機內(nèi)存中,而不會增加太多推理開銷?!?/p>

“Engram 嵌入方法很有意思論文。大多數(shù)模型僅通過 MoE 進(jìn)行擴展,但 Engram 增加了靜態(tài)記憶作為補充的稀疏性軸,查找復(fù)雜度為 O(1)。他們發(fā)現(xiàn) MoE 和 Engram 之間存在 U 形縮放規(guī)律,這指導(dǎo)著如何在兩者之間分配容量。分析表明,這減輕了早期層級靜態(tài)模式重建的壓力,從而保留了用于復(fù)雜推理的深度。確定性尋址意味著它們可以將嵌入表卸載到主機內(nèi)存中,而不會增加太多推理開銷?!?/p> DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

同時論文,有用戶對這種基于 n-gram lookup 的機制表達(dá)了直觀興趣,他評論道:

“即便是在不依賴 GPU 的環(huán)境下也能實現(xiàn)這種 O(1) 查找方式,讓不少開發(fā)者對本地部署這樣的大模型功能有了更實際的期待論文。”

“即便是在不依賴 GPU 的環(huán)境下也能實現(xiàn)這種 O(1) 查找方式,讓不少開發(fā)者對本地部署這樣的大模型功能有了更實際的期待論文?!?/p>

在部分技術(shù)性評論中論文,有人指出:

即從已有技術(shù)邏輯來看,在 LLM 中加入靜態(tài)記憶查找似乎是“順理成章”的發(fā)展方向論文。

即從已有技術(shù)邏輯來看,在 LLM 中加入靜態(tài)記憶查找似乎是“順理成章”的發(fā)展方向論文

這類觀點反映了一個重要觀點:專家群體開始從純參數(shù)擴張思維轉(zhuǎn)向更“智能”的架構(gòu)設(shè)計,包括查表式模塊和神經(jīng)網(wǎng)絡(luò)的協(xié)同論文

不少高級開發(fā)者在討論中進(jìn)一步提到,這種設(shè)計在理念上類似于對傳統(tǒng) NLP 技術(shù)(如 n-gram embedding)的現(xiàn)代化轉(zhuǎn)換,結(jié)合了高效尋址機制(deterministic addressing)和神經(jīng)推理模塊,這種組合在紙面上看具有較高的可行性和實用性(這一點正是 Engram 的核心貢獻(xiàn))論文。

另一條社區(qū)評論指出論文,Engram 很可能是 DeepSeek 即將發(fā)布的 V4 模型的核心技術(shù)基礎(chǔ):

業(yè)內(nèi)觀察者認(rèn)為 Engram 模塊可能會成為 DeepSeek V4 的重要組成部分,并預(yù)示 DeepSeek 下一代模型會在記憶和推理協(xié)同上實現(xiàn)架構(gòu)級提升論文。

業(yè)內(nèi)觀察者認(rèn)為 Engram 模塊可能會成為 DeepSeek V4 的重要組成部分,并預(yù)示 DeepSeek 下一代模型會在記憶和推理協(xié)同上實現(xiàn)架構(gòu)級提升論文。

在 X 平臺,也有網(wǎng)友表達(dá)了同樣的猜測,認(rèn)為 V4 也將采用這種架構(gòu)論文。

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

還有網(wǎng)友調(diào)侃論文,原本想抄襲下谷歌的技術(shù),但現(xiàn)在要抄襲 DeepSeek 了,因為它比谷歌更好!

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

還有網(wǎng)友表示,其實 Meta 之前也有過類似想法,但用到的技術(shù)不同論文。

DeepSeek 突發(fā)梁文峰署名新論文:V4 新架構(gòu)提前曝光?

參考鏈接:

文章來源:AI前線論文

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/tags-%E6%99%89%E6%B1%9F.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩