DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

今日凌晨,DeepSeek 在 GitHub 上發(fā)布了一項(xiàng)代號(hào)為“Engram”的最新研究成果,并同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可擴(kuò)展查找的條件記憶:大語(yǔ)言模型稀疏性的新維度)的學(xué)術(shù)論文論文

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

(來(lái)源:GitHub)

這篇由梁文鋒、DeepSeek 研究團(tuán)隊(duì)與北京大學(xué)聯(lián)合署名的論文,一經(jīng)發(fā)表就引發(fā)了廣泛討論論文

此次研究帶來(lái)了一項(xiàng)突破:在業(yè)界廣泛采用的“混合專(zhuān)家模型”(MoE)之外,DeepSeek 開(kāi)辟了第二條提升模型效率的路徑——“條件記憶”(Conditional Memory)論文。如果說(shuō) MoE 解決了“如何高效計(jì)算”的問(wèn)題,那么新提出的 Engram 架構(gòu)則試圖解決“如何高效存儲(chǔ)與提取知識(shí)”的難題。

在此前的 DeepSeek-V2 和 V3 取得巨大成功后,基于 Transformer 的 MoE 架構(gòu)已成為最具代表性、應(yīng)用最廣泛的稀疏化方案之一論文。MoE 通過(guò)“條件計(jì)算”(Conditional Computation)機(jī)制,即在處理每個(gè)詞元(Token)時(shí)僅激活模型參數(shù)的一小部分,成功打破了模型規(guī)模與推理成本之間的線性約束。

然而,DeepSeek 研究團(tuán)隊(duì)指出,盡管 MoE 極大地優(yōu)化了計(jì)算效率,在當(dāng)前以注意力與前饋網(wǎng)絡(luò)為核心的 Transformer 范式下,模型并不具備顯式、可尋址的知識(shí)查找機(jī)制論文

在現(xiàn)有的架構(gòu)中,模型記憶知識(shí)的方式是隱式的論文。當(dāng)模型需要回答“法國(guó)的首都是哪里”時(shí),它無(wú)法像人類(lèi)查閱字典那樣直接檢索出“巴黎”這個(gè)詞,而是需要通過(guò)多層注意力機(jī)制(Attention)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)進(jìn)行復(fù)雜的矩陣運(yùn)算,實(shí)際上是在通過(guò)計(jì)算來(lái)模擬檢索過(guò)程。

這種機(jī)制造成了巨大的資源浪費(fèi):模型不得不動(dòng)用寶貴的推理算力去“死記硬背”大量固定的事實(shí)性知識(shí)(如人名、地名、固定搭配等),這不僅效率低下,還擠占了模型處理復(fù)雜邏輯推理的“腦容量”論文

展開(kāi)全文

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

(來(lái)源:Nano Banana Pro)

針對(duì)這一點(diǎn),DeepSeek 提出了“條件記憶”的概念,并設(shè)計(jì)了實(shí)體模塊 Engram 來(lái)加以實(shí)現(xiàn)論文。Engram 的設(shè)計(jì)靈感源自自然語(yǔ)言處理(NLP)領(lǐng)域經(jīng)典的 N-gram(N 元語(yǔ)法)模型,但在深度學(xué)習(xí)語(yǔ)境下進(jìn)行了現(xiàn)代化改造。傳統(tǒng)的 N-gram 依靠統(tǒng)計(jì)詞匯共現(xiàn)頻率來(lái)預(yù)測(cè)下一個(gè)詞,而 Engram 則將其轉(zhuǎn)化為一種可學(xué)習(xí)的、基于哈希(Hash)的向量檢索系統(tǒng)。

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

圖 | Engram 模塊的整體架構(gòu)示意(來(lái)源:論文)

具體而言,Engram 模塊被嵌入到 Transformer 的主干網(wǎng)絡(luò)中,與 MoE 層并行或交替工作論文。當(dāng)模型處理輸入文本時(shí),Engram 不依賴深層神經(jīng)網(wǎng)絡(luò)計(jì)算,而是通過(guò)兩步輕量化的檢索與融合操作完成信息注入:

首先是“檢索”,它將當(dāng)前的局部上下文(例如最近出現(xiàn)的幾個(gè)詞)進(jìn)行壓縮并通過(guò)多頭哈希映射,在算法層面實(shí)現(xiàn)近似 O(1) 的常數(shù)時(shí)間查表,并通過(guò)預(yù)取機(jī)制在系統(tǒng)層面將實(shí)際延遲控制在極低水平;其次是“融合”,通過(guò)一個(gè)上下文感知的門(mén)控機(jī)制(Gating Mechanism),將檢索到的靜態(tài)記憶向量與模型計(jì)算出的動(dòng)態(tài)隱藏狀態(tài)進(jìn)行加權(quán)融合論文

我們可以將傳統(tǒng)的 Transformer 模型想象一個(gè)不僅需要理解題意,還需要現(xiàn)場(chǎng)推導(dǎo)所有數(shù)學(xué)公式和歷史數(shù)據(jù)的考生;而搭載了 Engram 的模型,則相當(dāng)于被允許帶入考場(chǎng)一本百科全書(shū)論文。遇到固定的知識(shí)點(diǎn),Engram 直接查表獲得答案,而將寶貴的“大腦”算力集中用于處理從未見(jiàn)過(guò)的復(fù)雜邏輯題。這種“計(jì)算”與“記憶”的解耦,正是 DeepSeek 新架構(gòu)的核心邏輯。

這項(xiàng)研究并不僅停留在理論層面,DeepSeek 在論文中披露了名為“稀疏性分配”(Sparsity Allocation)的關(guān)鍵發(fā)現(xiàn),揭示了模型性能背后的數(shù)學(xué)規(guī)律論文。研究人員在嚴(yán)格控制總參數(shù)量和計(jì)算量(FLOPs)不變的前提下,系統(tǒng)性地調(diào)整了分配給 MoE 專(zhuān)家與 Engram 記憶表的參數(shù)比例。

實(shí)驗(yàn)結(jié)果呈現(xiàn)出一條清晰的“U 型曲線”:最佳的模型性能既不出現(xiàn)在純粹的 MoE 架構(gòu)中,也不出現(xiàn)在過(guò)度依賴記憶的架構(gòu)中,而是當(dāng)大約 20% 至 25% 的稀疏參數(shù)預(yù)算分配給 Engram,而剩余部分留給 MoE 時(shí)(即ρ≈75% -80% 時(shí)),模型性能達(dá)到最佳論文

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

圖 | 稀疏性分配與記憶痕跡擴(kuò)展 (來(lái)源:論文)

基于這一發(fā)現(xiàn),DeepSeek 訓(xùn)練了一個(gè)擁有 270 億參數(shù)的 Engram-27B 模型,并在同等參數(shù)規(guī)模和計(jì)算消耗下,與標(biāo)準(zhǔn)的 MoE-27B 模型進(jìn)行了全方位的對(duì)比測(cè)試論文。結(jié)果顯示,引入條件記憶機(jī)制后,模型在多個(gè)關(guān)鍵維度上實(shí)現(xiàn)了性能的顯著躍升。

在知識(shí)密集型任務(wù)中,Engram 的優(yōu)勢(shì)符合預(yù)期論文。例如在衡量綜合知識(shí)水平的 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)基準(zhǔn)測(cè)試中,Engram-27B 的得分比基準(zhǔn)模型高出 3.4 分;在中文綜合基準(zhǔn) CMMLU 上,提升幅度更是達(dá)到了 4.0 分。這直接證明了外掛式的高效記憶模塊能顯著擴(kuò)充模型的知識(shí)庫(kù)。

不過(guò),更令人意外的是 Engram 在通用推理能力上的表現(xiàn)論文。在衡量復(fù)雜推理能力的 BBH(Big-Bench Hard)基準(zhǔn)上,Engram 模型取得了 5.0 分的巨大提升;在 ARC-Challenge 科學(xué)推理任務(wù)中提升了 3.7 分。甚至在傳統(tǒng)認(rèn)為高度依賴邏輯推演的代碼生成(HumanEval +3.0)和數(shù)學(xué)解題(MATH +2.4)任務(wù)中,Engram 同樣表現(xiàn)出了顯著優(yōu)勢(shì)。

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

圖 | 預(yù)訓(xùn)練性能比較:Dense 模型、MoE 模型與 Engram 模型(來(lái)源:論文)

為何一個(gè)看似負(fù)責(zé)“死記硬背”的記憶模塊,能提升模型的邏輯推理能力?DeepSeek 團(tuán)隊(duì)利用 LogitLens 和 CKA(中心核對(duì)齊)等可解釋性工具進(jìn)行了深入的機(jī)理分析,得出了一個(gè)極具洞察力的結(jié)論:Engram 有效增加了模型的“有效深度”(Effective Depth)論文

分析顯示,在沒(méi)有 Engram 的傳統(tǒng)模型中,底層的許多神經(jīng)網(wǎng)絡(luò)層實(shí)際上在忙于構(gòu)建基礎(chǔ)的詞法組合和短語(yǔ)模式,這是一種低級(jí)的“特征重構(gòu)”工作論文。而在引入 Engram 后,這些局部的、固定的語(yǔ)言模式(如“紐約”后緊接“時(shí)代廣場(chǎng)”,“人工智能”是一個(gè)專(zhuān)有名詞),這些都直接通過(guò)查表解決。

這使得模型的主干網(wǎng)絡(luò)從繁瑣的淺層任務(wù)中解脫出來(lái),能夠?qū)⒏嗟膶訑?shù)和注意力資源投入到更高層級(jí)的語(yǔ)義理解和邏輯推演中論文。換言之,Engram 通過(guò)承擔(dān)記憶職能,在不增加層數(shù)的前提下,提高了模型用于復(fù)雜推理的“有效深度”。

(來(lái)源論文:論文)

此外,Engram 架構(gòu)還在長(zhǎng)文本處理(Long Context)領(lǐng)域展現(xiàn)出了意想不到的結(jié)構(gòu)性優(yōu)勢(shì)論文。在處理長(zhǎng)篇文檔時(shí),注意力機(jī)制往往面臨巨大的計(jì)算壓力。DeepSeek 的研究表明,文本中大量的依賴關(guān)系其實(shí)是局部的(Local),可以通過(guò) N-gram 查找來(lái)解決。Engram 負(fù)責(zé)處理這些局部依賴,從而釋放了 Transformer 全局注意力機(jī)制的容量,使其能更專(zhuān)注于捕捉跨度極大的長(zhǎng)程關(guān)聯(lián)。

在極具挑戰(zhàn)性的“大海撈針”(Needle In A Haystack)測(cè)試中,Engram-27B 在該測(cè)試中的表現(xiàn)顯著優(yōu)于基準(zhǔn)模型論文。。在多查詢(Multi-Query)設(shè)置下,其準(zhǔn)確率從基準(zhǔn) MoE 模型的 84.2% 飆升至 97.0%;在變量跟蹤(Variable Tracking)任務(wù)中,準(zhǔn)確率從 77.0% 提升至 89.0%。這意味著,搭載 Engram 的模型在處理法律合同分析、長(zhǎng)篇小說(shuō)理解或大型代碼庫(kù)維護(hù)等需要極高精度的長(zhǎng)文本任務(wù)時(shí),將具備更強(qiáng)的魯棒性。

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

圖 | MoE 模型和 Engram 模型長(zhǎng)上下文性能對(duì)比(來(lái)源:論文)

除了模型性能層面的突破,DeepSeek 延續(xù)了其一貫的“高效基礎(chǔ)設(shè)施”理念,在 Engram 的工程實(shí)現(xiàn)上做到了極致論文。在當(dāng)前的硬件環(huán)境下,顯存(HBM)往往是制約大模型規(guī)模的瓶頸。然而,Engram 展現(xiàn)出了基礎(chǔ)設(shè)施感知(Infrastructure-aware)的特性。

與 MoE 依賴運(yùn)行時(shí)動(dòng)態(tài)路由不同,Engram 的檢索是基于輸入文本的確定性哈希論文。這意味著,系統(tǒng)在正式計(jì)算某一層之前,就已經(jīng)確切知道需要用到哪些記憶向量。這種確定性使得“預(yù)取”(Prefetching)策略成為可能。

DeepSeek 在實(shí)驗(yàn)中成功演示了將一個(gè)高達(dá) 1,000 億參數(shù)的 Engram 嵌入表完全存儲(chǔ)在廉價(jià)的主機(jī)內(nèi)存(CPU DRAM)中,而非昂貴的 GPU 顯存里論文。在模型計(jì)算前序?qū)蛹?jí)時(shí),系統(tǒng)通過(guò) PCIe 通道異步地將所需的記憶數(shù)據(jù)搬運(yùn)至 GPU。

實(shí)驗(yàn)數(shù)據(jù)顯示,即使在 1,000 億參數(shù)的超大規(guī)模下,這種跨硬件的存儲(chǔ)與計(jì)算解耦方案帶來(lái)的額外推理延遲也不到 3%論文。這一工程結(jié)果表明,在特定的系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)條件下,模型參數(shù)規(guī)模不再嚴(yán)格受限于 GPU 顯存容量。理論上,這一設(shè)計(jì)為未來(lái) DeepSeek 掛載 TB 級(jí)別的超大規(guī)模記憶庫(kù)提供了可行路徑,而無(wú)需成倍增加昂貴的算力集群成本。

綜合此次發(fā)布的 Engram 論文,以及今年元旦期間 DeepSeek 發(fā)布的關(guān)于“流形約束超連接”(Manifold-Constrained Hyper-Connections, mHC)的研究,DeepSeek-V4 的架構(gòu)開(kāi)始逐漸具象化論文。

如果說(shuō) MoE 架構(gòu)(條件計(jì)算)是 DeepSeek-V2/V3 的基石,那么 V4 有望在架構(gòu)層面呈現(xiàn)出更高程度的整合性:它將融合 mHC 以優(yōu)化專(zhuān)家間的通信效率,同時(shí)引入 Engram 作為獨(dú)立的“海馬體”模塊論文。這種架構(gòu)不再是簡(jiǎn)單的參數(shù)堆疊,而是向著人類(lèi)大腦“計(jì)算與記憶分離、協(xié)同工作”的生物學(xué)原理邁進(jìn)。MoE 負(fù)責(zé)動(dòng)態(tài)的邏輯處理,Engram 負(fù)責(zé)靜態(tài)的知識(shí)檢索,兩者互為補(bǔ)充,共同構(gòu)成了一個(gè)更高效、更博學(xué)且更擅長(zhǎng)推理的智能系統(tǒng)。

參考鏈接論文

Github 論文地址論文

運(yùn)營(yíng)/排版論文:何晨龍

本站內(nèi)容來(lái)自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/4698.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩