原創(chuàng)剛剛!DeepSeek發(fā)表新論文

AIPress.com.cn報道

1月13日消息,DeepSeek帶著新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》強勢回歸論文

這不僅讓網(wǎng)友感慨 "DeepSeek is back",更為即將到來的DeepSeek v4描繪了清晰的輪廓論文

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

這項研究的核心在于填補了現(xiàn)有 Transformer 架構(gòu)的一塊拼圖:用「條件記憶」來補全「條件計算」論文。

以下是對這項研究核心機制、架構(gòu)創(chuàng)新及性能表現(xiàn)的分析論文

1. 核心痛點論文:計算與記憶的失衡

目前的稀疏大模型DeepSeek-V3主要依賴MoE架構(gòu)論文。MoE實現(xiàn)了「條件計算」,即根據(jù)輸入只激活部分參數(shù)。

然而,DeepSeek指出,現(xiàn)有的Transformer缺乏原生的「查找」機制論文。模型為了獲取靜態(tài)知識,被迫通過昂貴的計算過程來模擬檢索行為。這導(dǎo)致了計算資源的浪費和知識調(diào)用的低效。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

展開全文

解決方案: 提出Engram模塊,引入「條件記憶」,將靜態(tài)知識的存儲與動態(tài)推理計算分離開來論文。

2. Engram 架構(gòu):如何實現(xiàn) O(1) 查找論文

Engram的設(shè)計目標(biāo)是將靜態(tài)模式存儲從Transformer主干中剝離論文。它不依賴復(fù)雜的注意力機制去“尋找”記憶,而是通過確定性的哈希算法直接“定位”記憶。

Engram的工作流程主要分為兩個階段論文

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

基于哈希的稀疏檢索:

壓縮與映射: 首先通過分詞器將輸入壓縮,最大化語義密度論文

N-gram哈希: 提取當(dāng)前位置的N-gram特征,利用多頭哈希機制,以 $O(1)$ 的時間復(fù)雜度直接從巨大的嵌入表中檢索對應(yīng)的靜態(tài)向量論文。

上下文感知門控:

檢索到的靜態(tài)向量(先驗知識)不能直接生硬地插入,需要結(jié)合當(dāng)前的上下文論文。

Engram 引入了一個類似注意力機制的門控,將檢索到的靜態(tài)信息與當(dāng)前模型的動態(tài)隱藏狀態(tài)融合,并通過輕量級卷積進行精煉論文。

3. 擴展規(guī)律論文:MoE與Engram的黃金比例

DeepSeek研究發(fā)現(xiàn),單純堆疊MoE專家并不是最優(yōu)解論文。在總參數(shù)量和計算量鎖定的前提下,如何分配「神經(jīng)計算(MoE)」與「靜態(tài)記憶(Engram)」的比例至關(guān)重要。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

研究揭示了一條U型擴展規(guī)律:

純MoE基準(zhǔn)并非最優(yōu)論文

將大約20%-25%的稀疏參數(shù)預(yù)算分配給Engram,模型能達到最佳性能論文

這意味著「條件記憶」是稀疏大模型中一個獨立且不可或缺的新維度論文。

4. 系統(tǒng)級優(yōu)化論文:存算解耦與硬件感知

Engram的一大優(yōu)勢是系統(tǒng)效率論文。由于其檢索是確定性的,不需要像MoE那樣等待前面的層計算完才知道要激活誰。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

存算解耦: 既然不需要動態(tài)路由,記憶表就可以不完全放在昂貴的GPU顯存里論文。

預(yù)取-重疊策略: 系統(tǒng)可以利用PCIe帶寬,從容量巨大的主機內(nèi)存甚至SSD中預(yù)取所需的向量,同時GPU在計算前序?qū)?strong>論文。

硬件-算法協(xié)同: 通過合理放置Engram層的位置,可以完美掩蓋數(shù)據(jù)傳輸?shù)难舆t,實現(xiàn)幾乎零開銷的性能提升論文。

5. 實驗結(jié)果論文:全方位碾壓

DeepSeek將Engram擴展到了27B參數(shù)規(guī)模論文,并在同等參數(shù)、同等FLOPs下與MoE模型進行了對比:

知識能力暴漲: MMLU (+3.4)、CMMLU (+4.0) 提升顯著,這符合“記憶”模塊的預(yù)期論文。

推理能力意外提升: 代碼(HumanEval +3.0)和數(shù)學(xué)(MATH +2.4)表現(xiàn)更好論文

長文本能力的質(zhì)變論文

Engram能夠處理局部依賴,釋放了Transformer的注意力機制去處理全局上下文論文。

在Multi-Query NIAH測試中,準(zhǔn)確率從84.2%飆升至97.0%論文。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

通過層級相似度分析,如上圖CKA熱力圖,Engram實際上增加了模型的有效深度論文。它將簡單的模式匹配任務(wù)在淺層就通過查表解決了,讓深層網(wǎng)絡(luò)能專注于更復(fù)雜的邏輯推理。

DeepSeek 的這項工作不僅提出了一個新的模塊Engram,更重要的是確立了大模型稀疏性的新范式:雙軸稀疏(Dual-Axis Sparsity)論文。

未來的大模型論文,也許就是DeepSeek v4,將同時擁有:

條件計算 (MoE): 用于處理復(fù)雜的邏輯和動態(tài)推理論文。

條件記憶 (Engram): 用于存儲海量的世界知識和固定模式論文

這種組合在同等算力下,實現(xiàn)了更強的智能表現(xiàn)和更高效的系統(tǒng)吞吐論文。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/4696.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩