原創(chuàng)剛剛!DeepSeek發(fā)表新論文

AIPress.com.cn報(bào)道

1月13日消息,DeepSeek帶著新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》強(qiáng)勢(shì)回歸論文

這不僅讓網(wǎng)友感慨 "DeepSeek is back",更為即將到來(lái)的DeepSeek v4描繪了清晰的輪廓論文

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

這項(xiàng)研究的核心在于填補(bǔ)了現(xiàn)有 Transformer 架構(gòu)的一塊拼圖:用「條件記憶」來(lái)補(bǔ)全「條件計(jì)算」論文

以下是對(duì)這項(xiàng)研究核心機(jī)制、架構(gòu)創(chuàng)新及性能表現(xiàn)的分析論文

1. 核心痛點(diǎn)論文:計(jì)算與記憶的失衡

目前的稀疏大模型DeepSeek-V3主要依賴MoE架構(gòu)論文。MoE實(shí)現(xiàn)了「條件計(jì)算」,即根據(jù)輸入只激活部分參數(shù)。

然而,DeepSeek指出,現(xiàn)有的Transformer缺乏原生的「查找」機(jī)制論文。模型為了獲取靜態(tài)知識(shí),被迫通過(guò)昂貴的計(jì)算過(guò)程來(lái)模擬檢索行為。這導(dǎo)致了計(jì)算資源的浪費(fèi)和知識(shí)調(diào)用的低效。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

展開全文

解決方案: 提出Engram模塊,引入「條件記憶」,將靜態(tài)知識(shí)的存儲(chǔ)與動(dòng)態(tài)推理計(jì)算分離開來(lái)論文

2. Engram 架構(gòu):如何實(shí)現(xiàn) O(1) 查找論文?

Engram的設(shè)計(jì)目標(biāo)是將靜態(tài)模式存儲(chǔ)從Transformer主干中剝離論文。它不依賴復(fù)雜的注意力機(jī)制去“尋找”記憶,而是通過(guò)確定性的哈希算法直接“定位”記憶。

Engram的工作流程主要分為兩個(gè)階段論文

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

基于哈希的稀疏檢索:

壓縮與映射: 首先通過(guò)分詞器將輸入壓縮,最大化語(yǔ)義密度論文

N-gram哈希: 提取當(dāng)前位置的N-gram特征,利用多頭哈希機(jī)制,以 $O(1)$ 的時(shí)間復(fù)雜度直接從巨大的嵌入表中檢索對(duì)應(yīng)的靜態(tài)向量論文。

上下文感知門控:

檢索到的靜態(tài)向量(先驗(yàn)知識(shí))不能直接生硬地插入,需要結(jié)合當(dāng)前的上下文論文。

Engram 引入了一個(gè)類似注意力機(jī)制的門控,將檢索到的靜態(tài)信息與當(dāng)前模型的動(dòng)態(tài)隱藏狀態(tài)融合,并通過(guò)輕量級(jí)卷積進(jìn)行精煉論文。

3. 擴(kuò)展規(guī)律論文:MoE與Engram的黃金比例

DeepSeek研究發(fā)現(xiàn),單純堆疊MoE專家并不是最優(yōu)解論文。在總參數(shù)量和計(jì)算量鎖定的前提下,如何分配「神經(jīng)計(jì)算(MoE)」與「靜態(tài)記憶(Engram)」的比例至關(guān)重要。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

研究揭示了一條U型擴(kuò)展規(guī)律:

純MoE基準(zhǔn)并非最優(yōu)論文

將大約20%-25%的稀疏參數(shù)預(yù)算分配給Engram,模型能達(dá)到最佳性能論文

這意味著「條件記憶」是稀疏大模型中一個(gè)獨(dú)立且不可或缺的新維度論文。

4. 系統(tǒng)級(jí)優(yōu)化論文:存算解耦與硬件感知

Engram的一大優(yōu)勢(shì)是系統(tǒng)效率論文。由于其檢索是確定性的,不需要像MoE那樣等待前面的層計(jì)算完才知道要激活誰(shuí)。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

存算解耦: 既然不需要?jiǎng)討B(tài)路由,記憶表就可以不完全放在昂貴的GPU顯存里論文。

預(yù)取-重疊策略: 系統(tǒng)可以利用PCIe帶寬,從容量巨大的主機(jī)內(nèi)存甚至SSD中預(yù)取所需的向量,同時(shí)GPU在計(jì)算前序?qū)?strong>論文。

硬件-算法協(xié)同: 通過(guò)合理放置Engram層的位置,可以完美掩蓋數(shù)據(jù)傳輸?shù)难舆t,實(shí)現(xiàn)幾乎零開銷的性能提升論文。

5. 實(shí)驗(yàn)結(jié)果論文:全方位碾壓

DeepSeek將Engram擴(kuò)展到了27B參數(shù)規(guī)模論文,并在同等參數(shù)、同等FLOPs下與MoE模型進(jìn)行了對(duì)比:

知識(shí)能力暴漲: MMLU (+3.4)、CMMLU (+4.0) 提升顯著,這符合“記憶”模塊的預(yù)期論文。

推理能力意外提升: 代碼(HumanEval +3.0)和數(shù)學(xué)(MATH +2.4)表現(xiàn)更好論文。

長(zhǎng)文本能力的質(zhì)變論文

Engram能夠處理局部依賴,釋放了Transformer的注意力機(jī)制去處理全局上下文論文。

在Multi-Query NIAH測(cè)試中,準(zhǔn)確率從84.2%飆升至97.0%論文。

原創(chuàng)剛剛!DeepSeek發(fā)表新論文

通過(guò)層級(jí)相似度分析,如上圖CKA熱力圖,Engram實(shí)際上增加了模型的有效深度論文。它將簡(jiǎn)單的模式匹配任務(wù)在淺層就通過(guò)查表解決了,讓深層網(wǎng)絡(luò)能專注于更復(fù)雜的邏輯推理。

DeepSeek 的這項(xiàng)工作不僅提出了一個(gè)新的模塊Engram,更重要的是確立了大模型稀疏性的新范式:雙軸稀疏(Dual-Axis Sparsity)論文。

未來(lái)的大模型論文,也許就是DeepSeek v4,將同時(shí)擁有:

條件計(jì)算 (MoE): 用于處理復(fù)雜的邏輯和動(dòng)態(tài)推理論文

條件記憶 (Engram): 用于存儲(chǔ)海量的世界知識(shí)和固定模式論文。

這種組合在同等算力下,實(shí)現(xiàn)了更強(qiáng)的智能表現(xiàn)和更高效的系統(tǒng)吞吐論文。

本站內(nèi)容來(lái)自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://www.cqlhyz.com/post/4696.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩