国产人成自精在线,国产精品初高中精品久久,88国产精品欧美一区二区三区,AV无码国产麻豆映画传媒国产卡一卡二卡三视频,91色色无码综合国产,国产精品一级av无码,国产毛片一区二区三区视频

AIPress.com.cn報(bào)道

1月13日消息，DeepSeek帶著新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》強(qiáng)勢(shì)回歸論文。

這不僅讓網(wǎng)友感慨 "DeepSeek is back"，更為即將到來(lái)的DeepSeek v4描繪了清晰的輪廓論文。

這項(xiàng)研究的核心在于填補(bǔ)了現(xiàn)有 Transformer 架構(gòu)的一塊拼圖：用「條件記憶」來(lái)補(bǔ)全「條件計(jì)算」論文。

以下是對(duì)這項(xiàng)研究核心機(jī)制、架構(gòu)創(chuàng)新及性能表現(xiàn)的分析論文：

1. 核心痛點(diǎn)論文：計(jì)算與記憶的失衡

目前的稀疏大模型DeepSeek-V3主要依賴MoE架構(gòu)論文。MoE實(shí)現(xiàn)了「條件計(jì)算」，即根據(jù)輸入只激活部分參數(shù)。

然而，DeepSeek指出，現(xiàn)有的Transformer缺乏原生的「查找」機(jī)制論文。模型為了獲取靜態(tài)知識(shí)，被迫通過(guò)昂貴的計(jì)算過(guò)程來(lái)模擬檢索行為。這導(dǎo)致了計(jì)算資源的浪費(fèi)和知識(shí)調(diào)用的低效。

展開全文

解決方案：提出Engram模塊，引入「條件記憶」，將靜態(tài)知識(shí)的存儲(chǔ)與動(dòng)態(tài)推理計(jì)算分離開來(lái)論文。

2. Engram 架構(gòu)：如何實(shí)現(xiàn) O(1) 查找論文？

Engram的設(shè)計(jì)目標(biāo)是將靜態(tài)模式存儲(chǔ)從Transformer主干中剝離論文。它不依賴復(fù)雜的注意力機(jī)制去“尋找”記憶，而是通過(guò)確定性的哈希算法直接“定位”記憶。

Engram的工作流程主要分為兩個(gè)階段論文：

基于哈希的稀疏檢索:

壓縮與映射：首先通過(guò)分詞器將輸入壓縮，最大化語(yǔ)義密度論文。

N-gram哈希：提取當(dāng)前位置的N-gram特征，利用多頭哈希機(jī)制，以 $O(1)$ 的時(shí)間復(fù)雜度直接從巨大的嵌入表中檢索對(duì)應(yīng)的靜態(tài)向量論文。

上下文感知門控:

檢索到的靜態(tài)向量（先驗(yàn)知識(shí)）不能直接生硬地插入，需要結(jié)合當(dāng)前的上下文論文。

Engram 引入了一個(gè)類似注意力機(jī)制的門控，將檢索到的靜態(tài)信息與當(dāng)前模型的動(dòng)態(tài)隱藏狀態(tài)融合，并通過(guò)輕量級(jí)卷積進(jìn)行精煉論文。

3. 擴(kuò)展規(guī)律論文：MoE與Engram的黃金比例

DeepSeek研究發(fā)現(xiàn)，單純堆疊MoE專家并不是最優(yōu)解論文。在總參數(shù)量和計(jì)算量鎖定的前提下，如何分配「神經(jīng)計(jì)算（MoE）」與「靜態(tài)記憶（Engram）」的比例至關(guān)重要。

研究揭示了一條U型擴(kuò)展規(guī)律：

純MoE基準(zhǔn)并非最優(yōu)論文。

將大約20%-25%的稀疏參數(shù)預(yù)算分配給Engram，模型能達(dá)到最佳性能論文。

這意味著「條件記憶」是稀疏大模型中一個(gè)獨(dú)立且不可或缺的新維度論文。

4. 系統(tǒng)級(jí)優(yōu)化論文：存算解耦與硬件感知

Engram的一大優(yōu)勢(shì)是系統(tǒng)效率論文。由于其檢索是確定性的，不需要像MoE那樣等待前面的層計(jì)算完才知道要激活誰(shuí)。

存算解耦：既然不需要?jiǎng)討B(tài)路由，記憶表就可以不完全放在昂貴的GPU顯存里論文。

預(yù)取-重疊策略: 系統(tǒng)可以利用PCIe帶寬，從容量巨大的主機(jī)內(nèi)存甚至SSD中預(yù)取所需的向量，同時(shí)GPU在計(jì)算前序?qū)?strong>論文。

硬件-算法協(xié)同：通過(guò)合理放置Engram層的位置，可以完美掩蓋數(shù)據(jù)傳輸?shù)难舆t，實(shí)現(xiàn)幾乎零開銷的性能提升論文。

5. 實(shí)驗(yàn)結(jié)果論文：全方位碾壓

DeepSeek將Engram擴(kuò)展到了27B參數(shù)規(guī)模論文，并在同等參數(shù)、同等FLOPs下與MoE模型進(jìn)行了對(duì)比：

知識(shí)能力暴漲： MMLU (+3.4)、CMMLU (+4.0) 提升顯著，這符合“記憶”模塊的預(yù)期論文。

推理能力意外提升：代碼（HumanEval +3.0）和數(shù)學(xué)（MATH +2.4）表現(xiàn)更好論文。

長(zhǎng)文本能力的質(zhì)變論文：

Engram能夠處理局部依賴，釋放了Transformer的注意力機(jī)制去處理全局上下文論文。

在Multi-Query NIAH測(cè)試中，準(zhǔn)確率從84.2%飆升至97.0%論文。

通過(guò)層級(jí)相似度分析，如上圖CKA熱力圖，Engram實(shí)際上增加了模型的有效深度論文。它將簡(jiǎn)單的模式匹配任務(wù)在淺層就通過(guò)查表解決了，讓深層網(wǎng)絡(luò)能專注于更復(fù)雜的邏輯推理。

DeepSeek 的這項(xiàng)工作不僅提出了一個(gè)新的模塊Engram，更重要的是確立了大模型稀疏性的新范式：雙軸稀疏（Dual-Axis Sparsity）論文。

未來(lái)的大模型論文，也許就是DeepSeek v4，將同時(shí)擁有：

條件計(jì)算 (MoE): 用于處理復(fù)雜的邏輯和動(dòng)態(tài)推理論文。

條件記憶 (Engram): 用于存儲(chǔ)海量的世界知識(shí)和固定模式論文。

這種組合在同等算力下，實(shí)現(xiàn)了更強(qiáng)的智能表現(xiàn)和更高效的系統(tǒng)吞吐論文。

原創(chuàng)剛剛！DeepSeek發(fā)表新論文

海之嵐財(cái)稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

原創(chuàng)剛剛！DeepSeek發(fā)表新論文

海之嵐財(cái)稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

原創(chuàng)剛剛！DeepSeek發(fā)表新論文