1月12日晚,DeepSeek創(chuàng)始人梁文鋒署名發(fā)布新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基于可擴展查找的條件記憶:大語言模型稀疏性的新維度)并開源記憶模塊Engram,引起了業(yè)內(nèi)高度關注論文。
該研究提出“條件記憶”新范式,通過讓模型將固定知識存儲與動態(tài)推理計算分離,大幅提升了處理效率論文。論文數(shù)據(jù)顯示,這一架構(gòu)能在同等算力下,顯著提升模型在數(shù)學、代碼及知識任務上的性能。
本月,智譜AI與MiniMax剛剛在港交所完成上市,月之暗面(Kimi)也完成了新一輪巨額融資,標志著大模型創(chuàng)業(yè)公司正迎來一輪資本化高潮論文。在此背景下,梁文鋒的論文引申出了一個核心問題:當一部分公司全力奔赴資本市場時,DeepSeek為何選擇以一篇技術論文作為回應?
當前,行業(yè)頭部公司已走上幾條清晰不同的路論文。剛上市的智譜AI和MiniMax都選擇用技術賺錢,但商業(yè)模式不同。智譜主攻企業(yè)服務(To B),客戶達數(shù)千家;MiniMax則面向全球用戶(To C),用戶數(shù)億,大部分收入來自海外。
而月之暗面代表了另一條路,即憑借長上下文等技術亮點吸引融資,實現(xiàn)快速增長論文。而該公司仍面臨的挑戰(zhàn)是如何將技術優(yōu)勢持續(xù)轉(zhuǎn)化為大規(guī)模的商業(yè)成功。
在此背景下,DeepSeek的論文開源,明確指向了第三條道路:“開源技術生態(tài)”論文。這并非直接的市場競爭,而是旨在通過定義下一代模型的高效架構(gòu)(如Engram模塊),在底層構(gòu)建廣泛的技術影響力與生態(tài)。
與此同時,科技巨頭正以全面布局的模式強勢加入戰(zhàn)局,成為另一支關鍵力量論文。例如,字節(jié)跳動的豆包與阿里的通義千問,正借助自身的業(yè)務和基礎設施優(yōu)勢,把AI能力深度融入從底層算力到上層應用的各個環(huán)節(jié),展開體系化的全面競爭。
值得關注的是,DeepSeek則堅持開源,其影響已與全球主流的閉源模式形成鮮明對比論文。當OpenAI、Anthropic等海外巨頭將尖端技術閉源以構(gòu)筑壁壘時,DeepSeek卻將Engram等關鍵成果開源,這實質(zhì)是選擇了一條通過吸引全球開發(fā)者、建立技術標準來構(gòu)建生態(tài)影響力的差異化路徑。此舉不僅降低了全球AI創(chuàng)新門檻,長遠看也有助于促進技術路線多元化,防止市場被少數(shù)閉源體系壟斷。
如今,大模型競爭已全面演進為技術路線、商業(yè)模式與生態(tài)構(gòu)建的立體戰(zhàn)局,正在塑造一個共生制衡的全新產(chǎn)業(yè)體系論文。而梁文鋒的這篇論文,恰似立在分岔路口的一座技術路標,清晰地指向了其中一條通往未來的道路。