2026 年剛開(kāi)年,DeepSeek就放出了一項(xiàng)重要技術(shù)進(jìn)展。
1月1日,DeepSeek發(fā)表論文《Manifold-Constrained Hyper-Connections》,提出一種全新的模型連接結(jié)構(gòu) mHC(流形約束超連接),直擊當(dāng)前大模型訓(xùn)練領(lǐng)域中長(zhǎng)期存在卻難以攻克的核心問(wèn)題:模型越大,訓(xùn)練越不穩(wěn)定。
該論文由DeepSeek團(tuán)隊(duì)完成,創(chuàng)始人兼CEO梁文鋒也出現(xiàn)在作者名單中。

為什么大模型越來(lái)越“難訓(xùn)練”?
目前主流的大模型,幾乎都建立在“殘差連接”之上。這種結(jié)構(gòu)的好處是讓信息在深層網(wǎng)絡(luò)中更順暢地傳遞,是 Transformer 能夠成功的關(guān)鍵之一。
但隨著模型規(guī)模不斷擴(kuò)大,研究者們開(kāi)始嘗試更復(fù)雜的連接方式,比如 Hyper-Connections(超連接),希望讓模型具備更強(qiáng)的表達(dá)能力。
問(wèn)題也恰恰出在這里。
論文指出,這類(lèi)結(jié)構(gòu)雖然在理論上更靈活,但在實(shí)際訓(xùn)練中容易出現(xiàn) 梯度爆炸、信號(hào)失真、訓(xùn)練不穩(wěn)定 等問(wèn)題。在部分實(shí)驗(yàn)場(chǎng)景中,信號(hào)甚至?xí)环糯笊锨П?,?dǎo)致模型難以收斂,訓(xùn)練成本急劇上升。

DeepSeek 的解法:給“連接”加上約束
針對(duì)這一痛點(diǎn),DeepSeek 提出了 mHC(流形約束超連接) 方案。
簡(jiǎn)單來(lái)說(shuō),mHC 并不是完全推翻原有結(jié)構(gòu),而是給超連接增設(shè)一道“約束”,將原本自由度極高的連接矩陣,限制在一個(gè)數(shù)學(xué)層面更加穩(wěn)定的“流形空間”中。

這一設(shè)計(jì)帶來(lái)的效果十分顯著:既保留了超連接的強(qiáng)大表達(dá)能力,又恢復(fù)了類(lèi)似傳統(tǒng)殘差結(jié)構(gòu)的訓(xùn)練穩(wěn)定性,同時(shí)還能有效避免信號(hào)在層與層之間出現(xiàn)無(wú)限制放大的情況。用論文中的表述來(lái)講,就是讓模型在“表達(dá)能力”與“數(shù)值穩(wěn)定性”之間,重新取得平衡。
實(shí)測(cè)結(jié)果:更穩(wěn)、更準(zhǔn),代價(jià)更低
在 27B 參數(shù)規(guī)模的模型測(cè)試中,mHC 結(jié)構(gòu)的表現(xiàn)堪稱(chēng)亮眼。在 BBH、DROP 等多個(gè)推理類(lèi)基準(zhǔn)任務(wù)中,其性能顯著超越傳統(tǒng)結(jié)構(gòu);整個(gè)訓(xùn)練過(guò)程穩(wěn)定性拉滿(mǎn),未出現(xiàn)明顯的梯度爆炸現(xiàn)象;額外增加的計(jì)算開(kāi)銷(xiāo)僅約 6.7%,完全處于工程可接受范圍之內(nèi)。

論文還指出,在更大規(guī)模模型中,mHC的技術(shù)優(yōu)勢(shì)還會(huì)進(jìn)一步放大,也意味著該結(jié)構(gòu)對(duì)未來(lái)超大模型的研發(fā)具有較強(qiáng)的擴(kuò)展?jié)摿Α?/p>
一次偏底層、但很關(guān)鍵的推進(jìn)
在外界看來(lái),mHC 并非“看一眼就能用”的功能更新,而是一項(xiàng)偏向底層架構(gòu)、蘊(yùn)含先進(jìn)工程哲學(xué)的技術(shù)改進(jìn)。
但恰恰是這類(lèi)深耕底層的研究工作,決定了大模型能否繼續(xù)向更大規(guī)模演進(jìn)。
在算力、數(shù)據(jù)逐漸逼近物理與成本極限的當(dāng)下,如何讓模型“跑得穩(wěn)、跑得久”,已經(jīng)成為比“堆參數(shù)”更重要的核心命題。DeepSeek 此次的技術(shù)嘗試,或?qū)⒊蔀橄乱浑A段模型架構(gòu)演進(jìn)的重要方向之一。
如果說(shuō)過(guò)去幾年,行業(yè)奮力攻克的是“能不能做大模型”,那么現(xiàn)在,研究者們開(kāi)始認(rèn)真思考的是:大模型還能不能繼續(xù)成長(zhǎng),如何健康地成長(zhǎng)。