魏熙林為本篇文章第一作者。魏熙林是復(fù)旦大學(xué)博士生,師從林達(dá)華教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能實(shí)驗(yàn)室實(shí)習(xí),指導(dǎo) mentor 是臧宇航、王佳琦。
今天推薦一個(gè) Implicit Chain-of-Thought(隱式推理) 的最新進(jìn)展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直擊隱式 CoT 一直「扶不起來」的核心痛點(diǎn):隱式 token 一旦 scale 上去,訓(xùn)練就容易塌縮到同質(zhì)化的 latent 狀態(tài),推理語義直接丟失。
【資料圖】
SIM-CoT 的關(guān)鍵招式是一個(gè) plug-and-play 的 step-level 監(jiān)督模塊:訓(xùn)練時(shí)用輔助解碼器把每個(gè) latent token「拉回」到可對齊的推理步驟上,既穩(wěn)住優(yōu)化、避免 collapse,又讓隱式推理第一次真正可解釋 —— 你甚至能把每個(gè) latent token 解碼成人類可讀的中間推理步驟。
更爽的是:推理階段零額外開銷(輔助解碼器訓(xùn)練完就丟),但效果卻很猛:在 GPT-2 上相對 supervised CoT +2.1%、相對 Coconut +8.2%、相對 CODI +4.3%,在更大的 LLaMA(1B/3B/8B)上也能穩(wěn)定帶來 +1.5%~+9.0% 的提升,并且在 8–16 個(gè)隱式 token 這種 “前人容易崩” 的設(shè)置下依然穩(wěn)得住。
目前這項(xiàng)研究剛剛中稿頂會(huì) ICLR 2026,論文、代碼、模型權(quán)重均已開源,歡迎使用!
- Paper: https://arxiv.org/pdf/2509.20317
- Code: https://github.com/InternLM/SIM-CoT
- Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought
圖 1:(a) 潛變量不穩(wěn)定:隱式 token 增多起初能提精度,但訓(xùn)練會(huì)變得不穩(wěn)定,甚至塌縮。(b) 信息丟失:失敗模型(5 個(gè)隱式 token)在隱式表示中丟失關(guān)鍵運(yùn)算符信息(如 +、?),導(dǎo)致復(fù)雜推理無法進(jìn)行。(c) 距離偏移:失敗模型的 latent 間距離收縮、彼此過于相似,同時(shí) latent 逐漸偏離詞表嵌入空間中心。(d) 語義同質(zhì)化:失敗模型的 latent 表征趨同,解碼結(jié)果分布變窄,輸出多為數(shù)字;正常模型則能生成更豐富的內(nèi)容。
從顯式 CoT 到隱式 CoT:latent 穩(wěn)定性與監(jiān)督對齊的重大難點(diǎn)
復(fù)雜推理任務(wù)(如數(shù)學(xué)、符號推理、代碼推理)長期以來都依賴顯式 Chain-of-Thought(CoT):模型把中間步驟一條條寫出來,既能提升正確率,也便于人類檢查與糾錯(cuò)。
如今,隨著推理需求不斷增長,顯式 CoT 的兩大瓶頸越來越突出:成本方面,長 CoT 會(huì)顯著拉高 token 開銷與時(shí)延;效果方面,顯式步驟容易被數(shù)據(jù)格式牽著走,出現(xiàn)「模板化推理」、冗長但無效的「自說自話」。
這些局限性推動(dòng)研究者轉(zhuǎn)向一種更「省 token」的新范式 —— 隱式 CoT(Implicit CoT)。它不再把推理步驟完整寫出來,而是用少量隱式 token /latent 表征在模型內(nèi)部完成多步推理:理論上既能保留推理能力,又能顯著降低推理開銷。
但把隱式 CoT 真正做穩(wěn)、做強(qiáng),遠(yuǎn)比想象中難,關(guān)鍵挑戰(zhàn)在于:隱式 token 到底學(xué)到了什么?以及作者團(tuán)隊(duì)如何保證它學(xué)到的是「可用的推理」,而不是「投機(jī)的捷徑」?
一個(gè)典型現(xiàn)象是 latent instability(潛變量不穩(wěn)定):當(dāng)你嘗試增加隱式 token 數(shù)量來「scale 推理容量」時(shí),模型往往不是變強(qiáng),而是訓(xùn)練開始抖動(dòng),甚至直接 collapse(塌縮)。塌縮后的隱式 token 會(huì)出現(xiàn)明顯的 信息丟失 —— 尤其是對符號推理至關(guān)重要的算子信息(+、?、×、÷ 等)被抹掉;同時(shí) latent 之間的表示會(huì)越來越像,出現(xiàn)語義同質(zhì)化:不同 token 學(xué)到的東西高度重合,最后解碼出來的內(nèi)容范圍變窄,常常只剩下數(shù)字或非常單一的片段,復(fù)雜推理自然就做不下去。
現(xiàn)有隱式 CoT 方法在監(jiān)督粒度上差異很大:Coconut 基本只做答案級監(jiān)督,模型被要求「最后答對」,但中間 latent 學(xué)什么幾乎不受約束;CODI 雖然引入了蒸餾信號,把顯式 CoT 的信息壓到連續(xù) latent 里,但更多是軌跡 / 整體路徑級對齊。
SIM-CoT 的關(guān)鍵突破正是 step-level 監(jiān)督:訓(xùn)練時(shí)用輔助解碼器把每個(gè) latent 對齊到對應(yīng)推理步驟,從根上穩(wěn)定并豐富 latent 推理空間,同時(shí)推理階段不增加任何開銷。
圖 2: 框架對比:Coconut(左上)、CODI(右上)與 SIM-CoT(下)。Coconut/CODI 僅在答案或軌跡層面進(jìn)行粗粒度監(jiān)督;SIM-CoT 引入解碼器將隱式 latent 與逐步推理對齊,在不增加推理開銷的前提下提升性能。
監(jiān)督設(shè)計(jì)新思路:好的隱式推理應(yīng)當(dāng)能被「逐步解碼」回顯式思維鏈
為了解決隱式 CoT 在 scale implicit tokens 時(shí)容易出現(xiàn)的不穩(wěn)定與塌縮(latent 語義變得同質(zhì)、算子信息丟失、復(fù)雜推理失效)這一關(guān)鍵難題,作者團(tuán)隊(duì)提出一個(gè)新的視角:隱式推理的質(zhì)量,與其「可對齊的逐步語義」成正比。換句話說,如果每個(gè)隱式 latent 真的在做第 k 步推理,那么它就應(yīng)該能被一個(gè)輕量的解碼器「翻譯」回對應(yīng)的顯式步驟(比如產(chǎn)生關(guān)鍵算子、關(guān)系、子目標(biāo)),從而讓 latent 不再是黑盒的連續(xù)向量,而是具備可控的推理結(jié)構(gòu)。
基于這一動(dòng)機(jī),作者團(tuán)隊(duì)提出 SIM-CoT 的訓(xùn)練框架:在訓(xùn)練階段引入一個(gè)輔助 decoder,把每個(gè)隱式 latent 與對應(yīng)的 step-level 推理進(jìn)行對齊監(jiān)督(而不是像 Coconut 只監(jiān)督答案、或像 CODI 更偏軌跡級 / 整體級的粗粒度對齊)。
這樣一來,模型在學(xué)習(xí)「如何答對」的同時(shí),也被強(qiáng)約束去學(xué)習(xí)「每一步該想什么」,從根源上抑制語義坍縮;更重要的是,推理階段直接移除 decoder,保持零額外開銷,但作者團(tuán)隊(duì)依然可以在分析時(shí)把隱式步驟解碼出來做中間推理可視化,同時(shí)獲得更強(qiáng)的性能與更穩(wěn)定的 token scaling 效果。
SIM-CoT 實(shí)驗(yàn)結(jié)果
作者團(tuán)隊(duì)對 SIM-CoT 帶來的收益做了系統(tǒng)評估,結(jié)論非常明確:更準(zhǔn)、更穩(wěn)、還更省 token。
(i)GPT-2 上:首次做到「隱式 CoT 反超顯式 CoT」,且 token 更省。
在 in-domain 的 GSM8k-Aug 上,SIM-CoT(以 Coconut 為骨干)把準(zhǔn)確率從 36.6% 提升到 44.8%(+8.2),同時(shí)也超過顯式 SFT-CoT 的 42.7%;并且保持隱式推理的低 token 開銷(平均 token 遠(yuǎn)低于 SFT-CoT),論文總結(jié)為 2.3× token efficiency。
(ii)Out-of-domain 泛化更穩(wěn):整體平均提升顯著。
在 GSM-Hard / MultiArith / SVAMP 三個(gè)外推數(shù)據(jù)集上,SIM-CoT(Coconut 骨干)的 out-of-domain 平均準(zhǔn)確率從 42.6% 提升到 46.9%(+4.3),說明它并不是「只會(huì)背訓(xùn)練域步驟」,而是確實(shí)把 latent 空間推理做扎實(shí)了。
(iii)在更強(qiáng)的隱式基線與更大模型上依然有增益,并顯著提升穩(wěn)定性。
在 GPT-2 上疊加到 CODI 之上也能繼續(xù)漲(in-domain +0.6,out-of-domain 平均 +0.3);擴(kuò)展到 LLaMA 3.2 3B 時(shí)依然穩(wěn)定帶來 +1.5(in-domain)/+0.7(out-of-domain 平均) 的提升;論文也報(bào)告在 LLaMA-3.1 8B 上對 CODI 提升 +3.0。
(iv)效率不打折:推理階段無額外開銷,還更快。
因?yàn)檩o助 decoder 只在訓(xùn)練期使用,推理期移除,所以 SIM-CoT 推理效率與其他隱式方法一致;同時(shí)在 GPT-2 上相對顯式 CoT 仍體現(xiàn)出明顯速度優(yōu)勢。
圖三:作者團(tuán)隊(duì)在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系統(tǒng)驗(yàn)證了 SIM-CoT 的性能提升,結(jié)果表明該方法在不同模型規(guī)模下均穩(wěn)定有效。
營業(yè)執(zhí)照公示信息