o1之后下一個(gè)范式？隱式CoT大突破，讓推理不再「碎碎念」|熱門

2026-02-02 11:20:55 來源：機(jī)器之心Pro

魏熙林為本篇文章第一作者。魏熙林是復(fù)旦大學(xué)博士生，師從林達(dá)華教授，研究興趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能實(shí)驗(yàn)室實(shí)習(xí)，指導(dǎo) mentor 是臧宇航、王佳琦。

今天推薦一個(gè) Implicit Chain-of-Thought（隱式推理）的最新進(jìn)展 ——SIM-CoT（Supervised Implicit Chain-of-Thought）。它直擊隱式 CoT 一直「扶不起來」的核心痛點(diǎn)：隱式 token 一旦 scale 上去，訓(xùn)練就容易塌縮到同質(zhì)化的 latent 狀態(tài)，推理語義直接丟失。

【資料圖】

SIM-CoT 的關(guān)鍵招式是一個(gè) plug-and-play 的 step-level 監(jiān)督模塊：訓(xùn)練時(shí)用輔助解碼器把每個(gè) latent token「拉回」到可對齊的推理步驟上，既穩(wěn)住優(yōu)化、避免 collapse，又讓隱式推理第一次真正可解釋 —— 你甚至能把每個(gè) latent token 解碼成人類可讀的中間推理步驟。

更爽的是：推理階段零額外開銷（輔助解碼器訓(xùn)練完就丟），但效果卻很猛：在 GPT-2 上相對 supervised CoT +2.1%、相對 Coconut +8.2%、相對 CODI +4.3%，在更大的 LLaMA（1B/3B/8B）上也能穩(wěn)定帶來 +1.5%～+9.0% 的提升，并且在 8–16 個(gè)隱式 token 這種 “前人容易崩” 的設(shè)置下依然穩(wěn)得住。

目前這項(xiàng)研究剛剛中稿頂會(huì) ICLR 2026，論文、代碼、模型權(quán)重均已開源，歡迎使用！

Paper: https://arxiv.org/pdf/2509.20317
Code: https://github.com/InternLM/SIM-CoT
Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought

圖 1：(a) 潛變量不穩(wěn)定：隱式 token 增多起初能提精度，但訓(xùn)練會(huì)變得不穩(wěn)定，甚至塌縮。(b) 信息丟失：失敗模型（5 個(gè)隱式 token）在隱式表示中丟失關(guān)鍵運(yùn)算符信息（如 +、?），導(dǎo)致復(fù)雜推理無法進(jìn)行。(c) 距離偏移：失敗模型的 latent 間距離收縮、彼此過于相似，同時(shí) latent 逐漸偏離詞表嵌入空間中心。(d) 語義同質(zhì)化：失敗模型的 latent 表征趨同，解碼結(jié)果分布變窄，輸出多為數(shù)字；正常模型則能生成更豐富的內(nèi)容。

從顯式 CoT 到隱式 CoT：latent 穩(wěn)定性與監(jiān)督對齊的重大難點(diǎn)

復(fù)雜推理任務(wù)（如數(shù)學(xué)、符號推理、代碼推理）長期以來都依賴顯式 Chain-of-Thought（CoT）：模型把中間步驟一條條寫出來，既能提升正確率，也便于人類檢查與糾錯(cuò)。

如今，隨著推理需求不斷增長，顯式 CoT 的兩大瓶頸越來越突出：成本方面，長 CoT 會(huì)顯著拉高 token 開銷與時(shí)延；效果方面，顯式步驟容易被數(shù)據(jù)格式牽著走，出現(xiàn)「模板化推理」、冗長但無效的「自說自話」。

這些局限性推動(dòng)研究者轉(zhuǎn)向一種更「省 token」的新范式 —— 隱式 CoT（Implicit CoT）。它不再把推理步驟完整寫出來，而是用少量隱式 token /latent 表征在模型內(nèi)部完成多步推理：理論上既能保留推理能力，又能顯著降低推理開銷。

但把隱式 CoT 真正做穩(wěn)、做強(qiáng)，遠(yuǎn)比想象中難，關(guān)鍵挑戰(zhàn)在于：隱式 token 到底學(xué)到了什么？以及作者團(tuán)隊(duì)如何保證它學(xué)到的是「可用的推理」，而不是「投機(jī)的捷徑」？

一個(gè)典型現(xiàn)象是 latent instability（潛變量不穩(wěn)定）：當(dāng)你嘗試增加隱式 token 數(shù)量來「scale 推理容量」時(shí)，模型往往不是變強(qiáng)，而是訓(xùn)練開始抖動(dòng)，甚至直接 collapse（塌縮）。塌縮后的隱式 token 會(huì)出現(xiàn)明顯的信息丟失 —— 尤其是對符號推理至關(guān)重要的算子信息（+、?、×、÷ 等）被抹掉；同時(shí) latent 之間的表示會(huì)越來越像，出現(xiàn)語義同質(zhì)化：不同 token 學(xué)到的東西高度重合，最后解碼出來的內(nèi)容范圍變窄，常常只剩下數(shù)字或非常單一的片段，復(fù)雜推理自然就做不下去。

現(xiàn)有隱式 CoT 方法在監(jiān)督粒度上差異很大：Coconut 基本只做答案級監(jiān)督，模型被要求「最后答對」，但中間 latent 學(xué)什么幾乎不受約束；CODI 雖然引入了蒸餾信號，把顯式 CoT 的信息壓到連續(xù) latent 里，但更多是軌跡 / 整體路徑級對齊。

SIM-CoT 的關(guān)鍵突破正是 step-level 監(jiān)督：訓(xùn)練時(shí)用輔助解碼器把每個(gè) latent 對齊到對應(yīng)推理步驟，從根上穩(wěn)定并豐富 latent 推理空間，同時(shí)推理階段不增加任何開銷。

圖 2: 框架對比：Coconut（左上）、CODI（右上）與 SIM-CoT（下）。Coconut/CODI 僅在答案或軌跡層面進(jìn)行粗粒度監(jiān)督；SIM-CoT 引入解碼器將隱式 latent 與逐步推理對齊，在不增加推理開銷的前提下提升性能。

監(jiān)督設(shè)計(jì)新思路：好的隱式推理應(yīng)當(dāng)能被「逐步解碼」回顯式思維鏈

為了解決隱式 CoT 在 scale implicit tokens 時(shí)容易出現(xiàn)的不穩(wěn)定與塌縮（latent 語義變得同質(zhì)、算子信息丟失、復(fù)雜推理失效）這一關(guān)鍵難題，作者團(tuán)隊(duì)提出一個(gè)新的視角：隱式推理的質(zhì)量，與其「可對齊的逐步語義」成正比。換句話說，如果每個(gè)隱式 latent 真的在做第 k 步推理，那么它就應(yīng)該能被一個(gè)輕量的解碼器「翻譯」回對應(yīng)的顯式步驟（比如產(chǎn)生關(guān)鍵算子、關(guān)系、子目標(biāo)），從而讓 latent 不再是黑盒的連續(xù)向量，而是具備可控的推理結(jié)構(gòu)。

基于這一動(dòng)機(jī)，作者團(tuán)隊(duì)提出 SIM-CoT 的訓(xùn)練框架：在訓(xùn)練階段引入一個(gè)輔助 decoder，把每個(gè)隱式 latent 與對應(yīng)的 step-level 推理進(jìn)行對齊監(jiān)督（而不是像 Coconut 只監(jiān)督答案、或像 CODI 更偏軌跡級 / 整體級的粗粒度對齊）。

這樣一來，模型在學(xué)習(xí)「如何答對」的同時(shí)，也被強(qiáng)約束去學(xué)習(xí)「每一步該想什么」，從根源上抑制語義坍縮；更重要的是，推理階段直接移除 decoder，保持零額外開銷，但作者團(tuán)隊(duì)依然可以在分析時(shí)把隱式步驟解碼出來做中間推理可視化，同時(shí)獲得更強(qiáng)的性能與更穩(wěn)定的 token scaling 效果。

SIM-CoT 實(shí)驗(yàn)結(jié)果

作者團(tuán)隊(duì)對 SIM-CoT 帶來的收益做了系統(tǒng)評估，結(jié)論非常明確：更準(zhǔn)、更穩(wěn)、還更省 token。

（i）GPT-2 上：首次做到「隱式 CoT 反超顯式 CoT」，且 token 更省。

在 in-domain 的 GSM8k-Aug 上，SIM-CoT（以 Coconut 為骨干）把準(zhǔn)確率從 36.6% 提升到 44.8%（+8.2），同時(shí)也超過顯式 SFT-CoT 的 42.7%；并且保持隱式推理的低 token 開銷（平均 token 遠(yuǎn)低于 SFT-CoT），論文總結(jié)為 2.3× token efficiency。

（ii）Out-of-domain 泛化更穩(wěn)：整體平均提升顯著。

在 GSM-Hard / MultiArith / SVAMP 三個(gè)外推數(shù)據(jù)集上，SIM-CoT（Coconut 骨干）的 out-of-domain 平均準(zhǔn)確率從 42.6% 提升到 46.9%（+4.3），說明它并不是「只會(huì)背訓(xùn)練域步驟」，而是確實(shí)把 latent 空間推理做扎實(shí)了。

（iii）在更強(qiáng)的隱式基線與更大模型上依然有增益，并顯著提升穩(wěn)定性。

在 GPT-2 上疊加到 CODI 之上也能繼續(xù)漲（in-domain +0.6，out-of-domain 平均 +0.3）；擴(kuò)展到 LLaMA 3.2 3B 時(shí)依然穩(wěn)定帶來 +1.5（in-domain）/+0.7（out-of-domain 平均）的提升；論文也報(bào)告在 LLaMA-3.1 8B 上對 CODI 提升 +3.0。

（iv）效率不打折：推理階段無額外開銷，還更快。

因?yàn)檩o助 decoder 只在訓(xùn)練期使用，推理期移除，所以 SIM-CoT 推理效率與其他隱式方法一致；同時(shí)在 GPT-2 上相對顯式 CoT 仍體現(xiàn)出明顯速度優(yōu)勢。

圖三：作者團(tuán)隊(duì)在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系統(tǒng)驗(yàn)證了 SIM-CoT 的性能提升，結(jié)果表明該方法在不同模型規(guī)模下均穩(wěn)定有效。

關(guān)鍵詞：推理軌跡顯式算子 cot 隱式co

在线观看国产精品va_国产成人精品怡红院在线观看_亚洲精品1卡2卡三卡23卡_女人夜夜春高潮爽a∨片_久久激情日本亚洲欧洲国产中文_国产亚洲精品a在线观看下载

o1之后下一個(gè)范式？隱式CoT大突破，讓推理不再「碎碎念」|熱門

熱門推薦

熱門文章

全站熱門