出品|搜狐科技
作者|常博碩
編輯|楊錦
(資料圖片僅供參考)
臨近春節,DeepSeek的更新也越來越頻繁了。
剛剛,DeepSeek團隊發布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。
要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?
其實,OCR是光學字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機能看懂圖像中的文字。比如我們把手機拍攝的發票、合同掃描件、書籍照片等轉換成計算機可以編輯和搜索的文字內容,這就是OCR。
傳統OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結構。但人不是這樣的,我們在閱讀復雜文檔時,通常會先瀏覽標題然后看看段落表格,會有優先級排序,而不是機械地從左上到右下掃過頁面。
現在的問題是,當文檔結構復雜到一定程度時,AI就不知道先看哪兒了。像學術論文一般是多欄排版,文章中還有公式與正文交錯出現,技術報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統OCR的要求。
所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機器閱讀更像人而設計的。
提出視覺因果流
DeepSeek-OCR 2作為新一代視覺語言OCR模型,核心創新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構。
DeepSeek-OCR 2的整體架構延續了DeepSeek-OCR的“編碼器—解碼器”設計,其中解碼器仍然采用約3B參數的MoE語言模型,編碼器部分則升級為DeepEncoder V2。
從論文中看,DeepEncoder V2編碼器通過引入語義驅動的順序重排,使AI能夠根據圖片內容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。
上圖示意了DeepSeek-OCR 2的核心架構。左邊為傳統DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。
一個關鍵的點在于,DeepSeek-OCR 2使用了語言模型架構作為視覺編碼器。
在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續的語言解碼階段在建模范式上保持一致。
從架構上看,DeepSeek-OCR 2并未增加視覺token的數量,也沒有引入額外的多模態復雜結構,而是通過注意力掩碼的重新設計,讓“順序”成為可學習的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復文檔的邏輯結構。
注意力掩碼的設計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統一序列,但兩者在注意力機制上其實是非對稱的。
視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴格的因果注意力,每個query(查詢)只能關注其之前的query,同時,每個查詢token都可以訪問所有視覺token。
在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內部順序不再由空間坐標決定,而是在訓練過程中,在語義建模目標的驅動下逐步形成更接近人類閱讀邏輯的視覺表示序列。
這種設計就和人類閱讀文檔的方式高度相似,首先獲取全局結構,隨后在語義理解的引導下,決定接下來該看哪里。
部分表現優于Gemini
在OmniDocBench v1.5基準測試中,DeepSeek-OCR 2在整體準確率上達到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。
在衡量閱讀順序(R-order)的指標編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準,結構理解能力也發生了實質變化。
在和Gemini-3 Pro等閉源強模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優于Gemini-3 Pro(0.115)。
根據DeepSeek披露的數據,在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復輸出率也有了明顯下降。
相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復率從6.25%降至4.17%。在PDF數據生產場景中,重復率從3.69%降至2.88%。重復輸出往往源于模型對文檔結構理解不充分,導致內容會被多次誤讀,從結果來看,視覺因果流的引入也有效緩解了這一問題。
如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負責怎么讀內容,解碼器負責如何回答,兩者共同完成對復雜視覺內容的理解。
這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(Native Multimodality)。如果同一套因果查詢機制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構的起點,而不是終點。
正如論文最后所說,雖然光學文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務之一,但它僅占視覺理解領域的一小部分。
展望未來,DeepSeek將向著更通用的多模態智能繼續“深度求索”。
營業執照公示信息