DeepSeek-OCR模型為何這么火?盤了一下OCR發展史快訊
DeepSeek在10月20日發布的3B參數開源OCR模型,DeepSeek-OCR模型創新性地提出,DeepSeek OCR模型熱度也帶火了多款OCR相關模型。
【TechWeb】10月24日消息,DeepSeek在10月20日發布的3B參數開源OCR模型,迅速在AI領域獲得了廣泛關注和討論。
DeepSeek-OCR模型創新性地提出“上下文光學壓縮”技術,將長文本轉換為圖像進行高效壓縮處理,大幅降低大模型輸入所需的Token數量,從而顯著降低大模型處理長文檔時的計算開銷。
其核心理念被評價為“AI的JPEG時刻”,通過視覺輸入模擬人類記憶衰減機制,將久遠上下文壓縮為低分辨率圖像,實現自然遺忘,從而優化長上下文管理,其被認為為AI的記憶和上下文處理架構打開了新路徑。
這一思路獲得 Andrej Karpathy 等業界專家高度評價,認為可能改變 AI 理解信息的方式。
DeepSeek-OCR模型在GitHub上迅速獲得過萬星標,在HuggingFace也登上熱榜,證明了其受開發者歡迎的程度。
DeepSeek-OCR開源
DeepSeek-OCR模型在 OmniDocBench 測試中表現優異。僅用100 個視覺 token*即超越 GOT-OCR2.0(256 token),用不足800視覺 token超越 MinerU2.0(超 6000 token),實現高達 60 倍的 token 效率提升。
實測數據顯示,在 10 倍壓縮率下 OCR 解碼準確率達 97%,即使在20倍壓縮率下仍保持約 60% 準確率,支持多分辨率輸入(如 tiny: 512x512 到 large: 1280x1280)及動態分辨率模式(Gundam 模式)。
DeepSeek-OCR的出色表現,源于其精巧的“編碼器-解碼器”架構設計。
DeepEncoder編碼器是模型的核心引擎,其參數量約為3.8億。它創新性地串聯了SAM-base和CLIP-large兩個視覺模型。SAM-base利用窗口注意力機制捕捉局部細節,而CLIP-large則通過全局注意力理解圖像的整體語義。兩者之間通過一個卷積模塊進行16倍下采樣,顯著減少了需要處理的視覺Token數量,從而在高分辨率輸入下也能保持較低的計算消耗。
DeepSeek3B-MoE解碼器是一個參數量為30億的混合專家模型 (MoE)。在推理時,它每次僅激活約5.7億參數,這使得它既能具備大模型的強大表達能力,又保持了小模型的輕量級推理效率,負責從壓縮后的視覺Token中精準地還原出原始文本。
模型已在 GitHub 與 Hugging Face 開源,并上線超算互聯網平臺提供免費在線推理服務,單塊 A100-40G GPU 每日可生成超 20 萬頁高質量訓練數據,顯著降低數據制備成本。
海內外如何評價?真香
DeepSeek-OCR 模型自發布以來,憑借其創新的“上下文光學壓縮”思路,在AI領域獲得了廣泛關注。
特斯拉前自動駕駛負責人、OpenAI聯合創始人安德烈?卡帕西(Andrej Karpathy)在X發長文盛贊DeepSeek-OCR 模型,認為像素可能比文本更適合作為LLM的輸入。他提出,即便純文本也應先渲染成圖像再輸入,這樣信息壓縮效率更高,并有望淘汰存在安全和效率問題的分詞器 (Tokenizer)。
特斯拉創始人埃隆?馬斯克 (Elon Musk)則在卡帕西的討論下評論,從長遠看,AI模型超過99%的輸入和輸出都將是光子(光學信號)。
360創始人周鴻祎直接指出,以前的OCR是逐個認字符,不管文字多長都要一個個token堆。但DeepSeek-OCR是把文字當圖片壓縮,就像把一千字的文檔轉成JPG,體積小了但內容沒丟。這招直接解決了OCR的兩大痛點,精度不夠和成本太高。
《麻省理工科技評論》發文指出DeepSeek-OCR模型具備較強的"深度解析"能力,能將圖表轉為表格、解析化學分子式等,拓展了其在金融、科研等專業領域的應用空間。
長江證券研究報告則認為DeepSeek-OCR模型驗證了視覺Token可以更高效地表達信息,提供了降本新思路,有望成為文檔智能領域的基礎組件。
在開發者社區,有從業者贊嘆,DeepSeek的論文每篇都是精品,R1養活了一批研究強化學習的人,OCR這篇意味CV研究員的春天到來了。
由斯坦福大學學生開發的學術論文在線交流平臺AlphaXiv宣布用DeepSeek OCR從自己論文庫中的50W+篇AI相關的文章中的表格與圖表中,提取了每一個數據集,來看哪個benchmark最流行,并發布成一個新的數據集。這個操作總共花費了1000美元;同樣的項目用Mistral OCR要7500美元。
有行業從業者就表示,AlphaXiv做的這件事意義遠超技術本身。AlphaXiv用DeepSeek OCR做的,不只是一次“便宜又快”的信息提取實驗,而是一種研究范式的躍遷。當OCR成本降到每篇幾厘錢,誰先把“學術表格與圖表”這座金礦變成一張可查詢、可比較、可復用的“Benchmark 圖譜”,誰就掌握了下一輪模型評測與研發決策的話語權。
談到DeepSeek-OCR模型的開源將對行業帶來多大沖擊?
周鴻祎認為:“首先那些靠OCR技術收費的公司壓力山大了,人家免費開源的效果比你收費的還好。其次文檔處理、數據錄入、內容審核這些傳統行業也要變天了,以前需要大量人工的工作,現在AI幾秒鐘就搞定。最關鍵的是這會加速整個AI生態的發展,更多創業公司能用上頂級技術,行業競爭會更激烈。”
目前,DeepSeek OCR模型熱度也帶火了多款OCR相關模型,百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-0CR2-3B等在Hugging Face上均排到模型前幾名。
OCR發展歷史
事實上,OCR(Optical Character Recognition,光學字符識別)技術發展經歷多個重要發展階段。從最早的模板匹配到現在的端到端深度學習,每個階段都有其標志性技術突破。
1929年,德國科學家 Gustav Tauschek申請了首個OCR相關的專利。他的裝置使用模板和光電管來識別字符,屬于機械式識別。早期僅能識別0-9數字等固定字體。
隨著計算機的出現,OCR的概念開始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*機器,被認為是第一臺能識別印刷英文字母的計算機,并成立了世界第一家OCR公司。
此后,計算機科學的發展推動了OCR進入真正的數字化和算法化階段。隨著計算能力的提升和統計學習理論的發展,OCR技術變得更加魯棒和通用。OCR技術從特征提取與模式識別,發展到從純粹的幾何特征轉向基于統計模型的分類。
深度學習的出現,特別是卷積神經網絡(CNN),徹底改變了OCR領域,使其性能達到了前所未有的高度。CNN架構(如CRNN模型)實現端到端訓練,提升文字檢測精度,復雜場景識別率從2013年的58%躍升至2018年的89%左右。
在此階段,百度推出的開源工具庫PaddleOCR,集成了當時最先進的檢測和識別模型,推動了OCR的工業化應用。OpenMMLab旗下的開源工具箱MMOCR,采用模塊化設計,支持多種前沿算法。
深度學習OCR系統能夠在復雜背景、光照不均、字體多變、角度傾斜等挑戰性場景下取得極高的準確率(99%+)。這使得OCR應用場景從掃描文檔擴展到了自然場景文本識別。例如,OCR技術已經廣泛應用于教學領域。
當前,OCR技術正與多模態大模型融合,其目標不再是單純的“文字識別”,而是升級為全面的“文檔智能理解”。
如GPT-4V、Gemini等,它們內置了強大的視覺理解能力,能夠直接對文檔圖像進行問答、總結、提取信息等,OCR成為其底層能力之一。與此同時,Donut、Pix2Struct等模型,則展示了無需OCR即可直接“理解”文檔圖像的端到端能力。
這一次,DeepSeek-OCR代表了另一個前沿方向——“上下文光學壓縮”。它不再追求將每個像素都精確轉換為文本,而是探索如何以極高的效率壓縮和保留文檔中的語義信息,為處理海量長文檔提供了新范式。
縱觀OCR技術的發展史,這是一條從 “機械之眼”到“認知之腦”*的演進之路。在方法上,經歷了從 模板匹配→ 特征工程→ 統計學習→ 深度學習→多模態理解的發展,在能力上,實現了從識別單一字體→識別多字體→應對復雜場景→理解文檔語義的躍遷。
DeepSeek-OCR 之所以能引發如此熱烈的討論,主要歸功于它在以下幾個方面的突破:
首先,最值得稱道的是,思想上的根本性創新。
DeepSeek-OCR跳出了傳統純文本處理的框架,提出了一種名為“上下文光學壓縮”的思路。利用“一圖勝千言”的道理,將長文本轉換為圖像并進行高倍率壓縮,讓模型通過“看圖”來理解和還原內容。
DeepSeek-OCR變換了處理方式后,不僅有更優的性能與效率,同時還展現出強大的結構化信息解析能力,不僅限于文本識別。它可以將金融報告中的圖表直接轉換為表格數據,將化學分子式輸出為專業的SMILES格式,或解析幾何圖形中的關系。這使其在專業領域具有極高的應用價值。
其次,DeepSeek-OCR也給未來OCR研究提供了新方向的啟發。研究團隊提出了一個有趣的構想,即用這種光學壓縮的方式來模擬人類的“遺忘機制” 。近期記憶用高分辨率保留細節,遠期記憶則逐步壓縮、變得模糊,這為AI處理無限長上下文提供了一個全新的、更接近人類智能的思路。(果青)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
