日韩精品极品视频,久久综合88中文色鬼,91精品久久久久久久久青青

DeepSeek-OCR模型為何這么火？盤了一下OCR發展史快訊

TechWeb.com.cn 2025-10-24 16:52

分享到：

導讀

DeepSeek在10月20日發布的3B參數開源OCR模型，DeepSeek-OCR模型創新性地提出，DeepSeek OCR模型熱度也帶火了多款OCR相關模型。

【TechWeb】10月24日消息，DeepSeek在10月20日發布的3B參數開源OCR模型，迅速在AI領域獲得了廣泛關注和討論。

DeepSeek-OCR模型創新性地提出“上下文光學壓縮”技術，將長文本轉換為圖像進行高效壓縮處理，大幅降低大模型輸入所需的Token數量，從而顯著降低大模型處理長文檔時的計算開銷。

其核心理念被評價為“AI的JPEG時刻”，通過視覺輸入模擬人類記憶衰減機制，將久遠上下文壓縮為低分辨率圖像，實現自然遺忘，從而優化長上下文管理，其被認為為AI的記憶和上下文處理架構打開了新路徑。

這一思路獲得 Andrej Karpathy 等業界專家高度評價，認為可能改變 AI 理解信息的方式。

DeepSeek-OCR模型在GitHub上迅速獲得過萬星標，在HuggingFace也登上熱榜，證明了其受開發者歡迎的程度。

DeepSeek-OCR開源

DeepSeek-OCR模型在 OmniDocBench 測試中表現優異。僅用100 個視覺 token*即超越 GOT-OCR2.0（256 token），用不足800視覺 token超越 MinerU2.0（超 6000 token），實現高達 60 倍的 token 效率提升。

實測數據顯示，在 10 倍壓縮率下 OCR 解碼準確率達 97%，即使在20倍壓縮率下仍保持約 60% 準確率，支持多分辨率輸入（如 tiny: 512x512 到 large: 1280x1280）及動態分辨率模式（Gundam 模式）。

DeepSeek-OCR的出色表現，源于其精巧的“編碼器-解碼器”架構設計。

DeepEncoder編碼器是模型的核心引擎，其參數量約為3.8億。它創新性地串聯了SAM-base和CLIP-large兩個視覺模型。SAM-base利用窗口注意力機制捕捉局部細節，而CLIP-large則通過全局注意力理解圖像的整體語義。兩者之間通過一個卷積模塊進行16倍下采樣，顯著減少了需要處理的視覺Token數量，從而在高分辨率輸入下也能保持較低的計算消耗。

DeepSeek3B-MoE解碼器是一個參數量為30億的混合專家模型 (MoE)。在推理時，它每次僅激活約5.7億參數，這使得它既能具備大模型的強大表達能力，又保持了小模型的輕量級推理效率，負責從壓縮后的視覺Token中精準地還原出原始文本。

模型已在 GitHub 與 Hugging Face 開源，并上線超算互聯網平臺提供免費在線推理服務，單塊 A100-40G GPU 每日可生成超 20 萬頁高質量訓練數據，顯著降低數據制備成本。

海內外如何評價？真香

DeepSeek-OCR 模型自發布以來，憑借其創新的“上下文光學壓縮”思路，在AI領域獲得了廣泛關注。

特斯拉前自動駕駛負責人、OpenAI聯合創始人安德烈?卡帕西（Andrej Karpathy）在X發長文盛贊DeepSeek-OCR 模型，認為像素可能比文本更適合作為LLM的輸入。他提出，即便純文本也應先渲染成圖像再輸入，這樣信息壓縮效率更高，并有望淘汰存在安全和效率問題的分詞器 (Tokenizer)。

特斯拉創始人埃隆?馬斯克 (Elon Musk)則在卡帕西的討論下評論，從長遠看，AI模型超過99%的輸入和輸出都將是光子（光學信號）。

360創始人周鴻祎直接指出，以前的OCR是逐個認字符，不管文字多長都要一個個token堆。但DeepSeek-OCR是把文字當圖片壓縮，就像把一千字的文檔轉成JPG，體積小了但內容沒丟。這招直接解決了OCR的兩大痛點，精度不夠和成本太高。

《麻省理工科技評論》發文指出DeepSeek-OCR模型具備較強的"深度解析"能力，能將圖表轉為表格、解析化學分子式等，拓展了其在金融、科研等專業領域的應用空間。

長江證券研究報告則認為DeepSeek-OCR模型驗證了視覺Token可以更高效地表達信息，提供了降本新思路，有望成為文檔智能領域的基礎組件。

在開發者社區，有從業者贊嘆，DeepSeek的論文每篇都是精品，R1養活了一批研究強化學習的人，OCR這篇意味CV研究員的春天到來了。

由斯坦福大學學生開發的學術論文在線交流平臺AlphaXiv宣布用DeepSeek OCR從自己論文庫中的50W+篇AI相關的文章中的表格與圖表中，提取了每一個數據集，來看哪個benchmark最流行，并發布成一個新的數據集。這個操作總共花費了1000美元；同樣的項目用Mistral OCR要7500美元。

有行業從業者就表示，AlphaXiv做的這件事意義遠超技術本身。AlphaXiv用DeepSeek OCR做的，不只是一次“便宜又快”的信息提取實驗，而是一種研究范式的躍遷。當OCR成本降到每篇幾厘錢，誰先把“學術表格與圖表”這座金礦變成一張可查詢、可比較、可復用的“Benchmark 圖譜”，誰就掌握了下一輪模型評測與研發決策的話語權。

談到DeepSeek-OCR模型的開源將對行業帶來多大沖擊？

周鴻祎認為：“首先那些靠OCR技術收費的公司壓力山大了，人家免費開源的效果比你收費的還好。其次文檔處理、數據錄入、內容審核這些傳統行業也要變天了，以前需要大量人工的工作，現在AI幾秒鐘就搞定。最關鍵的是這會加速整個AI生態的發展，更多創業公司能用上頂級技術，行業競爭會更激烈。”

目前，DeepSeek OCR模型熱度也帶火了多款OCR相關模型，百度PaddleOCR-VL、阿里Qwen3-VL-8B-Instruct、Nanonets-0CR2-3B等在Hugging Face上均排到模型前幾名。

OCR發展歷史

事實上，OCR（Optical Character Recognition，光學字符識別）技術發展經歷多個重要發展階段。從最早的模板匹配到現在的端到端深度學習，每個階段都有其標志性技術突破。

1929年，德國科學家 Gustav Tauschek申請了首個OCR相關的專利。他的裝置使用模板和光電管來識別字符，屬于機械式識別。早期僅能識別0-9數字等固定字體。

隨著計算機的出現，OCR的概念開始成型。IBM的David H. Shepard 在1951年建造了“Gismo”*機器，被認為是第一臺能識別印刷英文字母的計算機，并成立了世界第一家OCR公司。

此后，計算機科學的發展推動了OCR進入真正的數字化和算法化階段。隨著計算能力的提升和統計學習理論的發展，OCR技術變得更加魯棒和通用。OCR技術從特征提取與模式識別，發展到從純粹的幾何特征轉向基于統計模型的分類。

深度學習的出現，特別是卷積神經網絡（CNN），徹底改變了OCR領域，使其性能達到了前所未有的高度。CNN架構（如CRNN模型）實現端到端訓練，提升文字檢測精度，復雜場景識別率從2013年的58%躍升至2018年的89%左右。

在此階段，百度推出的開源工具庫PaddleOCR，集成了當時最先進的檢測和識別模型，推動了OCR的工業化應用。OpenMMLab旗下的開源工具箱MMOCR，采用模塊化設計，支持多種前沿算法。

深度學習OCR系統能夠在復雜背景、光照不均、字體多變、角度傾斜等挑戰性場景下取得極高的準確率（99%+）。這使得OCR應用場景從掃描文檔擴展到了自然場景文本識別。例如，OCR技術已經廣泛應用于教學領域。

當前，OCR技術正與多模態大模型融合，其目標不再是單純的“文字識別”，而是升級為全面的“文檔智能理解”。

如GPT-4V、Gemini等，它們內置了強大的視覺理解能力，能夠直接對文檔圖像進行問答、總結、提取信息等，OCR成為其底層能力之一。與此同時，Donut、Pix2Struct等模型，則展示了無需OCR即可直接“理解”文檔圖像的端到端能力。

這一次，DeepSeek-OCR代表了另一個前沿方向——“上下文光學壓縮”。它不再追求將每個像素都精確轉換為文本，而是探索如何以極高的效率壓縮和保留文檔中的語義信息，為處理海量長文檔提供了新范式。

縱觀OCR技術的發展史，這是一條從 “機械之眼”到“認知之腦”*的演進之路。在方法上，經歷了從模板匹配→ 特征工程→ 統計學習→ 深度學習→多模態理解的發展，在能力上，實現了從識別單一字體→識別多字體→應對復雜場景→理解文檔語義的躍遷。

DeepSeek-OCR 之所以能引發如此熱烈的討論，主要歸功于它在以下幾個方面的突破：

首先，最值得稱道的是，思想上的根本性創新。

DeepSeek-OCR跳出了傳統純文本處理的框架，提出了一種名為“上下文光學壓縮”的思路。利用“一圖勝千言”的道理，將長文本轉換為圖像并進行高倍率壓縮，讓模型通過“看圖”來理解和還原內容。

DeepSeek-OCR變換了處理方式后，不僅有更優的性能與效率，同時還展現出強大的結構化信息解析能力，不僅限于文本識別。它可以將金融報告中的圖表直接轉換為表格數據，將化學分子式輸出為專業的SMILES格式，或解析幾何圖形中的關系。這使其在專業領域具有極高的應用價值。

其次，DeepSeek-OCR也給未來OCR研究提供了新方向的啟發。研究團隊提出了一個有趣的構想，即用這種光學壓縮的方式來模擬人類的“遺忘機制” 。近期記憶用高分辨率保留細節，遠期記憶則逐步壓縮、變得模糊，這為AI處理無限長上下文提供了一個全新的、更接近人類智能的思路。（果青）

OCR 模型 DeepSeek-OCR 壓縮識別

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。

欧美亚洲丝袜传媒另类_日韩在线免费视频_国内一区在线_亚洲一区二区三区日本久久九

DeepSeek-OCR模型為何這么火？盤了一下OCR發展史快訊