DeepSeek OCR
(github.com/deepseek-ai)एक-पंक्ति सारांश
दस्तावेज़/संवाद रिकॉर्ड को इमेज (visual tokens) में बदलकर LLM context को काफ़ी कम (≈7–20×) किया जाता है, और फिर उसे सटीक रूप से टेक्स्ट में पुनर्स्थापित (OCR) किया जाता है। यह optical context compression का प्रस्ताव और सत्यापन करता है। नया vision encoder (DeepEncoder) और 3B MoE decoder मिलकर कम visual tokens के साथ भी SOTA-स्तर का document parsing प्रदर्शन दिखाते हैं।
समस्या की परिभाषा
• LLM में लंबाई बढ़ने के साथ Quadratic लागत बढ़ती है।
• यदि दस्तावेज़ टेक्स्ट को इमेज के रूप में render किया जाए, तो visual token की संख्या text token से काफ़ी कम होती है → यदि image→text reconstruction अच्छी हो, तो उच्च-दक्षता compression संभव है।
• OCR visual↔text के बीच प्राकृतिक compression/reconstruction mapping और quantitative evaluation की सुविधा देता है, इसलिए यह एक अच्छा प्रयोगात्मक तत्व है।
विधि का अवलोकन
आर्किटेक्चर: DeepEncoder (encoder) + DeepSeek-3B-MoE-A570M (decoder)
• DeepEncoder (मुख्य)
• दो चरणों से बना है:
1. window attention-आधारित visual perception block (SAM-base श्रेणी, ~80M) → high resolution पर भी activation memory कम
2. 16× convolution compressor के बाद token संख्या में बड़ा reduction,
3. global attention-आधारित visual knowledge block (CLIP-large, पहला Patch embedding हटाया गया)
• multi-resolution support (modes): Tiny(64 tokens, 512²), Small(100, 640²), Base(256, 1024²), Large(400,1280²) +
Gundam(n 640² tiles + 1024² global view → tokens = n×100+256),
Gundam-M(1024² tiles + 1280² global)
• valid token की अवधारणा: padding से बनने वाले खाली हिस्सों को हटाकर केवल वास्तविक tokens की गणना (सूत्र द्वारा परिभाषित)।
• MoE decoder: DeepSeek-3B-MoE(12-layer) का उपयोग करके encoder द्वारा बनाए गए compressed visual tokens से मूल टेक्स्ट को पुनर्स्थापित करता है।
डेटा इंजन और प्रशिक्षण
• OCR 1.0 (पारंपरिक OCR):
• इंटरनेट PDF के 3 करोड़ पेज (लगभग 100 भाषाएँ):
• Coarse: fitz से extraction (optical text recognition training के लिए)
• Fine: चीनी और अंग्रेज़ी में 20-20 लाख पेज advanced layout/OCR से refined labeling (box+text interleave), इसके अलावा Word दस्तावेज़ों के 30 लाख पेज
• natural scene OCR: चीनी/अंग्रेज़ी के 1-1 करोड़ samples (PaddleOCR labels)
• OCR 2.0 (जटिल synthetic image parsing):
• charts (pyecharts/matplotlib) की 1 करोड़ images → HTML tables के रूप में labels
• chemical formulas: PubChem SMILES से RDKit rendering, 50 लाख
• plane geometry: Slow Perception शैली का data generation (line-segment dictionary आदि)
• सामान्य vision: LAION के 10 करोड़ samples को encoder pretraining में मिश्रित किया गया
• training infrastructure: 20 nodes (प्रत्येक 8×A100-40G), pipeline parallelism के 4 चरण (encoder 2, decoder 2), DP=40, global batch 640.
• text-only 90B tok/day, multimodal 70B tok/day
• production data generation: 20 nodes के साथ प्रतिदिन 3,300 man पेज उत्पन्न करना संभव
प्रयोगात्मक परिणाम
-
context optical compression अध्ययन — Fox benchmark (अंग्रेज़ी 100 पेज, 600–1300 tokens)
• Small(100 visual tokens) के आधार पर precision और compression ratio (text tokens/visual tokens):
• 600–700: 98.5%, 6.7×
• 700–800: 97.3%, 7.5×
• 800–900: 96.8%, 8.5×
• 900–1000: 96.8%, 9.7×
• 1000–1100: 91.5%, 10.6×
• 1100–1200: 89.8%, 11.3×
• 1200–1300: 87.1%, 12.6ו सारांश: 9–10× compression पर 96%+ precision, 10–12× पर ≈90%, और 20× के आसपास ≈60%।
→ लगभग 10× तक यह quasi-lossless के करीब है, और उससे आगे layout complexity/low-resolution blur के कारण धीरे-धीरे गिरावट आती है। -
व्यावहारिक document parsing (OmniDocBench) — edit distance (जितना कम, उतना बेहतर)
• सिर्फ 100 tokens(640²) पर GOT-OCR2.0(256 tokens) से बेहतर
• 400 tokens(1280²) पर नवीनतम SOTA के बराबर
• Gundam(<800 tokens) mode में MinerU-2.0(≈6,790 tokens) से बेहतर प्रदर्शन
→ token efficiency बहुत उत्कृष्ट है (कम visual tokens में समान/बेहतर प्रदर्शन)। -
गुणात्मक परिणाम (क्षमताएँ)
• Deep parsing:
• chart → HTML table,
• chemical formula → SMILES,
• geometry figure → structured representation (line segments/coordinates/types आदि)
• natural images पर भी basic question answering संभव
• multilingual: लगभग 100 भाषाओं के PDF recognition (layout/non-layout output को prompt से नियंत्रित किया जा सकता है)
महत्व
• LLM के ultra-long context cost की समस्या के लिए, visual token-आधारित compression एक मज़बूत समाधान हो सकता है—यह बात व्यावहारिक रूप से प्रदर्शित की गई है।
• हाल की बातचीत/संदर्भ को high resolution में और पुराने history को क्रमिक downsizing (compression ratio↑) के साथ रखने वाली memory decay रणनीति का प्रस्ताव → मानव forgetting curve जैसी resource allocation.
• token budget optimization: task/document type के अनुसार आवश्यक token मात्रा के लिए guideline (जैसे newspaper जैसी ultra-dense सामग्री के लिए Gundam/M mode की सिफ़ारिश)।
सीमाएँ और आगे के कार्य
• फिलहाल यह OCR-आधारित PoC के अधिक करीब है; वास्तविक digital↔optical↔digital pipeline के loss analysis के लिए और शोध की आवश्यकता है।
• 10× से अधिक compression वाले क्षेत्र में performance drop के कारणों (जटिल layout, low-resolution blur) को सुधारना एक कार्य है।
• format/benchmark alignment issues (उदाहरण: Fox evaluation format के अंतर के कारण वास्तविक प्रदर्शन कम आंका जा सकता है)।
मुख्य बिंदु
• DeepEncoder: window attention (low activation) → 16× conv compression → global attention (CLIP)
• multi-resolution + tile+global (Gundam) के जरिए memory/token savings और performance balance
• ≈10× compression पर ~96% reconstruction precision → context cost में तेज कमी की संभावना
• OmniDocBench: 100–800 visual tokens के स्तर पर SOTA के करीब/बेहतर
• chart/chemistry/geometry/multilingual तक फैली व्यावहारिक उपयोगिता
3 टिप्पणियां
वाह, यह तो कमाल है lol लेकिन अगर वैसे भी restore करना है, तो क्या token वही का वही नहीं रहता? क्या इसमें सिर्फ storage state वाले token ही बचाए जा सकते हैं? मैं थोड़ा अनजान हूँ इसलिए ठीक से समझ नहीं पा रहा T_T. कोई इसे समझने लायक तरीके से समझा देगा?
DeepSeek का आइडिया वाकई बहुत अच्छा है।
DeepSeek OCR - विज़ुअल कॉन्टेक्स्ट कंप्रेशन के माध्यम से अल्ट्रा-हाई-एफिशिएंसी OCR मॉडल
GN+ द्वारा संक्षेपित संस्करण और Hacker News की टिप्पणियाँ भी साथ में देखें.