- हाल ही में प्रकाशित DeepSeek-OCR पेपर इस संभावना की पड़ताल करता है कि बड़े language model (LLM) text के बजाय image pixels को सीधे input के रूप में लेकर सीख सकते हैं
- यह approach पारंपरिक OCR (optical character recognition) चरण को छोड़कर, visual information को उसी रूप में मॉडल तक पहुँचाने का प्रस्ताव रखता है
- Karpathy ने इस पेपर का ज़िक्र करते हुए सवाल उठाया कि क्या pixel input text tokens की तुलना में अधिक समृद्ध context दे सकता है
- यह विचार multimodal AI की प्रगति की दिशा से जुड़ता है, और प्रयोगात्मक रूप से यह खोजता है कि क्या language model visual understanding की क्षमता को भीतर समाहित कर सकते हैं
- इस चर्चा को भविष्य में LLM के input structure और learning paradigm को फिर से परिभाषित कर सकने वाली एक महत्वपूर्ण research direction के रूप में देखा जा रहा है
DeepSeek-OCR पेपर की मुख्य अवधारणा
- DeepSeek-OCR मौजूदा text-based input के बजाय document image के pixel data को सीधे process करने वाली बड़े language model की architecture प्रस्तावित करता है
- पारंपरिक OCR system image से text निकालने के बाद उसे language model तक पहुँचाते हैं, लेकिन इस प्रक्रिया में character shapes, layout, और visual context खो जाते हैं
- DeepSeek-OCR इस नुकसान को कम करने के लिए pixel-level visual information को उसी रूप में model input के तौर पर इस्तेमाल करता है
- मॉडल को image के भीतर के text, tables, formulas, charts जैसे विविध visual elements को एक साथ समझने के लिए design किया गया है
- इसके जरिए सिर्फ साधारण text recognition ही नहीं, बल्कि document structure understanding और semantic reasoning भी संभव हो सकता है
Karpathy का सवाल
- Karpathy ने अपने Twitter thread में “क्या pixels text से बेहतर input हैं?” सवाल उठाते हुए इस पेपर का उल्लेख किया
- उनका कहना है कि केवल text tokens पर आधारित LLM training का मौजूदा तरीका information loss पैदा कर सकता है
- खासकर अगर language model visual context को सीधे सीख सकें, तो OCR चरण को हटाकर एक integrated learning structure संभव हो सकता है
- Karpathy का आकलन है कि इस approach में model generalization ability और multimodal understanding को बेहतर बनाने की क्षमता है
- हालांकि, उन्होंने यह भी कहा कि pixel input के साथ computational cost अधिक होती है और बड़े dataset बनाना कठिन है, जो व्यावहारिक सीमाएँ हैं
तकनीकी महत्व और संभावित प्रभाव
- pixel-based input का एक लाभ यह है कि text-based input की तुलना में इसकी information density अधिक होती है और visual context सुरक्षित रहता है
- उदाहरण के लिए, tables या formulas वाले documents में text conversion के दौरान structural information खो सकती है, लेकिन pixel input उसे सुरक्षित रखता है
- दूसरी ओर, pixel input के साथ model parameters की संख्या बढ़ना, training cost का बढ़ना, और inference speed का कम होना जैसी समस्याएँ भी आती हैं
- इसलिए वास्तविक applications में text और pixels का hybrid approach एक व्यावहारिक विकल्प माना जा रहा है
- इस चर्चा को इस बात की प्रयोगात्मक पड़ताल के रूप में देखा जा रहा है कि क्या LLM सिर्फ language understanding से आगे बढ़कर visual और spatial perception abilities को भी भीतर समाहित कर सकते हैं
उद्योग के लिए संकेत
- document processing, finance, legal, healthcare जैसे जटिल document structure संभालने वाले उद्योग क्षेत्रों में DeepSeek-OCR का approach खास महत्व रखता है
- उदाहरण के लिए, scanned contracts या invoices की visual arrangement को उसी रूप में समझने वाले AI system बनाना संभव हो सकता है
- Karpathy की यह चर्चा AI input formats की बुनियादी पुनर्समीक्षा को प्रेरित करती है और भविष्य में LLM design की दिशा को प्रभावित कर सकती है
- pixel input-आधारित LLM, OCR तकनीक के replacement या integration की ओर ले जा सकते हैं, और इन्हें multimodal AI research के एक नए turning point के रूप में देखा जा रहा है
1 टिप्पणियां
Hacker News राय
यह pixel नहीं बल्कि percel है। pixel इमेज के dots होते हैं, लेकिन percel एक perceptual information unit है, जिसमें आवाज़, संवेदना, यहाँ तक कि विचारों के tokens भी शामिल हो सकते हैं
इंसानों के मामले में कई इंद्रियों से जुड़े percels को एक साथ पहचाना जाता है, और neural networks (खासकर LLMs) percels को अलग-अलग प्रोसेस नहीं करते बल्कि पास-पड़ोस के percels के context में साथ लेकर संभालते हैं
interdisciplinary research की संभावना बहुत बड़ी है, लेकिन यह दुखद है कि मौजूदा ढांचे में फिट न होने के कारण ऐसी चीज़ों को funding मिलना मुश्किल होता है
“Kill the tokenizer” एक उग्र लेकिन बुनियादी प्रस्ताव है
tokenization भाषा को quantize करने की एक hack भर है, और यह भाषा की प्रकृति को विकृत कर देती है
यह विचार अजनबी लग सकता है कि pixel एक ज़्यादा शक्तिशाली representation unit हो सकता है, लेकिन किसी न किसी को नया approach आज़माना ही होगा
इसलिए visual-based input मुझे evolution का स्वाभाविक नतीजा लगता है
अगर टेक्स्ट को render करके OCR से पढ़ाने के बजाय TTS से voice samples encode किए जाएँ, तो शायद यह pixels से ज़्यादा efficient हो। हाँ, यह resolution या sample rate पर निर्भर करेगा
एक दिलचस्प संबंधित research में Lex Flagel आदि का एक paper है, जिसमें DNA sequence data को images में बदलकर CNN से train किया गया था
नतीजा यह था कि CNN उन genetic metrics को reproduce कर सका जो पहले text-based analysis से मिलते थे
paper link
हाल की चर्चा का मुख्य बिंदु यह जागरूकता है कि जब हम भाषा को मशीनों के लिए represent करते हैं, तो हम lossy abstraction का इस्तेमाल करते हैं
tokenization उनमें से सिर्फ़ एक है, और pixels या speech signals भी एक दूसरी approximation हैं
ऐसे experiments की असली अहमियत मौजूदा architecture की design assumptions को validate करने में है
multimodality alignment सीखने वाला approach बेहतर latent structures या training methods खोज सकता है, और इससे मौजूदा text encoders में सुधार हो सकता है
खासकर उन भाषाओं में जहाँ word boundaries अस्पष्ट होती हैं, वहाँ alternative encoding methods बहुत मददगार हो सकते हैं
paper में कही गई “information compression → short context window → better efficiency” वाली बात दिलचस्प है,
लेकिन यह सवाल भी उठता है कि अगर font size, font, या spacing बदल जाए, तो कहीं compression ratio उल्टा खराब तो नहीं हो जाएगा
मैं Karpathy की बात से सहमत हूँ।
text tokens का एक फायदा यह है कि वे input method (QWERTY keyboard) की अंतर्निहित समझ सीख लेते हैं
उदाहरण के लिए “Hello” और “Hwllo” को keyboard पर पास-पास की keys की वजह से अर्थ की दृष्टि से क़रीब माना जाता है
इसमें ज़्यादा training लगेगी, लेकिन अंत में generalized recognition ability मिल सकती है
images में भी typos बनाकर training देना संभव है, इसलिए मुझे नहीं लगता कि यह कोई बड़ी समस्या है
जब मैं अपने बारे में सोचता हूँ, तो मेरे दिमाग़ में शब्दों का प्रवाह सुनाई देता है
पेज या इमेज नहीं, बल्कि आवाज़ के रूप में शब्द चलते हुए महसूस होते हैं
मौजूदा tokenization inefficient हो सकती है। भाषा में पहले से ही उच्च-स्तरीय compression structure मौजूद है,
लेकिन संभव है कि latent space में इससे बेहतर representation मौजूद हो
लेकिन मौजूदा LLM architecture के लिए बहुत बड़े output distribution को संभालना inefficient है
अभी मुझे लगता है कि यह approach practical बनने से काफी दूर है
जब भी ChatGPT कहता है “इसे इमेज के रूप में visualize करें?”, तो नतीजा अक्सर hallucination से भरा होता है
यहाँ बात टेक्स्ट को इमेज में बदलकर LLM में input देने की हो रही है, इमेज generate करने की नहीं
हाल की संबंधित चर्चाओं में
Nvidia Spark पर DeepSeek-OCR चलाने का मामला और
DeepSeek OCR project शामिल हैं।
दोनों पर 2025 के अक्टूबर में काफ़ी सक्रिय चर्चा हुई थी