क्या pixel-आधारित input text से बेहतर है? DeepSeek-OCR पेपर पर Karpathy का सवाल

(twitter.com/karpathy)

3 पॉइंट द्वारा GN⁺ 2025-10-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हाल ही में प्रकाशित DeepSeek-OCR पेपर इस संभावना की पड़ताल करता है कि बड़े language model (LLM) text के बजाय image pixels को सीधे input के रूप में लेकर सीख सकते हैं
यह approach पारंपरिक OCR (optical character recognition) चरण को छोड़कर, visual information को उसी रूप में मॉडल तक पहुँचाने का प्रस्ताव रखता है
Karpathy ने इस पेपर का ज़िक्र करते हुए सवाल उठाया कि क्या pixel input text tokens की तुलना में अधिक समृद्ध context दे सकता है
यह विचार multimodal AI की प्रगति की दिशा से जुड़ता है, और प्रयोगात्मक रूप से यह खोजता है कि क्या language model visual understanding की क्षमता को भीतर समाहित कर सकते हैं
इस चर्चा को भविष्य में LLM के input structure और learning paradigm को फिर से परिभाषित कर सकने वाली एक महत्वपूर्ण research direction के रूप में देखा जा रहा है

DeepSeek-OCR पेपर की मुख्य अवधारणा

DeepSeek-OCR मौजूदा text-based input के बजाय document image के pixel data को सीधे process करने वाली बड़े language model की architecture प्रस्तावित करता है
- पारंपरिक OCR system image से text निकालने के बाद उसे language model तक पहुँचाते हैं, लेकिन इस प्रक्रिया में character shapes, layout, और visual context खो जाते हैं
- DeepSeek-OCR इस नुकसान को कम करने के लिए pixel-level visual information को उसी रूप में model input के तौर पर इस्तेमाल करता है
मॉडल को image के भीतर के text, tables, formulas, charts जैसे विविध visual elements को एक साथ समझने के लिए design किया गया है
- इसके जरिए सिर्फ साधारण text recognition ही नहीं, बल्कि document structure understanding और semantic reasoning भी संभव हो सकता है

Karpathy का सवाल

Karpathy ने अपने Twitter thread में “क्या pixels text से बेहतर input हैं?” सवाल उठाते हुए इस पेपर का उल्लेख किया
- उनका कहना है कि केवल text tokens पर आधारित LLM training का मौजूदा तरीका information loss पैदा कर सकता है
- खासकर अगर language model visual context को सीधे सीख सकें, तो OCR चरण को हटाकर एक integrated learning structure संभव हो सकता है
Karpathy का आकलन है कि इस approach में model generalization ability और multimodal understanding को बेहतर बनाने की क्षमता है
- हालांकि, उन्होंने यह भी कहा कि pixel input के साथ computational cost अधिक होती है और बड़े dataset बनाना कठिन है, जो व्यावहारिक सीमाएँ हैं

तकनीकी महत्व और संभावित प्रभाव

pixel-based input का एक लाभ यह है कि text-based input की तुलना में इसकी information density अधिक होती है और visual context सुरक्षित रहता है
- उदाहरण के लिए, tables या formulas वाले documents में text conversion के दौरान structural information खो सकती है, लेकिन pixel input उसे सुरक्षित रखता है
दूसरी ओर, pixel input के साथ model parameters की संख्या बढ़ना, training cost का बढ़ना, और inference speed का कम होना जैसी समस्याएँ भी आती हैं
- इसलिए वास्तविक applications में text और pixels का hybrid approach एक व्यावहारिक विकल्प माना जा रहा है
इस चर्चा को इस बात की प्रयोगात्मक पड़ताल के रूप में देखा जा रहा है कि क्या LLM सिर्फ language understanding से आगे बढ़कर visual और spatial perception abilities को भी भीतर समाहित कर सकते हैं

उद्योग के लिए संकेत

document processing, finance, legal, healthcare जैसे जटिल document structure संभालने वाले उद्योग क्षेत्रों में DeepSeek-OCR का approach खास महत्व रखता है
- उदाहरण के लिए, scanned contracts या invoices की visual arrangement को उसी रूप में समझने वाले AI system बनाना संभव हो सकता है
Karpathy की यह चर्चा AI input formats की बुनियादी पुनर्समीक्षा को प्रेरित करती है और भविष्य में LLM design की दिशा को प्रभावित कर सकती है
pixel input-आधारित LLM, OCR तकनीक के replacement या integration की ओर ले जा सकते हैं, और इन्हें multimodal AI research के एक नए turning point के रूप में देखा जा रहा है

1 टिप्पणियां

GN⁺ 2025-10-24

Hacker News राय

यह pixel नहीं बल्कि percel है। pixel इमेज के dots होते हैं, लेकिन percel एक perceptual information unit है, जिसमें आवाज़, संवेदना, यहाँ तक कि विचारों के tokens भी शामिल हो सकते हैं
इंसानों के मामले में कई इंद्रियों से जुड़े percels को एक साथ पहचाना जाता है, और neural networks (खासकर LLMs) percels को अलग-अलग प्रोसेस नहीं करते बल्कि पास-पड़ोस के percels के context में साथ लेकर संभालते हैं
- मैंने इसी आइडिया पर एक research funding proposal लिखा था। ML researchers ने इसे practical value कम होने की वजह से बुरी तरह खारिज किया, लेकिन neuroscientists ने इसे ज़ोरदार समर्थन दिया
  interdisciplinary research की संभावना बहुत बड़ी है, लेकिन यह दुखद है कि मौजूदा ढांचे में फिट न होने के कारण ऐसी चीज़ों को funding मिलना मुश्किल होता है
- यह concept इतना दिलचस्प लगा कि मैंने इसके बारे में खोजा, लेकिन कोई सामग्री नहीं मिली। क्या यह आपका खुद बनाया हुआ coinage है, या इसके पीछे कोई paper या research reference है?
- आखिरकार मुझे लगा कि यह latent space concept जैसा ही कुछ है। इस अर्थ में यह मिलता-जुलता है कि संबंधित vectors एक संरचना में जुड़े होते हैं
- अगर percel को vector के रूप में दिखाना हो, तो शायद उसे perceptual modes (vision, hearing आदि) के हिसाब से dimensions बाँटकर latent space में map करना होगा
- मज़ाक में, percel की जगह इसे toxel कहने का मन करता है
“Kill the tokenizer” एक उग्र लेकिन बुनियादी प्रस्ताव है
tokenization भाषा को quantize करने की एक hack भर है, और यह भाषा की प्रकृति को विकृत कर देती है
यह विचार अजनबी लग सकता है कि pixel एक ज़्यादा शक्तिशाली representation unit हो सकता है, लेकिन किसी न किसी को नया approach आज़माना ही होगा
- मैं जब लिखी हुई चीज़ पढ़ता हूँ, तो टेक्स्ट को एक साथ visual और auditory दोनों तरह से प्रोसेस करता हूँ
  इसलिए visual-based input मुझे evolution का स्वाभाविक नतीजा लगता है
  अगर टेक्स्ट को render करके OCR से पढ़ाने के बजाय TTS से voice samples encode किए जाएँ, तो शायद यह pixels से ज़्यादा efficient हो। हाँ, यह resolution या sample rate पर निर्भर करेगा
- Meta का Byte Latent Transformer tokenizer को replace करने की कोशिश कर रहा था, लेकिन आखिरकार उसे खास ध्यान नहीं मिला
- तो फिर generation के समय decode किसमें किया जाएगा, यह सवाल उठता है। tokens सिर्फ़ visual representation नहीं हैं, इसलिए सिर्फ़ टेक्स्ट इमेज बनाना काफ़ी नहीं है
- टेक्स्ट की information density बहुत अधिक होती है। इसलिए input के रूप में यह अब भी efficient है
- मुझे भी यह ठीक से समझ नहीं आता। टेक्स्ट खुद से उसकी image बेहतर कैसे हो सकती है? यह तो ऐसा लगता है जैसे कहा जा रहा हो कि पूरा स्क्रीनशॉट लेकर camera learning भी करा दें
एक दिलचस्प संबंधित research में Lex Flagel आदि का एक paper है, जिसमें DNA sequence data को images में बदलकर CNN से train किया गया था
नतीजा यह था कि CNN उन genetic metrics को reproduce कर सका जो पहले text-based analysis से मिलते थे
paper link
हाल की चर्चा का मुख्य बिंदु यह जागरूकता है कि जब हम भाषा को मशीनों के लिए represent करते हैं, तो हम lossy abstraction का इस्तेमाल करते हैं
tokenization उनमें से सिर्फ़ एक है, और pixels या speech signals भी एक दूसरी approximation हैं
ऐसे experiments की असली अहमियत मौजूदा architecture की design assumptions को validate करने में है
multimodality alignment सीखने वाला approach बेहतर latent structures या training methods खोज सकता है, और इससे मौजूदा text encoders में सुधार हो सकता है
खासकर उन भाषाओं में जहाँ word boundaries अस्पष्ट होती हैं, वहाँ alternative encoding methods बहुत मददगार हो सकते हैं
paper में कही गई “information compression → short context window → better efficiency” वाली बात दिलचस्प है,
लेकिन यह सवाल भी उठता है कि अगर font size, font, या spacing बदल जाए, तो कहीं compression ratio उल्टा खराब तो नहीं हो जाएगा
मैं Karpathy की बात से सहमत हूँ।
text tokens का एक फायदा यह है कि वे input method (QWERTY keyboard) की अंतर्निहित समझ सीख लेते हैं
उदाहरण के लिए “Hello” और “Hwllo” को keyboard पर पास-पास की keys की वजह से अर्थ की दृष्टि से क़रीब माना जाता है
- अगर AI pixel-based input से पढ़ सके, तो “HWLLO” या “H3LL0” जैसे variants को भी visual similarity के आधार पर मिलता-जुलता समझ सकता है
  इसमें ज़्यादा training लगेगी, लेकिन अंत में generalized recognition ability मिल सकती है
- मैं typo learning वाली बात से सहमत हूँ। इस पर मैंने अपने वीडियो में भी बात की है
  images में भी typos बनाकर training देना संभव है, इसलिए मुझे नहीं लगता कि यह कोई बड़ी समस्या है
जब मैं अपने बारे में सोचता हूँ, तो मेरे दिमाग़ में शब्दों का प्रवाह सुनाई देता है
पेज या इमेज नहीं, बल्कि आवाज़ के रूप में शब्द चलते हुए महसूस होते हैं
मौजूदा tokenization inefficient हो सकती है। भाषा में पहले से ही उच्च-स्तरीय compression structure मौजूद है,
लेकिन संभव है कि latent space में इससे बेहतर representation मौजूद हो
- industry भी tokenizer की सीमाओं को अच्छी तरह जानती है। लेकिन उसे replace करने वाला कोई scalable method वास्तव में लागू करना बहुत कठिन है
- image models ज़्यादा बड़े unit वाले tokens इस्तेमाल करते हैं। टेक्स्ट में भी n-gram आधारित बड़ा token vocabulary बनाया जा सकता है,
  लेकिन मौजूदा LLM architecture के लिए बहुत बड़े output distribution को संभालना inefficient है
अभी मुझे लगता है कि यह approach practical बनने से काफी दूर है
जब भी ChatGPT कहता है “इसे इमेज के रूप में visualize करें?”, तो नतीजा अक्सर hallucination से भरा होता है
- लेकिन image generation और image input पूरी तरह अलग समस्याएँ हैं
  यहाँ बात टेक्स्ट को इमेज में बदलकर LLM में input देने की हो रही है, इमेज generate करने की नहीं
हाल की संबंधित चर्चाओं में
Nvidia Spark पर DeepSeek-OCR चलाने का मामला और
DeepSeek OCR project शामिल हैं।
दोनों पर 2025 के अक्टूबर में काफ़ी सक्रिय चर्चा हुई थी

क्या pixel-आधारित input text से बेहतर है? DeepSeek-OCR पेपर पर Karpathy का सवाल

DeepSeek-OCR पेपर की मुख्य अवधारणा

Karpathy का सवाल

तकनीकी महत्व और संभावित प्रभाव

उद्योग के लिए संकेत

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय