Vision Language Model से OCR को बदलना

(github.com/vlm-run)

14 पॉइंट द्वारा GN⁺ 2025-02-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह कुकबुक विभिन्न case studies और hands-on अभ्यासों के माध्यम से वीडियो और इमेज प्रोसेसिंग algorithms का अन्वेषण करने वाला एक open source प्रोजेक्ट है
इसमें video inference, image catalogue, fashion image hybrid search जैसे विभिन्न application क्षेत्रों को शामिल किया गया है
अन्य प्रोजेक्ट्स की तुलना में, इसमें विभिन्न वास्तविक उदाहरणों के माध्यम से algorithms सीखने का लाभ है
मुख्य फ़ाइलें और notebooks
- 00_quickstart.ipynb: प्रोजेक्ट को जल्दी शुरू करने के लिए गाइड
- 01_schema_showcase.ipynb: विभिन्न data schemas दिखाने वाली case studies शामिल हैं
- 02_case_study_drivers_license.ipynb: ड्राइविंग लाइसेंस पहचानना
- 03_case_study_tv_news.ipynb: TV news स्क्रीन को समझना
- 04_visual_grounding.ipynb: visual grounding algorithms का अन्वेषण. इमेज बॉक्स के अंदर से JSON निकालना
- 05_case_study_image_catalogue.ipynb: fashion product catalogue का विश्लेषण करके product description, category, target gender, season की पहचान
- 06_fashion_images_hybrid_search.ipynb: fashion image hybrid search case study
- advanced_finetuning_video_inference.ipynb: video inference के लिए advanced fine-tuning techniques

1 टिप्पणियां

GN⁺ 2025-02-28

Hacker News राय

दिलचस्प विचार है, लेकिन अभी production environment में उपयोग के लिए इसकी विश्वसनीयता कम है। पारंपरिक OCR मॉडल जब टेक्स्ट पढ़ नहीं पाते, तो कम confidence के साथ बेकार परिणाम देते हैं। दूसरी ओर, VLM जब पढ़ नहीं पाता तो आत्मविश्वास के साथ गढ़े हुए परिणाम दे देता है, और confidence रिपोर्ट करने का कोई तरीका नहीं होता। हस्तलिखित पहचान के एक प्रयास में VLM ने दस्तावेज़ के माहौल के अनुरूप नकली नाम और तारीखें बना दीं। मॉडल को स्रोत टेक्स्ट पर आधारित रखने का कोई तरीका नहीं है
हाल ही में VLM और OCR का मूल्यांकन करने के लिए एक open source benchmark जारी किया गया, और सामान्य रूप से VLM ने पारंपरिक OCR मॉडलों से बेहतर प्रदर्शन किया
VLM के फायदे:
- हस्तलिखित पहचान। context awareness मदद करती है। यानी यह हर अक्षर को अलग-अलग पढ़ने के बजाय पूरे शब्द/वाक्य की व्याख्या करता है
- चार्ट/infographic। VLM चार्ट या flowchart को टेक्स्ट फ़ॉर्मेट में व्याख्यायित कर सकता है। इसमें color-coded line भी शामिल हैं
पारंपरिक OCR के फायदे:
- मानकीकृत दस्तावेज़ (जैसे: अमेरिकी tax form)
- घना टेक्स्ट। textbook और multi-column research paper की कल्पना करें। यह OCR के लिए सबसे आसान use case है, लेकिन VLM output token की संख्या बढ़ने पर संघर्ष करता है
- bounding box। अभी तक ऐसा कोई मॉडल नहीं है जो बहुत सटीक bounding box दे सके। Gemini और Qwen को इसके लिए train किया गया है, लेकिन वे पारंपरिक मॉडलों जितना अच्छा प्रदर्शन नहीं करते
सुधार की काफी गुंजाइश है, लेकिन खासकर Gemini जैसे मॉडल accuracy/cost के मामले में बहुत competitive हैं
यह सोचकर हैरानी होती है कि सभी OCR services सिर्फ digital documents के परफ़ेक्ट screenshot ही क्यों दिखाती हैं। क्या वास्तव में इतने लोग digital data पर OCR चलाना चाहते हैं? बस HTML कॉपी क्यों नहीं कर लेते? अगर दस्तावेज़ digital नहीं है, तो मोड़ के निशान, खिसकी हुई पंक्तियाँ, रोशनी का gradient, उंगलियाँ आदि वाले screenshot कहाँ हैं?
vlm-run और custom form definition के साथ प्रयोग किया, और यह Gemini 2.0 Flash के साथ हैरान करने वाला अच्छा काम करता है। मेरी समझ से लागत भी कम है। साधारण से मध्यम जटिलता वाले form पर सबसे अच्छे परिणाम मिलते हैं। 10 मिनट से कम training के साथ, ऐसे form जिनको इंसान भी संभाल सकता है
OCR tools डिब्बे पर जो लिखा है, वही काम अच्छी तरह करते हैं, जैसे कागज़ पर अक्षरों की पहचान। vision language model का फायदा यह है कि आप "यह एक string है, लेकिन क्या यह timestamp जैसा दिखता है?" जैसी logic जोड़ सकते हैं
मैं जो चाहता हूँ: किसी दस्तावेज़ (पूरी किताब सहित) को scan/photograph करके language model को दूँ, और बदले में ऐसा Latex document मिले जो मूल दस्तावेज़ से बिल्कुल मेल खाता हो। copier/camera की खामियाँ और angle को छोड़कर। इसके लिए reinforcement learning model संभव लगता है। उसे ऐसा Latex जनरेट करना सीखना चाहिए जो pixel स्तर पर image को पुन:निर्मित करे
दोनों का उपयोग करना चाहिए। OCR और LLM दोनों चलाकर फिर दोनों परिणामों का सहसंबंध करने से गुणवत्ता काफी बेहतर हो जाती है। आपको document understanding और context के साथ-साथ bounding box जैसी चीज़ें भी मिलती हैं। मैं एक "कभी paperwork न करना पड़े" app बना रहा हूँ, और रुचि रखने वालों से बात करना चाहूँगा
हो सकता है यह मेरे prompt की वजह से हो, लेकिन image embedding के बाद बहुत ज़्यादा interpretation हो रही लगती है। मेरे उदाहरण में इसने टेक्स्ट के हिस्सों का सारांश बनाना शुरू कर दिया, और दुर्भाग्य से वह गलत था। टाइप किए हुए टेक्स्ट वाले एक invoice में वास्तव में लिखा था कि अगर शुक्रवार दोपहर 2 बजे के बाद जमा किया जाए तो वह अगले सोमवार तक post नहीं होगा, लेकिन इसने उसका सारांश यह बना दिया कि 2-3 business day तक post नहीं होगा। यह काफी अलग बात है। सोचता हूँ क्या इस layer को किसी तरह हटाया जा सकता है। one-shot structured text detection recognition, basic OCR से कहीं बेहतर था
यह अच्छा है कि इस पर और काम हो रहा है, लेकिन समझ नहीं आता कि इसे किसी के proprietary API से क्यों बाँधा गया है। model provider बदलना और basic logging जोड़ना इतना कष्टदायक नहीं होना चाहिए कि किसी दूसरे vendor को onboard करना ही मुश्किल लगे। खासकर जब आप LLM prompt जैसी संवेदनशील चीज़ें संभाल रहे हों
सबसे तेज़ और सबसे सटीक CLI OCR tool कौन-सा है? मेरा use case सरल है - मैं स्क्रीन के किसी हिस्से को capture करना चाहता हूँ (इसके लिए Flameshot अच्छा है) और OCR चलाना चाहता हूँ। Zoom पर pair programming के दौरान notes लेने के लिए इसकी ज़रूरत है। अभी मैं tesseract इस्तेमाल कर रहा हूँ, और यह तेज़ है और अच्छा काम करता है, लेकिन गलतियाँ करता है। अगर यह table format पहचान सके और उसे ASCII या Markdown table में बदल सके, तो अच्छा होगा। मैंने docling आज़माया, लेकिन वह थोड़ा overkill लगा। यह धीमा भी लगता है - मुझे screenshot से बहुत तेज़ी से टेक्स्ट निकालना है। मैंने सिर्फ default setting आज़माई है, और tuning करने पर शायद सुधार हो सकता है। क्या कोई इस पर अपने विचार साझा कर सकता है? धन्यवाद!

Vision Language Model से OCR को बदलना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय