- यह कुकबुक विभिन्न case studies और hands-on अभ्यासों के माध्यम से वीडियो और इमेज प्रोसेसिंग algorithms का अन्वेषण करने वाला एक open source प्रोजेक्ट है
- इसमें video inference, image catalogue, fashion image hybrid search जैसे विभिन्न application क्षेत्रों को शामिल किया गया है
- अन्य प्रोजेक्ट्स की तुलना में, इसमें विभिन्न वास्तविक उदाहरणों के माध्यम से algorithms सीखने का लाभ है
- मुख्य फ़ाइलें और notebooks
00_quickstart.ipynb: प्रोजेक्ट को जल्दी शुरू करने के लिए गाइड
01_schema_showcase.ipynb: विभिन्न data schemas दिखाने वाली case studies शामिल हैं
02_case_study_drivers_license.ipynb: ड्राइविंग लाइसेंस पहचानना
03_case_study_tv_news.ipynb: TV news स्क्रीन को समझना
04_visual_grounding.ipynb: visual grounding algorithms का अन्वेषण. इमेज बॉक्स के अंदर से JSON निकालना
05_case_study_image_catalogue.ipynb: fashion product catalogue का विश्लेषण करके product description, category, target gender, season की पहचान
06_fashion_images_hybrid_search.ipynb: fashion image hybrid search case study
advanced_finetuning_video_inference.ipynb: video inference के लिए advanced fine-tuning techniques
1 टिप्पणियां
Hacker News राय
दिलचस्प विचार है, लेकिन अभी production environment में उपयोग के लिए इसकी विश्वसनीयता कम है। पारंपरिक OCR मॉडल जब टेक्स्ट पढ़ नहीं पाते, तो कम confidence के साथ बेकार परिणाम देते हैं। दूसरी ओर, VLM जब पढ़ नहीं पाता तो आत्मविश्वास के साथ गढ़े हुए परिणाम दे देता है, और confidence रिपोर्ट करने का कोई तरीका नहीं होता। हस्तलिखित पहचान के एक प्रयास में VLM ने दस्तावेज़ के माहौल के अनुरूप नकली नाम और तारीखें बना दीं। मॉडल को स्रोत टेक्स्ट पर आधारित रखने का कोई तरीका नहीं है
हाल ही में VLM और OCR का मूल्यांकन करने के लिए एक open source benchmark जारी किया गया, और सामान्य रूप से VLM ने पारंपरिक OCR मॉडलों से बेहतर प्रदर्शन किया
VLM के फायदे:
पारंपरिक OCR के फायदे:
सुधार की काफी गुंजाइश है, लेकिन खासकर Gemini जैसे मॉडल accuracy/cost के मामले में बहुत competitive हैं
यह सोचकर हैरानी होती है कि सभी OCR services सिर्फ digital documents के परफ़ेक्ट screenshot ही क्यों दिखाती हैं। क्या वास्तव में इतने लोग digital data पर OCR चलाना चाहते हैं? बस HTML कॉपी क्यों नहीं कर लेते? अगर दस्तावेज़ digital नहीं है, तो मोड़ के निशान, खिसकी हुई पंक्तियाँ, रोशनी का gradient, उंगलियाँ आदि वाले screenshot कहाँ हैं?
vlm-run और custom form definition के साथ प्रयोग किया, और यह Gemini 2.0 Flash के साथ हैरान करने वाला अच्छा काम करता है। मेरी समझ से लागत भी कम है। साधारण से मध्यम जटिलता वाले form पर सबसे अच्छे परिणाम मिलते हैं। 10 मिनट से कम training के साथ, ऐसे form जिनको इंसान भी संभाल सकता है
OCR tools डिब्बे पर जो लिखा है, वही काम अच्छी तरह करते हैं, जैसे कागज़ पर अक्षरों की पहचान। vision language model का फायदा यह है कि आप "यह एक string है, लेकिन क्या यह timestamp जैसा दिखता है?" जैसी logic जोड़ सकते हैं
मैं जो चाहता हूँ: किसी दस्तावेज़ (पूरी किताब सहित) को scan/photograph करके language model को दूँ, और बदले में ऐसा Latex document मिले जो मूल दस्तावेज़ से बिल्कुल मेल खाता हो। copier/camera की खामियाँ और angle को छोड़कर। इसके लिए reinforcement learning model संभव लगता है। उसे ऐसा Latex जनरेट करना सीखना चाहिए जो pixel स्तर पर image को पुन:निर्मित करे
दोनों का उपयोग करना चाहिए। OCR और LLM दोनों चलाकर फिर दोनों परिणामों का सहसंबंध करने से गुणवत्ता काफी बेहतर हो जाती है। आपको document understanding और context के साथ-साथ bounding box जैसी चीज़ें भी मिलती हैं। मैं एक "कभी paperwork न करना पड़े" app बना रहा हूँ, और रुचि रखने वालों से बात करना चाहूँगा
हो सकता है यह मेरे prompt की वजह से हो, लेकिन image embedding के बाद बहुत ज़्यादा interpretation हो रही लगती है। मेरे उदाहरण में इसने टेक्स्ट के हिस्सों का सारांश बनाना शुरू कर दिया, और दुर्भाग्य से वह गलत था। टाइप किए हुए टेक्स्ट वाले एक invoice में वास्तव में लिखा था कि अगर शुक्रवार दोपहर 2 बजे के बाद जमा किया जाए तो वह अगले सोमवार तक post नहीं होगा, लेकिन इसने उसका सारांश यह बना दिया कि 2-3 business day तक post नहीं होगा। यह काफी अलग बात है। सोचता हूँ क्या इस layer को किसी तरह हटाया जा सकता है। one-shot structured text detection recognition, basic OCR से कहीं बेहतर था
यह अच्छा है कि इस पर और काम हो रहा है, लेकिन समझ नहीं आता कि इसे किसी के proprietary API से क्यों बाँधा गया है। model provider बदलना और basic logging जोड़ना इतना कष्टदायक नहीं होना चाहिए कि किसी दूसरे vendor को onboard करना ही मुश्किल लगे। खासकर जब आप LLM prompt जैसी संवेदनशील चीज़ें संभाल रहे हों
सबसे तेज़ और सबसे सटीक CLI OCR tool कौन-सा है? मेरा use case सरल है - मैं स्क्रीन के किसी हिस्से को capture करना चाहता हूँ (इसके लिए Flameshot अच्छा है) और OCR चलाना चाहता हूँ। Zoom पर pair programming के दौरान notes लेने के लिए इसकी ज़रूरत है। अभी मैं tesseract इस्तेमाल कर रहा हूँ, और यह तेज़ है और अच्छा काम करता है, लेकिन गलतियाँ करता है। अगर यह table format पहचान सके और उसे ASCII या Markdown table में बदल सके, तो अच्छा होगा। मैंने docling आज़माया, लेकिन वह थोड़ा overkill लगा। यह धीमा भी लगता है - मुझे screenshot से बहुत तेज़ी से टेक्स्ट निकालना है। मैंने सिर्फ default setting आज़माई है, और tuning करने पर शायद सुधार हो सकता है। क्या कोई इस पर अपने विचार साझा कर सकता है? धन्यवाद!