3 पॉइंट द्वारा GN⁺ 2024-11-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • प्रोजेक्ट परिचय

    • यह प्रोजेक्ट llama-ocr और Together AIOCR का उपयोग करके इमेज को संरचित Markdown में बदलने वाला एक टूल है.
    • उपयोगकर्ता इमेज अपलोड करके टेक्स्ट निकाल सकते हैं और उसे Markdown फ़ॉर्मेट में बदल सकते हैं.
  • मुख्य फीचर्स

    • इमेज अपलोड फीचर उपलब्ध
    • इमेज से टेक्स्ट निकालकर Markdown में बदलना
    • उदाहरण इमेज उपलब्ध कराई जाती हैं ताकि उपयोगकर्ता फीचर्स को टेस्ट कर सकें
  • कोड उदाहरण

    • llama-ocr लाइब्रेरी का उपयोग करके इमेज से टेक्स्ट निकालने का कोड उदाहरण उपलब्ध
    • ocr फ़ंक्शन में इमेज फ़ाइल पाथ और API key देकर Markdown तैयार किया जाता है
  • प्रोजेक्ट का महत्व

    • यह प्रोजेक्ट इमेज से टेक्स्ट आसानी से निकालकर उसे Markdown में बदलने की सुविधा देता है, जिससे दस्तावेज़ कार्य की दक्षता बढ़ती है.
    • मौजूदा OCR टूल्स की तुलना में यह आसान उपयोग और Markdown कन्वर्ज़न फीचर प्रदान करता है.

1 टिप्पणियां

 
GN⁺ 2024-11-17
Hacker News की राय
  • llama-ocr के लेखक ने एक साधारण API के साथ इमेज को structured Markdown में बदलने वाला टूल बनाया है। आगे PDF parsing और JSON output फीचर जोड़ने की योजना है

    • वेबटून उदाहरण में यह समस्या मिली कि बड़े अक्षरों में लिखे गए संवाद हर पैनल में अलग-अलग तरह से आउटपुट हो रहे थे
    • इसका उपयोग पुराने स्लाइड्स को digitize करने में किया गया, और स्लाइड्स का पीला रंग वास्तव में white balance की समस्या थी
    • मॉडल के bias को दिखाने वाले एक उदाहरण में, इसने स्लाइड्स को antique समझ लिया और गलत शीर्षक बना दिया
    • API की file size या resolution limit document नहीं की गई है
  • llama3.2-vision का उपयोग करके charity auction की bid sheets प्रोसेस की गईं, और खराब handwriting होने पर भी यह काफ़ी सटीक था

    • CSV में लगातार एकसमान output न मिलना असुविधाजनक था
    • समस्या का पैमाना लगभग 100 पेज का था, इसलिए हाथ से साफ़-सफ़ाई करना संभव था
  • सामान्य OCR मॉडल family photos के टेक्स्ट को digitize करने के लिए उपयुक्त नहीं हैं, और Gemini Flash सबसे बेहतर था

    • फिर भी errors बहुत हैं, इसलिए हाथ से करना ज़्यादा तेज़ है
  • यह "Show HN" पोस्ट के रूप में उपयुक्त है या नहीं, इस पर संदेह है, और Llama नाम से इसका संबंध कमज़ोर लगता है

  • genetic algorithm से बनाए गए वाक्यों को वास्तव में वृत्त में खींचा गया, लेकिन उन्हें टेक्स्ट के रूप में पहचाना नहीं गया

  • multi-page PDF अपलोड किया गया, लेकिन बताया गया कि यह supported नहीं है

  • HN screenshot अपलोड किया गया, लेकिन Markdown code output नहीं हुआ

  • ChatGPT API के ज़रिए जापानी OCR अच्छी तरह काम करता है

  • Walmart रसीद में अंक 9 को 0 के रूप में गलत पहचाना गया