39 पॉइंट द्वारा GN⁺ 2025-02-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • पूरी तरह मुफ़्त और open source। कोई subscription/paid features/hidden code नहीं
  • चुनौतीपूर्ण पांडुलिपियों की high-quality processing से लेकर मुद्रित सामग्री की बड़े पैमाने पर full-text recognition तक, लचीले ढंग से लागू किया जा सकता है
  • शक्तिशाली layout और text annotation समर्थन
    • LAREX editor का उपयोग करके layout और text elements पर मैन्युअली annotation जोड़े, संशोधित करें या तुलना करें
  • OCR-D ecosystem के साथ पूरी तरह compatible
  • usability को ध्यान में रखकर डिज़ाइन किया गया: code/CLI का उपयोग किए बिना भी UI के ज़रिए जटिल OCR workflow बनाए जा सकते हैं
  • आसान cross-platform development: OS के प्रकार की परवाह किए बिना Docker और एक command से चलाया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-02-15
Hacker News राय
  • जटिल segmentation pipeline कुछ साल पहले ज़रूरी थे, लेकिन अब इनमें बहुत errors आते हैं और ये model से अहम context छीन लेते हैं। handwritten text तक जाने के लिए context की ज़रूरत होती है

    • ऐतिहासिक हस्तलिखित पाठ को पढ़ने के लिए विशेषज्ञ कहेंगे कि पूरा document चाहिए
    • character recognition नहीं, बल्कि text recognition को आखिर तक करना चाहिए
    • CER से model का मूल्यांकन करना अच्छा नहीं है
    • text recognition, 15 साल पहले machine translation की गलतियाँ दोहरा रहा है
  • OCR4all शुरुआती आधुनिक मुद्रित सामग्री के digital text recovery और recognition के लिए software है

    • जटिल print types और असमान layouts सामान्य text recognition software की क्षमता की परीक्षा लेते हैं
    • लगता है कि यह Calamari-OCR पर आधारित है
  • OCR4all non-technical users की ज़रूरतों को साफ़ और intuitive तरीके से संबोधित करता है

    • Linux पर terminal खोलकर command दर्ज करने के निर्देश हैं
    • समझ नहीं आता कि यह non-technical users की कैसे मदद करता है
  • Apple का Vision Framework, Tesseract से तेज़ और ज़्यादा accurate text recognition library देता है

    • यह लगभग सभी image formats को संभाल सकता है
    • एक सरल CLI tool और Python wrapper लिखा गया है
  • Tesseract और LLM को जोड़कर errors ठीक करना और formatting सुधारना, फिलहाल speed/efficiency/accuracy का सबसे अच्छा संतुलन है

    • English prompt text को edit करके input document के खास पहलुओं को प्राथमिकता दी जा सकती है
  • AI-supported OCR API विकसित किया गया है

    • Tesseract और Poppler-utils को मिलाकर document segments को बुद्धिमानी से extract किया जाता है
    • कई Vision LLM models तक आसानी से विस्तार किया जा सकता है
    • पूरे AI agent API को Dockerized container के रूप में output किया जाता है
  • यह workflow ऐतिहासिक मुद्रित दस्तावेज़ों को digitize करने के लिए है

    • यह blackletter typeface में छपी पुरानी सूचनाओं को संरक्षित करने से जुड़ा है
  • OCR4all विभिन्न open source solutions को मिलाकर automated text recognition workflow प्रदान करता है

    • यह OCR-D पर आधारित लगता है, जो Tesseract, Kraken, DUP-ocropy, Calamari-OCR पर आधारित है
    • यह Transkribus का open source alternative लगता है
    • eScriptorium भी एक और alternative है
  • जिज्ञासा है कि क्या यह नया SOTA OCR engine है, या फिर दूसरे जाने-पहचाने engines का उपयोग करने वाला tool है

    • काश landing page थोड़ा और स्पष्ट होता
  • OCR को मैं Tesseract के साथ ज़्यादातर हल हुआ मानता था, लेकिन output PDF की MRC compression के लिए कोई library या implementation ढूंढ रहा हूँ

    • commercial products महंगे हैं, और image layers को अलग करके compress करना और फिर दोबारा जोड़ना एक कठिन समस्या है