13 पॉइंट द्वारा xguru 2021-03-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • PDF या इमेज से टेबल डेटा निकालकर उसे CSV में बदलने वाला open source

  • Python + OpenCV + Tesseract कोड

  • PDF के अंदर की इमेजों को Poppler + ImageMagick से अलग-अलग इमेज फ़ाइलों में निकालकर एक साथ प्रोसेस किया जा सकता है (batch script)

1 टिप्पणियां

 
xguru 2021-03-12

अगर टेबल में सिर्फ़ नंबर हों, तो नीचे दिया गया कोड क्षेत्र तक चुनकर निकाल सकता है, इसलिए यह ज़्यादा सुविधाजनक लग सकता है.

image2csv - नंबर वाली टेबल इमेज को CSV में बदलने वाला open source

https://github.com/artperrin/image2csv

  • Python + OpenCV + Tesseract कोड

  • अपने-आप grid (टेबल) पहचान

  • manual पहचान के समय Windows में माउस से क्षेत्र चुनना