Microsoft MarkItDown - फ़ाइलों और Office दस्तावेज़ों को Markdown में बदलने वाला Python टूल

(github.com/microsoft)

31 पॉइंट द्वारा GN⁺ 2024-12-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें

विभिन्न फ़ाइलों को Markdown में बदलने के लिए एक utility टूल
समर्थित फ़ॉर्मैट:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- इमेज (EXIF metadata और OCR), ऑडियो (EXIF metadata और speech transcription)
- HTML (खासकर Wikipedia आदि के लिए विशेष प्रोसेसिंग) और अन्य कई text-based फ़ॉर्मैट (csv, json, xml आदि)

API का उपयोग आसान है:

from markitdown import MarkItDown  
markitdown = MarkItDown()  
result = markitdown.convert("test.xlsx")  
print(result.text_content)

2 टिप्पणियां

kandk 2024-12-16

ओह, लगता है Microsoft के अंदर भी इसे open source बनाने की सोच चल रही है?

GN⁺ 2024-12-14

Hacker News की राय

अगर uv इंस्टॉल है, तो फ़ाइल के लिए अलग इंस्टॉलेशन के बिना uvx markitdown path-to-file.pdf कमांड से इसे चलाया जा सकता है
- पहली बार चलाने पर ज़रूरी पैकेज cache हो जाते हैं, और बाद में चलाने पर cached पैकेज दोबारा इस्तेमाल होते हैं
- HTML और PDF पर आज़माने पर प्रदर्शन काफ़ी अच्छा लगा
कंपनी में फ़ाइलों को LLM-friendly टेक्स्ट में बदलने वाली फीचर विकसित करने का अनुभव है
- source code पढ़ने पर यह implementation काफ़ी उचित लगती है
- images या spreadsheets पर इसका इस्तेमाल न करना बेहतर है
- images के मामले में उन्हें सीधे LLM provider को दिया जा सकता है, और spreadsheets में Markdown tables की व्याख्या कमज़ोर रहती है
बहुत-से startup और open source project इस क्षेत्र को जटिल बना देते हैं, लेकिन अंततः लक्ष्य ऐसा सरल project है जिसे समझना और deploy करना आसान हो
PDF processing में "आप कितनी processing चाहते हैं" इसे नियंत्रित करने की सुविधा होती तो अच्छा होता
- PDF में text extraction के लिए या तो PDF export के तरीके के प्रति संवेदनशील heuristics का इस्तेमाल करना पड़ता है, या फिर पूरी तरह OCR का सहारा लेना पड़ता है
- project का केवल एक ही तरीके पर अटका होना असुविधाजनक है
- speech-to-text फीचर के performance characteristics text-to-text फीचर से अलग हो सकते हैं, इसलिए मैं इसका उपयोग नहीं करूंगा
PDF processing में PDFMiner को सीधे integrate करना ज़्यादा बेहतर हो सकता है
Pandoc का उपयोग करके .docx फ़ाइलों को Markdown और अन्य file formats में बदला जा सकता है
- Pandoc PowerPoint और Excel फ़ाइलों को convert नहीं कर सकता
PDF format की जटिल visual layout और बहुत-सी tables वाली tabletop RPG किताबों को index किया है
- अगर यह PDFMiner का wrapper है, तो इस tool की अतिरिक्त value नज़र नहीं आती
- यह tables को पहचानता या process नहीं करता, लेकिन कम-से-कम table cells की बुनियादी पहचान है
- variable-width columns या जटिल तरीके से wrapped text को यह ठीक से संभाल लेता है
- पूरी तरह aligned text में यह अनावश्यक spaces डाल देता है, और वाक्य के बीच column split होने पर बेकार line breaks जोड़ देता है
- सबसे बड़ी समस्या यह है कि यह headings को पूरी तरह miss कर देता है
README में LLM का कोई उल्लेख नहीं होना अप्रत्याशित है, लेकिन सकारात्मक भी
- code पढ़ना दिलचस्प है
- ज़्यादातर हिस्सा एक ही 1101-line फ़ाइल में glue code है
ऑनलाइन language class में assignment को Slack पर submit करने का अनुभव साझा किया
- .md फ़ाइल में assignment जमा किया, लेकिन teacher इसे समझ नहीं पाए
- उसके बाद फिर कभी यह उम्मीद नहीं थी कि Word documents पसंद करने वाला कोई मिलेगा
docling के साथ तुलना को लेकर जिज्ञासा है
- docling LLM का इस्तेमाल करता है
यह जानने की उत्सुकता है कि Markdown से PDF या .docx में convert करने के लिए कोई अच्छी library है या नहीं
- Pandoc ज़्यादातर मामलों में काम करता है, लेकिन tables जैसी कुछ चीज़ों में दिक्कत झेलता है
Microsoft है, तो Outlook HTML और .docx से कम-से-कम आधे मामलों में ठीक-ठाक परिणाम निकाल सकता है
- ज़्यादातर paid solutions का भी मूल्यांकन किया, लेकिन कोई भी production में चलाने लायक पर्याप्त अच्छा नहीं लगा
- इस tool को आज़माऊँगा

Microsoft MarkItDown - फ़ाइलों और Office दस्तावेज़ों को Markdown में बदलने वाला Python टूल

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय