Microsoft MarkItDown - फ़ाइलों और Office दस्तावेज़ों को Markdown में बदलने वाला Python टूल
(github.com/microsoft)- विभिन्न फ़ाइलों को Markdown में बदलने के लिए एक utility टूल
- समर्थित फ़ॉर्मैट:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- इमेज (EXIF metadata और OCR), ऑडियो (EXIF metadata और speech transcription)
- HTML (खासकर Wikipedia आदि के लिए विशेष प्रोसेसिंग) और अन्य कई text-based फ़ॉर्मैट (csv, json, xml आदि)
- API का उपयोग आसान है:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 टिप्पणियां
ओह, लगता है Microsoft के अंदर भी इसे open source बनाने की सोच चल रही है?
Hacker News की राय
अगर
uvइंस्टॉल है, तो फ़ाइल के लिए अलग इंस्टॉलेशन के बिनाuvx markitdown path-to-file.pdfकमांड से इसे चलाया जा सकता हैकंपनी में फ़ाइलों को LLM-friendly टेक्स्ट में बदलने वाली फीचर विकसित करने का अनुभव है
बहुत-से startup और open source project इस क्षेत्र को जटिल बना देते हैं, लेकिन अंततः लक्ष्य ऐसा सरल project है जिसे समझना और deploy करना आसान हो
PDF processing में "आप कितनी processing चाहते हैं" इसे नियंत्रित करने की सुविधा होती तो अच्छा होता
PDF processing में PDFMiner को सीधे integrate करना ज़्यादा बेहतर हो सकता है
Pandoc का उपयोग करके .docx फ़ाइलों को Markdown और अन्य file formats में बदला जा सकता है
PDF format की जटिल visual layout और बहुत-सी tables वाली tabletop RPG किताबों को index किया है
README में LLM का कोई उल्लेख नहीं होना अप्रत्याशित है, लेकिन सकारात्मक भी
ऑनलाइन language class में assignment को Slack पर submit करने का अनुभव साझा किया
docling के साथ तुलना को लेकर जिज्ञासा है
यह जानने की उत्सुकता है कि Markdown से PDF या .docx में convert करने के लिए कोई अच्छी library है या नहीं
Microsoft है, तो Outlook HTML और .docx से कम-से-कम आधे मामलों में ठीक-ठाक परिणाम निकाल सकता है