- PDF अब भी मुख्यधारा का document format है → LLM search performance पर सीमाएं
- MS के open source markitdown से PDF→Markdown conversion का प्रयोग
- formulas और layout टूटने जैसी सीमाएं, LLM correction से readability में सुधार
- single-column और text-centric PDF के लिए उपयुक्त, complex documents में सीमाएं
5 टिप्पणियां
RAG में भी यह PDF दस्तावेज़ हमेशा समस्या बनते हैं।
सबसे खराब फ़ॉर्मैट, pdf
format conversion के लिए markitdown सुविधाजनक है, लेकिन PDF के लिए इसे बिल्कुल इस्तेमाल नहीं करना चाहिए, हाँ।
दस्तावेज़ extraction में Gemini जैसे multimodal LLM का उपयोग करने वाले कई तरीके पहले से मौजूद हैं, और benchmark में भी इनके नतीजे काफ़ी अच्छे आते हैं। बस लागत ही समस्या है।
docling जैसी चीज़ भी अच्छी है।
docling भी अच्छा है
markitdown, PDF parsing के लिए https://github.com/pdfminer/pdfminer.six का उपयोग करता है, और text या embedded images को फ़ाइल से उसी रूप में extract करता है। OCR वगैरह की बात सुनकर ही सिर घूमने लगता है...