18 पॉइंट द्वारा computerphilosopher 2025-09-20 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • PDF अब भी मुख्यधारा का document format है → LLM search performance पर सीमाएं
  • MS के open source markitdown से PDF→Markdown conversion का प्रयोग
  • formulas और layout टूटने जैसी सीमाएं, LLM correction से readability में सुधार
  • single-column और text-centric PDF के लिए उपयुक्त, complex documents में सीमाएं

5 टिप्पणियां

 
ahwjdekf 2025-09-23

RAG में भी यह PDF दस्तावेज़ हमेशा समस्या बनते हैं।

 
ahwjdekf 2025-09-22

सबसे खराब फ़ॉर्मैट, pdf

 
kbumsik 2025-09-22

format conversion के लिए markitdown सुविधाजनक है, लेकिन PDF के लिए इसे बिल्कुल इस्तेमाल नहीं करना चाहिए, हाँ।

दस्तावेज़ extraction में Gemini जैसे multimodal LLM का उपयोग करने वाले कई तरीके पहले से मौजूद हैं, और benchmark में भी इनके नतीजे काफ़ी अच्छे आते हैं। बस लागत ही समस्या है।

docling जैसी चीज़ भी अच्छी है।

 
kaydash 2025-09-22

docling भी अच्छा है

 
lamanus 2025-09-21

markitdown, PDF parsing के लिए https://github.com/pdfminer/pdfminer.six का उपयोग करता है, और text या embedded images को फ़ाइल से उसी रूप में extract करता है। OCR वगैरह की बात सुनकर ही सिर घूमने लगता है...