सोचा था सिर्फ़ PDF दे दूँगा तो काम खत्म हो जाएगा - GPTs में RAG लागू करने की विफलता

computerphilosopher · 2025-03-24T00:58:43+09:00

बौद्ध GPT विकसित करने की पृष्ठभूमि बौद्ध अध्ययन में GPT का उपयोग करना चाहा, लेकिन इसकी मूल performance उम्मीद से कम थी. PDF सामग्री को सिखाने के बाद जवाबों की गुणवत्ता बेहतर हुई. जातक सूत्रों को सिखाने का सुझाव मिला और प्रोजेक्ट शुरू किया गया. PDF learning की सीमाएँ जातक PDF को सिखाने के बाद hallucination बहुत गंभीर हो गई. multi-column, table, image जैसी non-linear संरचनाएँ GPT के लिए बाधा बनीं. आज़माए गए तरीके (सब विफल) epub format का उपयोग instruction समायोजन Markdown conversion + crawling csv index जोड़ना समाधान की शुरुआत समस्या जातक की number-based संरचना और GPT की generative प्रकृति के टकराव में थी. GPT csv का ठीक से उपयोग नहीं कर पा रहा था. JSON index का सुझाव मिला और लागू करते ही accuracy तेज़ी से बढ़ी. वास्तविक लागू करने का तरीका epub → Markdown conversion (pandoc) heading सुधारना, अनावश्यक टेक्स्ट हटाना ज़रूरत पड़ने पर हाथ से Markdown तैयार करना सेवा बंद करने के कारण Abhidhamma से जुड़े सवालों में hallucination हुई अनुवादक Sujato Bhante का AI training के विरोध में रुख SuttaCentral license के उल्लंघन की आशंका निष्कर्ष RAG सरल नहीं है. AI training के लिए इस्तेमाल होने वाली सामग्री का license ज़रूर जाँचना चाहिए.

(velog.io/@skynet)

20 पॉइंट द्वारा computerphilosopher 2025-03-24 | 4 टिप्पणियां | WhatsApp पर शेयर करें

बौद्ध GPT विकसित करने की पृष्ठभूमि

बौद्ध अध्ययन में GPT का उपयोग करना चाहा, लेकिन इसकी मूल performance उम्मीद से कम थी.
PDF सामग्री को सिखाने के बाद जवाबों की गुणवत्ता बेहतर हुई.
जातक सूत्रों को सिखाने का सुझाव मिला और प्रोजेक्ट शुरू किया गया.

PDF learning की सीमाएँ

जातक PDF को सिखाने के बाद hallucination बहुत गंभीर हो गई.
multi-column, table, image जैसी non-linear संरचनाएँ GPT के लिए बाधा बनीं.

आज़माए गए तरीके (सब विफल)

epub format का उपयोग
instruction समायोजन
Markdown conversion + crawling
csv index जोड़ना

समाधान की शुरुआत

समस्या जातक की number-based संरचना और GPT की generative प्रकृति के टकराव में थी.
GPT csv का ठीक से उपयोग नहीं कर पा रहा था.
JSON index का सुझाव मिला और लागू करते ही accuracy तेज़ी से बढ़ी.

वास्तविक लागू करने का तरीका

epub → Markdown conversion (pandoc)
heading सुधारना, अनावश्यक टेक्स्ट हटाना
ज़रूरत पड़ने पर हाथ से Markdown तैयार करना

सेवा बंद करने के कारण

Abhidhamma से जुड़े सवालों में hallucination हुई
अनुवादक Sujato Bhante का AI training के विरोध में रुख
SuttaCentral license के उल्लंघन की आशंका

निष्कर्ष

RAG सरल नहीं है.
AI training के लिए इस्तेमाल होने वाली सामग्री का license ज़रूर जाँचना चाहिए.

4 टिप्पणियां

pkj3186 2025-03-24

यह शास्त्रों जैसी संकेत-पद्धति इस्तेमाल करने वाले दूसरे तरह के अध्ययन में मददगार हो सकता है। जैसे Plato की किताबें...

bus710 2025-03-24

अरे... ऐसा तो नहीं कि हमें छोड़कर ये अकेले ही निर्वाण में चले गए हों?

1206good 2025-03-24

मुझे लगा था कि Mistral OCR के साथ Doc As Prompt अच्छी तरह काम करेगा, लेकिन मुझे भी लगभग यही समस्या हुई थी। एक सुराग मिल गया, धन्यवाद।

halfenif 2025-03-24

"दोस्तों से करना मुश्किल लगने वाली डेटिंग सलाह अब आराम से LLM से लें" — यही बात याद आती है।