बौद्ध GPT विकसित करने की पृष्ठभूमि
- बौद्ध अध्ययन में GPT का उपयोग करना चाहा, लेकिन इसकी मूल performance उम्मीद से कम थी.
- PDF सामग्री को सिखाने के बाद जवाबों की गुणवत्ता बेहतर हुई.
- जातक सूत्रों को सिखाने का सुझाव मिला और प्रोजेक्ट शुरू किया गया.
PDF learning की सीमाएँ
- जातक PDF को सिखाने के बाद hallucination बहुत गंभीर हो गई.
- multi-column, table, image जैसी non-linear संरचनाएँ GPT के लिए बाधा बनीं.
आज़माए गए तरीके (सब विफल)
- epub format का उपयोग
- instruction समायोजन
- Markdown conversion + crawling
- csv index जोड़ना
समाधान की शुरुआत
- समस्या जातक की number-based संरचना और GPT की generative प्रकृति के टकराव में थी.
- GPT csv का ठीक से उपयोग नहीं कर पा रहा था.
- JSON index का सुझाव मिला और लागू करते ही accuracy तेज़ी से बढ़ी.
वास्तविक लागू करने का तरीका
- epub → Markdown conversion (
pandoc)
- heading सुधारना, अनावश्यक टेक्स्ट हटाना
- ज़रूरत पड़ने पर हाथ से Markdown तैयार करना
सेवा बंद करने के कारण
- Abhidhamma से जुड़े सवालों में hallucination हुई
- अनुवादक Sujato Bhante का AI training के विरोध में रुख
- SuttaCentral license के उल्लंघन की आशंका
निष्कर्ष
- RAG सरल नहीं है.
- AI training के लिए इस्तेमाल होने वाली सामग्री का license ज़रूर जाँचना चाहिए.
4 टिप्पणियां
यह शास्त्रों जैसी संकेत-पद्धति इस्तेमाल करने वाले दूसरे तरह के अध्ययन में मददगार हो सकता है। जैसे Plato की किताबें...
अरे... ऐसा तो नहीं कि हमें छोड़कर ये अकेले ही निर्वाण में चले गए हों?
मुझे लगा था कि Mistral OCR के साथ Doc As Prompt अच्छी तरह काम करेगा, लेकिन मुझे भी लगभग यही समस्या हुई थी। एक सुराग मिल गया, धन्यवाद।
"दोस्तों से करना मुश्किल लगने वाली डेटिंग सलाह अब आराम से LLM से लें" — यही बात याद आती है।