20 पॉइंट द्वारा computerphilosopher 2025-03-24 | 4 टिप्पणियां | WhatsApp पर शेयर करें

बौद्ध GPT विकसित करने की पृष्ठभूमि

  • बौद्ध अध्ययन में GPT का उपयोग करना चाहा, लेकिन इसकी मूल performance उम्मीद से कम थी.
  • PDF सामग्री को सिखाने के बाद जवाबों की गुणवत्ता बेहतर हुई.
  • जातक सूत्रों को सिखाने का सुझाव मिला और प्रोजेक्ट शुरू किया गया.

PDF learning की सीमाएँ

  • जातक PDF को सिखाने के बाद hallucination बहुत गंभीर हो गई.
  • multi-column, table, image जैसी non-linear संरचनाएँ GPT के लिए बाधा बनीं.

आज़माए गए तरीके (सब विफल)

  • epub format का उपयोग
  • instruction समायोजन
  • Markdown conversion + crawling
  • csv index जोड़ना

समाधान की शुरुआत

  • समस्या जातक की number-based संरचना और GPT की generative प्रकृति के टकराव में थी.
  • GPT csv का ठीक से उपयोग नहीं कर पा रहा था.
  • JSON index का सुझाव मिला और लागू करते ही accuracy तेज़ी से बढ़ी.

वास्तविक लागू करने का तरीका

  • epub → Markdown conversion (pandoc)
  • heading सुधारना, अनावश्यक टेक्स्ट हटाना
  • ज़रूरत पड़ने पर हाथ से Markdown तैयार करना

सेवा बंद करने के कारण

  • Abhidhamma से जुड़े सवालों में hallucination हुई
  • अनुवादक Sujato Bhante का AI training के विरोध में रुख
  • SuttaCentral license के उल्लंघन की आशंका

निष्कर्ष

  • RAG सरल नहीं है.
  • AI training के लिए इस्तेमाल होने वाली सामग्री का license ज़रूर जाँचना चाहिए.

4 टिप्पणियां

 
pkj3186 2025-03-24

यह शास्त्रों जैसी संकेत-पद्धति इस्तेमाल करने वाले दूसरे तरह के अध्ययन में मददगार हो सकता है। जैसे Plato की किताबें...

 
bus710 2025-03-24

अरे... ऐसा तो नहीं कि हमें छोड़कर ये अकेले ही निर्वाण में चले गए हों?

 
1206good 2025-03-24

मुझे लगा था कि Mistral OCR के साथ Doc As Prompt अच्छी तरह काम करेगा, लेकिन मुझे भी लगभग यही समस्या हुई थी। एक सुराग मिल गया, धन्यवाद।

 
halfenif 2025-03-24

"दोस्तों से करना मुश्किल लगने वाली डेटिंग सलाह अब आराम से LLM से लें" — यही बात याद आती है।