सरकारी डोमेन-विशेष sLLM बनाने की कहानी — Gemma-3-1B को भूमि, अवसंरचना और परिवहन मंत्रालय के डेटा पर fine-tune किया गया RAG चैटबॉट

(riss.kr)

1 पॉइंट द्वारा chohi 1 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

सरकारी डोमेन-विशेष sLLM बनाने की कहानी — molit-gemma + RAG

यह एक ऐसा उदाहरण है जिसमें सार्वजनिक संस्थान के सुरक्षा वातावरण में, जहाँ ChatGPT/Claude जैसे बाहरी LLM का उपयोग करना कठिन होता है, ऑन-प्रेमिस डोमेन-विशेष चैटबॉट बनाया गया।

TL;DR

Google Gemma-3-1B को भूमि, अवसंरचना और परिवहन मंत्रालय के नीति दस्तावेज़ों पर fine-tune किया गया → molit-gemma
OpenSearch-आधारित RAG से hallucination कम किया गया
BLEU 0.6258, LLM-as-a-Judge 4.34/5.0
पूरी तरह ऑन-प्रेमिस डिप्लॉयमेंट (बाहरी API 0)

sLLM क्यों?

सरकारी नागरिक-शिकायत उत्तरों में बाहरी API कॉल करने पर डेटा लीक होने की आशंका
70B-स्तर के मॉडल GPU इन्फ्रास्ट्रक्चर पर भारी पड़ते हैं → 1B मॉडल + RAG से पूरक किया गया
डोमेन-विशेष fine-tuning की सटीकता सामान्य LLM से बेहतर

संरचना

उपयोगकर्ता क्वेरी → OpenSearch खोज → Top-K नीति दस्तावेज़ → molit-gemma उत्तर तैयार करता है → स्रोत उद्धृत करता है

निहितार्थ

सार्वजनिक क्षेत्र में sLLM + RAG संयोजन के लिए एक प्रायोगिक baseline प्रस्तुत करता है
केवल 1B मॉडल से भी, यदि डोमेन सीमित हो, तो व्यावहारिक स्तर तक पहुँचना संभव
hallucination कम करना + explainability सुनिश्चित करना

लिंक

शोधपत्र(RISS): https://www.riss.kr/link?id=T17378943
मॉडल(Hugging Face): https://huggingface.co/chohi/gemma-molit-finetuned/blob/main/README.md
कोड(GitHub): https://github.com/chohi22/Industrial-AI/…