2 पॉइंट द्वारा maantano 6 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें

URL : https://lemini-brown.vercel.app/

मैं Korean कानूनों और नज़ीरों के बारे में natural language में पूछताछ करने वाला RAG chatbot Lemini बनाकर साझा कर रहा हूँ। हाल ही में इसी तरह के रुख वाली एक सेवा पर पोस्ट आई थी, और हम उसी
समस्या को दो अलग-अलग मोड में हल कर रहे हैं, इसलिए तकनीकी feedback पाने के लिए यह पोस्ट कर रहा हूँ।

दो मोड क्यों

कानूनी प्रश्न मोटे तौर पर दो तरह के होते हैं।

  1. "मेरी स्थिति ऐसी है, मुझे क्या करना चाहिए?" — उपयोगकर्ता के पास तथ्यात्मक स्थिति को ठीक से लिखकर समझाने की क्षमता नहीं होती। अगर इसे सामान्य RAG से लिया जाए तो केवल सामान्य-सी सलाह लौटती है।
  2. "इस contract/terms document की review कर दो" — दस्तावेज़ पहले से मौजूद है, लेकिन एक ही prompt में "review कर दो" कहने पर सिर्फ standard checklist निकलती है।

इन दोनों प्रकार की समस्याएँ एक ही RAG से हल नहीं होतीं। Lemini को हमने दो मोड में बाँटकर डिज़ाइन किया है।


मोड 1 — Ouroboros (संवादी factual context convergence)

प्रश्न → [क्या factual context पर्याप्त है?] ──अपर्याप्त── objective follow-up questions ─┐
│ पर्याप्त │
▼ ←─ उपयोगकर्ता का उत्तर ┘
RAG (कानून+नज़ीर+स्वायत्त नियमावली)

structured analysis
· पक्ष में/सावधानी वाले तथ्य
· action plan
· deadline warning (limitation period)
· संबंधित नज़ीरें

citation verification loop — search hit में न होने वाले citation हटाना

एक पंक्ति में सार: उत्तर देने से पहले मॉडल खुद से पूछता है, "क्या factual context पर्याप्त है?"

अगर जानकारी कम हो तो objective card के रूप में follow-up questions, और अगर पर्याप्त हो तो RAG → structured analysis। उपयोगकर्ता को follow-up questions खुद डिज़ाइन करने की ज़रूरत नहीं पड़ती।


मोड 2 — विशेषज्ञ विश्लेषण (document review 6-chain)

document input

① full scan — document का स्वभाव, section summary
② external institutional frame mapping — यह document किस institutional framework पर आधारित है, उसकी घोषणा
③ axis-wise RAG — हर institutional axis के लिए कानून और नज़ीर खोज
② external institutional frame mapping — यह document किस institutional framework पर आधारित है, उसकी घोषणा
③ axis-wise RAG — हर institutional axis के लिए कानून और नज़ीर खोज
④ clause-level review — observations / gaps / external
⑤ parallel chains (3 साथ में)
├ उद्देश्य-साधन संगति
├ institutional perspective review
└ risk scenarios
⑥ judgment-style verdict — केवल judgment-type प्रश्न होने पर

एक पंक्ति में सार: एक ही prompt में "review कर दो" कहने के बजाय, हम "document के बाहर के institutional framework को पहले घोषित करके" आगे बढ़ते हैं।

यह चरण ② single prompt से अच्छी तरह नहीं निकलता था, इसलिए chain को अलग किया गया।


दोनों मोड को सहारा देने वाली साझा बुनियाद

  • citation verification loop — LLM द्वारा दिए गए citation को search hit से मिलाकर, जो citation मौजूद नहीं हैं उन्हें response से हटा दिया जाता है। इससे plausible लेकिन नकली धाराओं को रोका जाता है।
  • 3 प्रकार के data का एक ही pool — कानून + नज़ीर + स्वायत्त नियमावली (Fair Trade Commission standard terms, association rules, KISA·Personal Information Protection Commission guidelines) को एक ही vector space में लोड किया गया है।
    कोड में domain branching 0 है, केवल document_type से अंतर किया गया है।
  • self-collected pipeline — कानून DRF API के ज़रिए हर हफ्ते 1 बार अपने-आप अपडेट होते हैं, और नज़ीरें National Law Information shared-use API + on-demand cache से ली जाती हैं।
  • prompts में generic applicability को सर्वोच्च प्राथमिकता दी गई है। उत्तर निकालने के लिए ज़रूरी जानकारी सीधे नहीं दी जाती, बल्कि प्रश्न के अनुसार उत्तर निकल सके ऐसा डिज़ाइन किया गया है।

stack

FastAPI / Cloud Run · Next.js · Gemini (structured JSON + multi-chain) · SQLite + self-built embedding matrix (vector·lexical·exact के 3 axis)

privacy

कोई signup/login नहीं, server DB में conversation store नहीं होता (browser localStorage), stateless, और IP का उपयोग केवल rate limit के लिए in-memory रूप में किया जाता है।

सीमाएँ

यह कानूनी सलाह नहीं, बल्कि information retrieval और analysis tool है। annex/form data और case coverage में खाली जगहें हैं। model की reasoning क्षमता स्वयं बाहरी LLM पर
निर्भर है, और हमारा differentiation point "plausible answer" नहीं बल्कि "evidence-verified structured answer" है।

जिन बातों पर feedback चाहिए

  • मोड 1 — ऐसे case जहाँ Ouroboros के follow-up questions अटपटे हों या ज़रूरत से ज़्यादा हों
  • मोड 2 — document review 6-chain में छूटे हुए perspectives
  • ऐसे गलत citation जिन्हें citation verification loop पकड़ नहीं पाया
  • उसी domain की दूसरी services की तुलना में छूटा हुआ नज़रिया

इसे आज़माकर बेझिझक feedback दें, आभारी रहूँगा।

2 टिप्पणियां

 
dydwls140 6 일 전

दस्तावेज़ समीक्षा परिणाम
पुष्टि विफल
दस्तावेज़ की समीक्षा के दौरान एक त्रुटि हुई। चैटबॉट इस्तेमाल करते समय error आया, और जब मैंने क़ानून का नाम खोजा तो पहला परिणाम 50% दिखा, लेकिन बाकी के लिए 4565% जैसे बिल्कुल अवास्तविक score दिखाई देते हैं।

 
maantano 5 일 전

धन्यवाद!! T_T मैं चेक करके देखूंगा!!