1 पॉइंट द्वारा GN⁺ 2024-06-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल में semantic entropy का उपयोग करके hallucination detection

सारांश

  • बड़े भाषा मॉडल (LLM): ChatGPT और Gemini जैसे LLM सिस्टम शानदार reasoning और question-answering क्षमता दिखाते हैं, लेकिन अक्सर गलत output या बिना आधार वाले जवाब पैदा करने की 'hallucination' समस्या रखते हैं.
  • Hallucination समस्या: यह कानूनी मिसालों की गढ़ंत, news articles में गलत जानकारी, और चिकित्सा क्षेत्र में जोखिम जैसी कई समस्याएँ पैदा करती है.
  • मौजूदा समाधान की सीमाएँ: supervision या reinforcement learning के माध्यम से truthfulness लाने की कोशिशें केवल आंशिक रूप से सफल रही हैं.
  • नई विधि: सांख्यिकी पर आधारित entropy-driven uncertainty estimator प्रस्तावित किया गया है, जो मनमानी और गलत generation (confabulation) का पता लगाता है. यह शब्दों के विशेष क्रम के बजाय अर्थ-स्तर पर uncertainty की गणना करता है.
  • लागू होने की क्षमता: यह dataset और task से स्वतंत्र रूप से काम करता है, task के बारे में पूर्व-ज्ञान की आवश्यकता नहीं होती, और नए tasks पर भी मजबूत generalization दिखाता है.

मुख्य बातें

Hallucination समस्या का महत्व

  • Hallucination की परिभाषा: जब LLM दिए गए source content के प्रति faithful न रहे या अतार्किक सामग्री उत्पन्न करे.
  • Confabulation का उदाहरण: एक ही प्रश्न पर यादृच्छिक रूप से अलग-अलग उत्तर उत्पन्न करना.
  • मौजूदा समस्याएँ: गलत data पर training, reward पाने के लिए झूठ बोलना, या reasoning और generalization की प्रणालीगत विफलता.

Semantic entropy का उपयोग करके confabulation detection

  • विधि का अवलोकन: यह मात्रात्मक रूप से मापता है कि कब input से मनमाने और बिना आधार वाले उत्तर उत्पन्न होने की संभावना अधिक है.
  • Semantic entropy: वाक्य के अर्थ के आधार पर entropy की गणना करके uncertainty का अनुमान लगाया जाता है. उच्च entropy अधिक uncertainty को दर्शाती है.
  • Clustering: अर्थ में समान उत्तरों को cluster करके entropy की गणना की जाती है.

मूल्यांकन और परिणाम

  • Datasets: TriviaQA, SQuAD, BioASQ, NQ-Open, SVAMP सहित विभिन्न datasets पर मूल्यांकन किया गया.
  • Models: LLaMA 2 Chat, Falcon Instruct, Mistral Instruct, GPT-4 सहित कई models पर परीक्षण किया गया.
  • प्रदर्शन: semantic entropy ने मौजूदा simple entropy या supervised learning methods की तुलना में बेहतर प्रदर्शन दिखाया.

समग्र प्रदर्शन

  • AUROC: यह model की error prediction क्षमता मापने वाला metric है, और semantic entropy ने सबसे ऊँचा score दर्ज किया.
  • AURAC: यह उन प्रश्नों को reject करके, जिनमें confabulation की संभावना अधिक हो, बचे हुए प्रश्नों पर accuracy मापने वाला metric है; semantic entropy ने इसमें भी सर्वोत्तम प्रदर्शन दिखाया.

GN⁺ की राय

  1. व्यावहारिकता: semantic entropy विभिन्न datasets और tasks पर लागू हो सकता है, इसलिए इसकी व्यावहारिक उपयोगिता अधिक है. खासकर यह नए tasks पर भी मजबूत generalization दिखाता है.
  2. तकनीकी योगदान: यह simple entropy calculation की सीमाओं को पार करता है और अर्थ-स्तर पर uncertainty मापने का नया approach प्रस्तावित करता है.
  3. भविष्य की संभावना: यह विधि आगे चलकर abstractive summarization या conversational LLM की reliability सुधारने में भी उपयोगी हो सकती है.
  4. सीमा: यदि सिस्टम ने व्यवस्थित रूप से गलत data सीखा है या उसमें systematic reasoning errors हैं, तो यह उन्हें हल नहीं करता. इसके लिए अलग approach की आवश्यकता होगी.
  5. प्रतिस्पर्धी तकनीक: अन्य uncertainty estimation methods की तुलना में semantic entropy बेहतर प्रदर्शन दिखाता है, लेकिन कुछ विशेष परिस्थितियों में दूसरी विधियाँ अधिक प्रभावी हो सकती हैं.

1 टिप्पणियां

 
GN⁺ 2024-06-25
Hacker News राय
  • गणितीय समस्या: LLM के output distribution का मूल्यांकन करने वाला approach गणितीय रूप से समस्याग्रस्त है.
  • समानता का उदाहरण: Tom Cruise और Taylor Swift के उदाहरण के ज़रिए word vector space में समानता और सटीकता के अंतर को समझाया गया है.
  • वितरण की विशेषताएँ: output distribution की विशेषताएँ जाने बिना सटीकता का मूल्यांकन नहीं किया जा सकता, ऐसा मत है.
  • सांख्यिकीय मॉडल: ANN की uncertainty का मूल्यांकन करने वाले statistical model मौजूद हैं, लेकिन LLM के scale पर वे अव्यावहारिक हो सकते हैं.
  • hallucination समस्या: ज़्यादातर hallucination बहुत plausible और convincing लगती हैं, लेकिन वास्तव में गलत जानकारी होती हैं.
  • तार्किक सिस्टम: यह मत है कि LLM को logical system शामिल करके train किया जाना चाहिए.
  • training प्रक्रिया: मौजूदा model का उपयोग करके logical relations बनाए जाएँ और उन्हें नए LLM की training में इस्तेमाल किया जाए.
  • भाषा की भूमिका: यह मत है कि भाषा intelligence की बुनियाद नहीं है, बल्कि consistent simulation ज़्यादा महत्वपूर्ण है.
  • hallucination और सत्य: यह मत है कि LLM का सत्य और असत्य से सीधा संबंध नहीं है.
  • hallucination का सार: यह जानने के लिए कि LLM hallucination कर रहा है या नहीं, सही उत्तर पहले से पता होना चाहिए.
  • AI marketing: AI को text generation tool के रूप में market करना शायद बेहतर हो सकता है.
  • sensitivity analysis: input बदलकर यह देखना कि output का अर्थ कैसे बदलता है, एक रोचक तरीका हो सकता है.
  • Enron मामला: Enron प्रकरण के बाद bullshitometer का उपयोग करके prediction किया जा सकता था, इसका उल्लेख है.
  • मात्रात्मक मापन: input के किसी भी उत्तर को generate करने की संभावना को quantitatively मापने का तरीका विकसित किया गया है.
  • hallucination को न्यूनतम करना: hallucination को कम से कम करने के लिए कई स्तरों पर कदम उठाने चाहिए, ऐसा मत है.
  • knowledge graph: knowledge graph और FAQ का उपयोग करके hallucination कम करने की कोशिशें की जा रही हैं.
  • द्वितीय LLM: semantic equivalence का पता लगाने के लिए दूसरे LLM का उपयोग अनावश्यक जटिलता पैदा कर सकता है.