1 पॉइंट द्वारा GN⁺ 2024-09-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLMs Will Always Hallucinate, and We Need to Live With This

परिचय

  • बड़े भाषा मॉडल (LLM) के विभिन्न क्षेत्रों में व्यापक उपयोग के साथ, उनकी अंतर्निहित सीमाओं की आलोचनात्मक समीक्षा करना महत्वपूर्ण है
  • यह शोध तर्क देता है कि language model hallucination सिर्फ एक साधारण त्रुटि नहीं, बल्कि इन प्रणालियों की एक अनिवार्य विशेषता है

hallucination का स्वभाव

  • hallucination, LLM की मूलभूत गणितीय और तार्किक संरचना से उत्पन्न होता है
  • architecture improvements, dataset enhancements, और fact-checking mechanisms के माध्यम से इसे समाप्त करना असंभव है
  • computation theory और Gödel के first incompleteness theorem के आधार पर, halting problem, blanking problem, और acceptance problem जैसी समस्याओं की undecidability का संदर्भ दिया गया है

LLM प्रक्रिया के हर चरण में hallucination

  • training data collection, fact retrieval, intent classification, और text generation के हर चरण में hallucination होने की संभावना रहती है
  • structural hallucination की अवधारणा पेश की गई है, ताकि इसे इन प्रणालियों की अंतर्निहित विशेषता के रूप में स्थापित किया जा सके

निष्कर्ष

  • hallucination की गणितीय निश्चितता स्थापित करके, यह अध्ययन उस मौजूदा धारणा को चुनौती देता है कि इसे पूरी तरह कम किया जा सकता है

GN⁺ का सारांश

  • यह शोध गणितीय रूप से साबित करता है कि LLM hallucination अनिवार्य है, इसलिए इसे पूरी तरह समाप्त नहीं किया जा सकता
  • computation theory और Gödel के incompleteness theorem के माध्यम से hallucination के स्वभाव को समझाया गया है
  • यह दिखाया गया है कि LLM के हर चरण में hallucination हो सकता है
  • यह शोध संकेत देता है कि LLM की सीमाओं को समझना और उन्हें स्वीकार करना महत्वपूर्ण है

1 टिप्पणियां

 
GN⁺ 2024-09-16
Hacker News राय
  • गणितीय निश्चितता के माध्यम से hallucination को साबित करके, इस मौजूदा धारणा को चुनौती दी गई है कि hallucination को पूरी तरह हल किया जा सकता है

    • अगर "hallucination" शब्द के बजाय कोई दूसरा शब्द चुना गया होता, तो यह गलतफ़हमी नहीं बनती कि मॉडल के सामान्य कामकाज में कोई समस्या है
    • hallucination मॉडल की खराबी नहीं है, बल्कि यह एक मूल्य-निर्णय है कि उत्पन्न किया गया टेक्स्ट उद्देश्य के अनुकूल नहीं है
    • hallucination को कम करना और "alignment" बनाना एक ही समस्या है
  • hallucination सवाल के पहले संभावित जवाब को कह देने का परिणाम है

    • इंसानों ने ज़्यादातर सवालों के जवाब पहले कभी न कभी दिए होते हैं, और वे अपनी गलतियाँ याद रखते हैं ताकि उन्हें दोहराएँ नहीं
    • इंसान बोलने से पहले सोचते हैं, और अपनी शुरुआती प्रतिक्रिया को दूसरे ज्ञान से जोड़ते हैं
    • यह उम्मीद नहीं करनी चाहिए कि LLM तुरंत सही जवाब बना देगा
    • इंसानी सोच की प्रक्रिया में कई तरह की भूमिकाएँ और persona होते हैं
    • शुरुआती "draft" जवाब बनने के बाद ही अतिरिक्त संदर्भ तैयार होता है
    • LLM की पहली "intuitive response" के आधार पर उसकी बुद्धिमत्ता का आकलन करना गलत है
  • मौजूदा architecture में मूल रूप से "hallucination" अंतर्निहित है, जो इसके व्यावहारिक उपयोग को सीमित करता है

    • यह लेख "hallucination न होने" की असंभव सीमा प्रस्तुत करता है
    • यह formal system और mechanical computation की बुनियादी सीमाओं की फिर से पुष्टि करता है
    • यह सीमा इंसानों पर भी लागू होती है
  • LLM की hallucination इस बात से जुड़ी है कि ज्ञान को किस तरह व्यक्त किया जाता है

    • जब मॉडल hallucination करता है, तब भी वह अपनी training के अनुसार संभावित टेक्स्ट ही उत्पन्न कर रहा होता है
    • वह training data के सामान्य patterns, यानी grammar और word choice, पर निर्भर करता है
    • उचित architecture बदलावों से hallucination की समस्या हल की जा सकती है
    • लेकिन यह अभी अज्ञात है कि क्या ऐसे बदलाव efficient model training के साथ संगत होंगे
  • अपूर्ण training data मापने लायक नहीं है

    • अपूर्ण data होना learning का स्वभाव है
    • अगर पूर्ण data होता, तो machine learning की ज़रूरत ही नहीं होती; input को output से map करने वाला एक function बना देना काफ़ी होता
    • machine learning भविष्यवाणी के आधार पर खाली जगहों को भरना है
    • यही बात इंसानी बुद्धि और learning पर भी लागू होती है
    • LLM हमेशा hallucination करेंगे, लेकिन इंसान भी हमेशा hallucination करते हैं
    • असली समस्या यह है कि LLM को इंसानों की तरह hallucination करने लायक कैसे बनाया जाए
  • LLM, 'expert system' जैसे हो जाएँगे

    • सलाह दी गई है कि खुद को केवल AI expert के रूप में सीमित न करें
  • LLM के साथ प्रभावी ढंग से काम करने के लिए ऐसी तकनीक का उपयोग करने की क्षमता चाहिए जो स्वभाव से अविश्वसनीय और non-deterministic है

    • बहुत से लोगों के लिए इस बाधा को पार करना मुश्किल है
  • अब bubble के फूटने का समय आ गया है

  • हमें LLM को "स्वीकार" करने की ज़रूरत नहीं है

    • हम उनका उपयोग न करें, उन्हें नज़रअंदाज़ करें, या उनके प्रसार और स्वीकार्यता का विरोध करें
  • यह paper खराब तरीके से लिखा गया है, और इस बात पर विश्वास कम है कि कोई अर्थपूर्ण mathematical theory विकसित की गई है

    • उदाहरण: पहले 10 पेज निरर्थक हैं