5 पॉइंट द्वारा GN⁺ 2024-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल्स की मूलभूत सीमाएँ: hallucination अपरिहार्य है

  • बड़े भाषा मॉडल्स (LLMs) में hallucination की समस्या एक व्यापक रूप से ज्ञात गंभीर कमी है।
  • कई शोधों ने hallucination की मात्रा कम करने की कोशिश की है, लेकिन अधिकांश तरीके केवल अनुभवजन्य हैं, इसलिए वे इस मूलभूत प्रश्न का उत्तर नहीं दे पाते कि क्या hallucination को पूरी तरह समाप्त किया जा सकता है।
  • इस शोधपत्र में समस्या को औपचारिक रूप दिया गया है और दिखाया गया है कि LLMs में hallucination को समाप्त करना असंभव है।

औपचारिक दुनिया में hallucination की परिभाषा

  • एक ऐसी औपचारिक दुनिया परिभाषित की गई है, जहाँ hallucination को किसी computable LLM और किसी computable ground-truth function के बीच असंगति के रूप में परिभाषित किया जाता है।
  • learning theory से प्राप्त परिणामों का उपयोग करके यह दिखाया गया है कि LLMs सभी computable functions को नहीं सीख सकते, और इसलिए वे हमेशा hallucination का अनुभव करेंगे।

वास्तविक दुनिया में hallucination की अनिवार्यता

  • चूँकि औपचारिक दुनिया, कहीं अधिक जटिल वास्तविक दुनिया का केवल एक हिस्सा है, इसलिए वास्तविक दुनिया के LLMs में भी hallucination अपरिहार्य है।
  • उन वास्तविक दुनिया के LLMs के लिए, जो provable time complexity से सीमित हैं, ऐसे कार्यों का वर्णन किया गया है जिनमें hallucination होने की संभावना अधिक है, और इसे अनुभवजन्य रूप से सत्यापित किया गया है।

hallucination mitigation mechanisms और व्यावहारिक निहितार्थ

  • औपचारिक दुनिया के framework का उपयोग करके मौजूदा hallucination mitigation mechanisms की संभावनाओं और प्रभावशीलता पर चर्चा की गई है।
  • LLMs की सुरक्षित deployment के लिए व्यावहारिक निहितार्थों पर भी चर्चा की गई है।

GN⁺ की राय

  • यह शोध बड़े भाषा मॉडल्स की एक केंद्रीय समस्या, यानी 'hallucination', के बारे में मूलभूत समझ प्रदान करता है।
  • hallucination के अपरिहार्य होने का यह सैद्धांतिक प्रमाण LLMs के डिज़ाइन और सुधार के लिए नई दिशा सुझा सकता है।
  • यह सुरक्षित और भरोसेमंद AI systems के निर्माण पर होने वाली चर्चा में महत्वपूर्ण योगदान दे सकता है, और तकनीकी प्रगति के लिए एक महत्वपूर्ण मील का पत्थर बन सकता है।

1 टिप्पणियां

 
GN⁺ 2024-02-26
Hacker News टिप्पणियाँ
  • पहली टिप्पणी का सार:

    • इस पेपर का मुख्य दावा यह है कि क्योंकि P ≠ NP, इसलिए LLM (large language model) NP-complete समस्याओं के लिए काल्पनिक उत्तर बना देंगे.
    • यह गणित, कंप्यूटर साइंस और भाषा से जुड़े दिलचस्प दार्शनिक सवाल उठाता है, लेकिन यह सामान्य 'LLM hallucination' अवधारणा से अलग एक औपचारिक अवधारणा का उपयोग करता है.
    • यह दावा भी रोचक है कि औपचारिक दुनिया, प्राकृतिक भाषा की दुनिया का एक उपसमुच्चय है. इंसान NP-complete समस्याएँ हल नहीं कर पाते, लेकिन प्राकृतिक भाषा में उच्च दक्षता दिखाते हैं.
  • दूसरी टिप्पणी का सार:

    • मैंने सिर्फ abstract पढ़ा है, लेकिन इस बात को लेकर संदेह है कि यह औपचारिक दृष्टिकोण उस व्यावहारिक समस्या में मदद करेगा या नहीं, जिसमें LLM के 'मुझे नहीं पता' कहने की आवृत्ति बढ़ जाती है.
    • यह incompleteness theorem जैसा लगता है; LLM को सब कुछ जानना ज़रूरी नहीं, लेकिन 'मुझे नहीं पता' कहना एक महत्वपूर्ण समस्या है.
  • तीसरी टिप्पणी का सार:

    • LLM से काल्पनिक बातें न बनवाने के लिए सवाल बहुत सावधानी से पूछने चाहिए.
    • ऐसा AI एक 'yes-man' की तरह है, जो सच-झूठ की परवाह किए बिना आपको खुश करने की कोशिश करता है.
    • ऐसे लोगों के साथ काम करना बहुत कठिन होता है. वे वादा किया गया प्रोजेक्ट ठीक से करेंगे या वह संभव भी है, यह हमेशा जाँचना पड़ता है.
  • चौथी टिप्पणी का सार:

    • उपन्यास और कहानियाँ लिखना hallucination का एक रूप है.
    • AI ने दो चरम हासिल कर लिए हैं: एक तार्किक मशीन और दूसरी hallucination पैदा करने वाली मशीन.
    • लक्ष्य ऐसी मशीन बनाना है जो दोनों काम एक साथ कर सके और उनमें फर्क कर सके.
    • hallucination महत्वपूर्ण है, लेकिन असली बात यह है कि कंप्यूटर को यह पता हो कि वह hallucination की स्थिति में है.
  • पाँचवीं टिप्पणी का सार:

    • अगर creativity अच्छी है, तो उसे 'creativity' कहते हैं; अगर खराब है, तो उसे 'hallucination' कहते हैं.
    • यह bug या limitation नहीं, बल्कि एक feature है.
  • छठी टिप्पणी का सार:

    • 'hallucination' शब्द का मतलब ऐसी चीज़ों को महसूस करना है जो वास्तविकता में मौजूद नहीं हैं, इसलिए यह उस घटना का वर्णन करने के लिए उपयुक्त शब्द नहीं है जिसमें ऐसे वाक्यांश बनते हैं जो वास्तविकता से ठीक तरह मेल नहीं खाते.
  • सातवीं टिप्पणी का सार:

    • AI को लेकर जो अतिशयोक्ति थी, वह अब 'यथार्थवादी चरण' में प्रवेश कर रही है.
    • हाल में alignment problem पर कोई अत्यधिक उत्साही पोस्ट नहीं दिखी.
  • आठवीं टिप्पणी का सार:

    • LLM को strings के probability model के रूप में परिभाषित किया जाता है, और यह इतनी व्यापक परिभाषा है कि इसमें मानव बुद्धि भी शामिल हो सकती है.
    • इसलिए उनकी खोजें इंसानों पर भी समान रूप से लागू हो सकती हैं.
  • नौवीं टिप्पणी का सार:

    • hallucination को एक computable LLM और एक computable ground-truth function के बीच असंगति के रूप में परिभाषित किया गया है.
    • यानी यह बस गलत होना या मनगढ़ंत होना है.
    • 'hallucination' शब्द इस विचार को बढ़ावा देता है कि ये प्रोग्राम बुद्धिमान हैं.
  • दसवीं टिप्पणी का सार:

    • hallucination को एक computable LLM और एक computable ground-truth function के बीच असंगति के रूप में परिभाषित किया गया है.
    • इस परिभाषा का उपयोग करें तो 'hallucination अपरिहार्य है' जैसे शीर्षक वाले वाक्य को आसानी से गलत सिद्ध किया जा सकता है.
    • input context length को एक byte पर स्थिर कर दें, और LLM को इस तरह train करें कि वह सिर्फ 'A' के लिए 'हाँ' जवाब दे.
    • ground-truth function को इस तरह परिभाषित करें कि 'A' input के लिए सही output 'हाँ' हो और बाकी सभी inputs के लिए सही output 'नहीं' हो.
    • इस LLM के लिए हर संभव input पर output का ground-truth function से मेल खाना पूरी तरह सत्यापित किया जा चुका है, इसलिए यह कभी hallucinate नहीं करता.
    • input context size और ground-truth table में entries की संख्या बढ़ाना संभव है, और किसी भी चरण में hallucination 'अपरिहार्य' नहीं हो जाती.