LLM में कभी न खत्म होने वाली hallucination: वह वास्तविकता जिसे हमें स्वीकार करना होगा

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-09-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM hallucination कुछ स्थितियों की गलती नहीं, बल्कि सिस्टम की मूलभूत विशेषता है; इसलिए उपयोग का दायरा जितना बढ़ेगा, इस सीमा को आधार मानकर निर्णय लेना उतना ही ज़रूरी होगा
hallucination गणितीय और तार्किक संरचना से पैदा होती है, इसलिए architecture, dataset और fact-checking में सुधार भर से इसे पूरी तरह हटाना मुश्किल है
यह विश्लेषण computation theory और Gödel के प्रथम incompleteness theorem पर आधारित है, और Halting Problem, Emptiness Problem, Acceptance Problem जैसी undecidable problems का संदर्भ देता है
training data composition, fact retrieval, intent classification और text generation जैसे हर चरण में hallucination पैदा करने की non-zero probability बची रहती है
“Structural Hallucinations” hallucination को LLM के भीतर निहित structural property मानता है, और इस आम धारणा को चुनौती देता है कि इसे पूरी तरह mitigate किया जा सकता है

LLM hallucination की structural सीमा

LLM जितने अधिक domains में व्यापक रूप से इस्तेमाल होते हैं, model की अंतर्निहित सीमाओं की आलोचनात्मक समीक्षा उतनी ही ज़रूरी हो जाती है
hallucination कोई आकस्मिक error नहीं, बल्कि LLM systems की लगभग अपरिहार्य विशेषता है
इस दृष्टिकोण के अनुसार, बेहतर models, बड़े datasets और external verification tools भर से hallucination को हटाया नहीं जा सकता

इसे पूरी तरह हटाना मुश्किल क्यों है

hallucination LLM की गणितीय और तार्किक संरचना से उत्पन्न होती है
architecture improvements, dataset improvements और fact-checking mechanisms भर से hallucination को पूरी तरह खत्म करना कठिन है
यह विश्लेषण computation theory और Gödel के प्रथम incompleteness theorem का उपयोग करता है
- संबंधित undecidable problems के रूप में Halting Problem, Emptiness Problem और Acceptance Problem प्रस्तुत किए गए हैं

हर processing चरण में बची रहने वाली hallucination की संभावना

LLM process के हर चरण में hallucination उत्पन्न करने की non-zero probability होती है
- training data composition
- fact retrieval
- intent classification
- text generation
किसी एक खास चरण को सुधार देने से भी पूरे system में hallucination की संभावना समाप्त नहीं होती

Structural Hallucinations

“Structural Hallucinations” hallucination को LLM system की अंतर्निहित property के रूप में देखने वाला concept है
यह hallucination की गणितीय अनिवार्यता पर जोर देता है और इस मौजूदा धारणा से टकराता है कि hallucination को पूरी तरह mitigate किया जा सकता है
व्यावहारिक रूप से, LLM hallucination को पूरी तरह हटाने योग्य चीज़ नहीं, बल्कि हमेशा मौजूद रहने वाली constraint के रूप में संभालना चाहिए

1 टिप्पणियां

GN⁺ 2024-09-16

Hacker News की राय

अगर “probabilistic text generation के दौरान झूठी जानकारी बना देना” की अवधारणा को hallucination नाम न दिया गया होता, तो शायद गलतफहमी से बचा जा सकता था
यह शब्द ऐसा लगता है जैसे मॉडल के सामान्य कामकाज में कुछ गड़बड़ हो गई हो, जबकि असल में मॉडल का सामान्य काम ही plausible text बनाना है
“hallucination” मॉडल की खराबी नहीं, बल्कि आउटपुट text पर लगाया गया हमारा value judgment है, और इसका मतलब सिर्फ इतना है कि वह text उद्देश्य के हिसाब से सही नहीं है
इस नज़रिए से hallucination mitigation और alignment असल में लगभग एक ही समस्या हैं, इसलिए उनमें से सिर्फ एक को अलग से हल करना कठिन है
- सही. यह बाद में लगाया गया value judgment है, कोई सटीक शब्द नहीं
  “hallucination” शब्द के शाब्दिक अर्थ से देखें तो मॉडल हमेशा hallucinate करता है; बस जब वह संयोग से वस्तुनिष्ठ रूप से सही सामग्री बना देता है, तो हम उसे hallucination नहीं कहते
  अगर paper ने इस definition वाली समस्या को उपयोगी ढंग से व्यवस्थित किया है, तो यह अच्छा योगदान हो सकता है
- पता नहीं यह term पहली बार कैसे इस्तेमाल हुई, लेकिन इसकी अस्पष्टता उल्टे LLM की क्षमता को बढ़ा-चढ़ाकर दिखाने वालों के लिए फायदेमंद लगती है
  यह समस्या को तकनीक की मूलभूत सीमा के बजाय अस्थायी “bug” जैसा दिखाती है, जिससे investors और buyers के सामने इसकी असली प्रकृति धुंधली हो सकती है
- अगर इस phenomenon को बस makin' stuff up कहा गया होता, तो माहौल बहुत अलग होता
  इंसान भी हमेशा बातें गढ़ते हैं, और AI से कहीं ज्यादा बेतुकी चीजें भी गढ़ते हैं, इसलिए यह भी पूछना चाहिए कि क्या इंसान वाकई intelligent हैं /पूरी तरह मजाक नहीं
- confabulation शब्द कुछ बार देखा है; मुझे लगता है यह LLM में होने वाली चीज को बेहतर दर्शाता है
- पूरी AI/machine learning field anthropomorphism पर भरोसा करके terms बनाती है, और फिर वही terms narrative से और मजबूत हो जाते हैं
मुझे लगता है hallucination कुछ वैसा है जैसे सवाल पूछे जाने पर दिमाग में आया पहला possible answer सीधे बोल देना
इंसान आम तौर पर ऐसा नहीं करते. पहले जवाब दिए सवालों में की गई गलतियों की याद रहती है, और बोलने से पहले वे दूसरे ज्ञान से मिलाकर अंदर ही अंदर common-sense check करते हैं
इसलिए LLM से तुरंत सही जवाब बनाने की उम्मीद करने के बजाय उसे reflect करने की जगह देनी चाहिए
इंसानी सोच में भी कई roles और personas आंतरिक discussion और compromise के बाद जवाब निकालते हैं, और शुरुआती “draft” बनने के बाद ही उस जवाब को बोलने के परिणाम जैसे अतिरिक्त context की कल्पना की जा सकती है
इसलिए prompt पर LLM की पहली “gut reaction” से ही उसकी intelligence को आंकना गलत approach हो सकता है
- इंसान से कोई ऐसी चीज पूछें जो उसे नहीं पता, तो पहला विचार गढ़ा हुआ जवाब नहीं बल्कि मुझे नहीं पता होता है
  कहानी गढ़ने के लिए उल्टा मेहनत चाहिए, और training के बिना अधिकतर लोग इसमें अच्छे नहीं होते. कुछ लोग स्वाभाविक रूप से ऐसा करते हैं, लेकिन आम तौर पर इसे disorder माना जाता है
  LLM में “मुझे नहीं पता” की concept नहीं है; वह बस training data से सबसे ज्यादा मेल खाने वाली चीज लिखता है. training data में “मुझे नहीं पता” बहुत ज्यादा नहीं है, इसलिए यह natural answer भी नहीं है
  मैंने एक छोटे शहर के bars की list पूछी, तो इसने नाम, पते और phone numbers तक सब plausible तरीके से गढ़ दिए. अगर उस शहर को ठीक से न जानने वाले आम इंसान को “मुझे नहीं पता” कहे बिना plausible जवाब देने के लिए मजबूर किया जाए, तो आखिरकार वह जवाब बना सकता है, लेकिन वह उसका पहला विचार बिल्कुल नहीं होगा
- LLM की तुलना इंसानी mind से करने की कोई वजह नहीं है, और ऐसी तुलना मुझे हर चीज का anthropomorphism करने की खराब आदत जैसी लगती है
  LLM में intuition नहीं होती और वह time भी experience नहीं करता. यह परीक्षा का समय खत्म होने पर कोई भी जवाब टिक करने वाला घबराया बच्चा नहीं है; यह कंप्यूटर से सही जवाब निकलवाने की आधी सदी से ज्यादा पुरानी परंपरा छोड़कर vibes के पीछे भागने वाले software development का product है
- आंकने के लिए कोई intelligence है ही नहीं. यह intelligent नहीं है, और इसके अंदर logic या deliberation भी नहीं है
- शायद आपने मुझसे कभी कुछ पूछा नहीं है. खासकर coffee पीते हुए technical सवाल पूछे जाएं, तो हर गलत जवाब पर सिर्फ 1 cent भी मिलता तो मैं अब तक millionaire होता
- इंसानी brain शायद thoughts को observed reality से किसी तरह बांधता है
  senses और reasoning संभालने वाले हिस्से memory संभालने वाले हिस्सों से interact करते हैं, और अलग-अलग memory types trade-off संभालती हैं. जो memory समझ में आती है वह कभी-कभार देखी चीज से ज्यादा मजबूत भी हो सकती है
  LLM ऐसा नहीं करते दिखते, और design के हिसाब से hallucination mitigation में brain से कमजोर हैं
  brain में hallucination वाले लोगों में जो हिस्से abnormal दिखते हैं और उनके working models को देखकर यह जांचना brain-inspired research की दिशा हो सकती है कि उन्हें LLM पर लागू किया जा सकता है या नहीं
  hippocampus जैसी structures के models को neural networks में लागू करने का idea भी कई researchers पहले से कर रहे हैं
मुझे लगता है मौजूदा architecture मूल रूप से hallucination से भरा है, इसलिए practical use, खासकर exaggerated expectations जिन उपयोगों की बात करती हैं, उन्हें बहुत सीमित कर देगा
हालांकि यह लेख “hallucinate नहीं करता” की कसौटी को असंभव रूप से ऊंचा रखता है
formal systems और mechanical computation की जानी-मानी fundamental limits को फिर से बताकर, फिर यह obvious conclusion देता है कि LLM भी वही limits share करते हैं
dualism या speculative quantum hypercomputation जैसी चीजें न लाएं, तो ये limits इंसानों पर भी काफी हद तक लागू होती हैं
- उल्टा, hallucination हटा दिया गया LLM लगभग copy-paste device बन जाएगा
  LLM की interesting property इसी से आती है कि वह कुछ गढ़ते हुए भी उसे plausible बना सकता है
- C.S. Peirce abductive reasoning को characterize करने वाले व्यक्ति थे और John Sowa के classic AI काम पर भी उनका काफी प्रभाव था; उनका perspective रोचक था
  वे मानते थे कि matter और mind दोनों real हैं, लेकिन dualistic नहीं; दोनों के बीच smooth, continuous transition है
  हालांकि mind और matter की प्रकृति जो भी हो, इस बात के convincing evidence हैं कि इंसान symbols में meaning उस process के जरिए बनाते हैं जिसे Peirce ने semiosis कहा
  हमारे पास इसे ठीक से formalize करने वाली semiotics अभी नहीं है, और इस क्षेत्र में दिलचस्प mathematical applied philosophy भी बहुत है, मगर academic nonsense भी बहुत है
  जब तक हम यह नहीं कर लेते, semiosis करने वाली automata बनाना मुश्किल है, और फिलहाल इंसानों और LLM capabilities के बीच qualitative difference बना रहेगा
- सच कहूं तो प्रभावित करने वाली बात यह है कि यह कितना खराब करता है
  मैं नहीं कह सकता कि मैंने हर model इस्तेमाल किया है, लेकिन अधिकतर “तीन entities के interaction की process समझाओ” जैसी requests पर बहुत जल्दी fail हो जाते हैं
  दो तक तो आम तौर पर handle कर लेते हैं, लेकिन आखिर में वही बात घुमाने लगते हैं या कई models पूरे paragraphs repeat करने लगते हैं, और तीन तो पूरी तरह भारी पड़ता दिखता है
  LLM शायद उन क्षेत्रों में भूमिका निभा सकते हैं जहां “अधिकतर गलत होगा, लेकिन verification सस्ता है, इसलिए अगर कोई अच्छा idea मिल जाए तो उसे निकालने के लिए पैसा जलाया जा सकता है”
अधूरे training data को मापना ज़्यादा मायने रखता नहीं दिखता
शुरुआत में ही, क्या learning का मतलब अधूरे data से निपटना नहीं है? अगर data पूरा हो, तो machine learning की ज़रूरत नहीं, input को output से map करने वाला function बस बना देना काफ़ी होगा
Machine learning prediction के ज़रिए gaps भरने का काम है, और सामान्य learning भी वैसी ही है
इसलिए यह theory जिस चीज़ को निशाना बनाती है, वह human intelligence और learning पर भी लागू होती है
कहा जा सकता है कि LLM हमेशा hallucinate करते हैं, लेकिन इंसान भी हमेशा hallucinate करते हैं
असली समस्या यह है कि LLM को इंसानों की तरह hallucinate कैसे कराया जाए
- “Machine learning prediction से gaps भरना है” वाली व्याख्या network-based machine learning के प्रति कुछ उदार लगती है
  Machine learning problems हल करने के लिए design की गई थी, और यह classical AI से अलग थी क्योंकि बहुत सारे data से function निकाला जा सकता था, बजाय इसके कि algorithm सीधे बनाया जाए
  लेकिन आज की machine-learning वाली “intelligence” human thinking से अलग है। इंसान को बिल्ली समझने के लिए लाखों examples की ज़रूरत नहीं होती; दो-तीन देखकर भी वह बाद में लगातार पहचान सकता है
  सिर्फ़ एक काली बिल्ली देखकर भी दूसरी घरेलू बिल्लियों को सही तरह बिल्ली के रूप में पहचान सकता है, और बच्चों को देखकर पता चलता है कि सच में ऐसा होता है
  Intelligence बिना prior knowledge के solution सोच पाने की क्षमता है, और जितना ज़्यादा intelligent कोई entity होती है, उतना कम data चाहिए होता है। जैसे-जैसे हम अधिक intelligent system के करीब जाते हैं, असर दिखाने के लिए data ज़्यादा नहीं बल्कि कम होना चाहिए
- सही है, लेकिन इस पर बहुत फर्क पड़ता है कि model से interpolation मांगी जा रही है या extrapolation
  आम तौर पर model पहले में कहीं बेहतर होते हैं, और दूसरे में बड़ी समस्याओं से जूझते हैं
LLM जिस तरह अभी hallucinate करते हैं, वह knowledge को represent करने के तरीके से गहराई से जुड़ा लगता है
Cost function देखें तो उसे log likelihood कहने की वजह है। असली लक्ष्य reality के मजबूत model की concepts के साथ consistent answer देना नहीं, बल्कि सबसे abstract अर्थ में plausible token sequence बनाना है
जब model hallucinate करता है, तब भी वह काफी हद तक वही काम कर रहा होता है जिसके लिए हमने उसे train किया: high-probability text बनाने की कोशिश में grammar और simple word choice जैसे training data के ज़्यादा general patterns की तरफ़ implicit रूप से लौटना
कल्पना की जा सकती है कि उचित architecture change से hallucination की समस्या पूरी तरह या लगभग पूरी तरह हल हो सकती है
हालांकि ऐसा change करते हुए भी क्या efficiently trainable model बनाया जा सकता है, यह अभी खुला सवाल लगता है
- अगर कोई ऐसा architecture change खोज लेता है, तो उसका परिणाम अब LLM नहीं कहलाएगा और paper भी सही साबित होगा
- समस्या को पूरी तरह हल नहीं किया जा सकता। क्योंकि mathematically यह undecidable है, और सच कहें तो इस preprint के बिना भी intuition से समझा जा सकता था
  फिर भी बेहतर सवाल यह है कि क्या पर्याप्त अच्छी performance हासिल की जा सकती है
LLM को प्रभावी ढंग से इस्तेमाल करने के लिए मूल रूप से अविश्वसनीय और nondeterministic technology का इस्तेमाल करना सीखना होगा
लगता है बहुत से लोग इस barrier को लगभग पार नहीं कर पाते
- ईमानदारी और accuracy trust बनाते हैं
  जब आप किसी चीज़ पर भरोसा करते हैं, तो वह मुझे किस तरह धोखा दे सकती है और कैसे respond करना चाहिए—इसका mental model बनाने की ज़रूरत कम हो जाती है, जिससे cognitive load घटता है
  इसलिए कम-से-कम मेरे लिए LLM उपयोगी है, लेकिन काफी stressful भी
- LLM मूल रूप से nondeterministic नहीं हैं। उदाहरण के लिए greedy sampling generation बहुत simple है
शायद अब bubble फूटने का समय आ गया है
- उससे पहले हमें वह चीज़ हासिल करनी होगी जिसे हम “AGI” कहते हैं
  उससे भी पहले उसे define करना होगा, लेकिन realistically किसी को नहीं पता कि AGI क्या है। इसलिए वह कुछ भी हो सकता है
  Sam अगर GPT-3.5, ChatGPT, multimodal GPT-4, o1(Strawberry) के बाद भी यह नहीं मानता कि AGI हासिल हो गया है, तो लगता है AGI का मतलब आखिरकार अरबों लोगों की creativity और labor को capture करना, सैकड़ों अरब डॉलर जुटाना, और सबको UBI-based system पर चढ़ाते हुए insiders का अमीर होना है
  Hallucination AGI अभी हासिल नहीं हुआ है कहने का बहाना लगता है। ताकि ऐसे models के लिए training और inference energy costs पर और पैसा जुटाया जा सके जो hallucinate करते रहेंगे
  OpenAI जब सारी value capture कर लेगा और insiders cash out कर लेंगे, तभी वे ऐसा bubble burst चाहेंगे जिसमें 95% AI startups गायब हो जाएं। OpenAI अपवाद बना रहेगा
- LLM intelligence और stupidity दोनों को amplify करते हैं
  इसलिए Terence Tao LLM को सामान्य graduate student level के आसपास, और आगे बेहतर होता हुआ देखते हैं, लेकिन आप बस मरने का इंतज़ार कर रहे हैं
“इसके साथ जीने” की ज़रूरत नहीं है
बस इसे इस्तेमाल न करें, ignore करें, और इसके फैलाव व adoption का विरोध करें। मैं ऐसा ही करता रहूंगा
- Technically सही है। आखिर Donald Knuth भी अभी तक email इस्तेमाल नहीं करते
  लेकिन global स्तर पर “हम” लगभग निश्चित रूप से वह request नहीं मानेंगे
- यह “anti-progress” है। हमें हमेशा progress का पीछा करना चाहिए, भले ही वह हमें खुद बनाई हुई reality-collapse वाली नरक-द्वार तक ले जाए। मैं कहना चाहूंगा, अजीब दुनिया की ओर आगे बढ़ो
- मैं इस्तेमाल करना चाहता हूं, और बहुत से दूसरे लोग भी करते हैं। अगर पीछे रहना चाहते हैं, तो आपकी मर्ज़ी
LLM का रास्ता expert systems जैसा होगा
बाद में शायद हम हैरान होंगे कि हमने क्यों सोचा कि यह संभव है
सलाह दूंगा कि खुद को AI expert जैसी संकरी identity में कैद न करें। जल्द ही बाहर काफी ठंड होने वाली है
सहमत नहीं — https://arxiv.org/abs/2406.17642
संबंधित research में halting problem और computational intractability problems को cover किया गया है
जाहिर है LLM computationally intractable problem का जवाब नहीं दे सकते
Halting problem वाले सवाल पर “वह compute नहीं किया जा सकता” जवाब देने को hallucination क्यों कहा जाना चाहिए, यह भी समझ नहीं आता

LLM में कभी न खत्म होने वाली hallucination: वह वास्तविकता जिसे हमें स्वीकार करना होगा

LLM hallucination की structural सीमा

इसे पूरी तरह हटाना मुश्किल क्यों है

हर processing चरण में बची रहने वाली hallucination की संभावना

Structural Hallucinations

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय