LLMs Will Always Hallucinate, and We Need to Live With This
परिचय
- बड़े भाषा मॉडल (LLM) के विभिन्न क्षेत्रों में व्यापक उपयोग के साथ, उनकी अंतर्निहित सीमाओं की आलोचनात्मक समीक्षा करना महत्वपूर्ण है
- यह शोध तर्क देता है कि language model hallucination सिर्फ एक साधारण त्रुटि नहीं, बल्कि इन प्रणालियों की एक अनिवार्य विशेषता है
hallucination का स्वभाव
- hallucination, LLM की मूलभूत गणितीय और तार्किक संरचना से उत्पन्न होता है
- architecture improvements, dataset enhancements, और fact-checking mechanisms के माध्यम से इसे समाप्त करना असंभव है
- computation theory और Gödel के first incompleteness theorem के आधार पर, halting problem, blanking problem, और acceptance problem जैसी समस्याओं की undecidability का संदर्भ दिया गया है
LLM प्रक्रिया के हर चरण में hallucination
- training data collection, fact retrieval, intent classification, और text generation के हर चरण में hallucination होने की संभावना रहती है
- structural hallucination की अवधारणा पेश की गई है, ताकि इसे इन प्रणालियों की अंतर्निहित विशेषता के रूप में स्थापित किया जा सके
निष्कर्ष
- hallucination की गणितीय निश्चितता स्थापित करके, यह अध्ययन उस मौजूदा धारणा को चुनौती देता है कि इसे पूरी तरह कम किया जा सकता है
GN⁺ का सारांश
- यह शोध गणितीय रूप से साबित करता है कि LLM hallucination अनिवार्य है, इसलिए इसे पूरी तरह समाप्त नहीं किया जा सकता
- computation theory और Gödel के incompleteness theorem के माध्यम से hallucination के स्वभाव को समझाया गया है
- यह दिखाया गया है कि LLM के हर चरण में hallucination हो सकता है
- यह शोध संकेत देता है कि LLM की सीमाओं को समझना और उन्हें स्वीकार करना महत्वपूर्ण है
1 टिप्पणियां
Hacker News राय
गणितीय निश्चितता के माध्यम से hallucination को साबित करके, इस मौजूदा धारणा को चुनौती दी गई है कि hallucination को पूरी तरह हल किया जा सकता है
hallucination सवाल के पहले संभावित जवाब को कह देने का परिणाम है
मौजूदा architecture में मूल रूप से "hallucination" अंतर्निहित है, जो इसके व्यावहारिक उपयोग को सीमित करता है
LLM की hallucination इस बात से जुड़ी है कि ज्ञान को किस तरह व्यक्त किया जाता है
अपूर्ण training data मापने लायक नहीं है
LLM, 'expert system' जैसे हो जाएँगे
LLM के साथ प्रभावी ढंग से काम करने के लिए ऐसी तकनीक का उपयोग करने की क्षमता चाहिए जो स्वभाव से अविश्वसनीय और non-deterministic है
अब bubble के फूटने का समय आ गया है
हमें LLM को "स्वीकार" करने की ज़रूरत नहीं है
यह paper खराब तरीके से लिखा गया है, और इस बात पर विश्वास कम है कि कोई अर्थपूर्ण mathematical theory विकसित की गई है