MIT शोधकर्ताओं ने बड़े भाषा मॉडलों की ज्ञान खोज तकनीक का प्रदर्शन किया
- यह पाया गया कि बड़े भाषा मॉडल उपयोगकर्ता के प्रॉम्प्ट का उत्तर देते समय संग्रहीत ज्ञान को खोजने के लिए एक सरल मेकैनिज़्म का उपयोग करते हैं.
- शोधकर्ताओं ने दिखाया कि इस सरल मेकैनिज़्म का उपयोग करके यह समझा जा सकता है कि मॉडल विभिन्न विषयों के बारे में क्या जानता है, और गलत तरीके से संग्रहीत जानकारी को सुधारा जा सकता है.
बड़े भाषा मॉडलों की जटिलता
- बड़े भाषा मॉडल customer support, code generation, language translation जैसे विभिन्न क्षेत्रों में उपयोग हो रहे हैं, लेकिन वे कैसे काम करते हैं यह अब तक पूरी तरह समझा नहीं गया है.
- MIT और अन्य संस्थानों के शोधकर्ताओं ने यह अध्ययन किया कि ये विशाल machine learning मॉडल संग्रहीत ज्ञान को किस मेकैनिज़्म से खोजते हैं.
ज्ञान खोजने का सरल मेकैनिज़्म
- शोध में पाया गया कि बड़े भाषा मॉडल अक्सर संग्रहीत तथ्यों को पुनर्प्राप्त और डिकोड करने के लिए सरल linear function का उपयोग करते हैं.
- मॉडल समान प्रकार के तथ्यों के लिए एक ही decoding function का उपयोग करते हैं.
- linear function वह समीकरण है जो दो चर के बीच सीधा संबंध दर्शाता है.
मॉडल क्या जानता है, इसकी पड़ताल
- शोधकर्ताओं ने विभिन्न तथ्यों के लिए linear function की पहचान करके यह जांचा कि मॉडल नए विषयों के बारे में क्या जानता है, और वह ज्ञान मॉडल के भीतर कहाँ संग्रहीत है.
- विकसित तकनीक का उपयोग करके अनुमानित सरल functions के माध्यम से उन्होंने पाया कि मॉडल गलत उत्तर देने पर भी अक्सर सही जानकारी अपने भीतर संग्रहीत रखता है.
मॉडल के ज्ञान का विज़ुअलाइज़ेशन
- शोधकर्ताओं ने functions का उपयोग करके यह निर्धारित किया कि मॉडल अलग-अलग विषयों के बारे में वास्तव में क्या सच मानता है.
- उदाहरण के लिए,
Bill Bradley was a प्रॉम्प्ट से शुरुआत कर plays sports और attended university के decoding functions का उपयोग करके उन्होंने जांचा कि क्या मॉडल जानता है कि Sen. Bradley एक basketball player थे और Princeton University से पढ़े थे.
- इस खोज तकनीक का उपयोग करके उन्होंने एक grid बनाया, जिसे 'attribute lens' कहा जाता है, ताकि यह देखा जा सके कि किसी विशेष संबंध की जानकारी transformer की कई layers में कहाँ संग्रहीत है.
GN⁺ की राय
- यह शोध इस समझ को एक कदम आगे बढ़ाता है कि बड़े भाषा मॉडल तथ्यात्मक ज्ञान को कैसे संग्रहीत और पुनर्प्राप्त करते हैं.
- यह संभावना दिखती है कि इन निष्कर्षों का उपयोग करके ज्ञान को सुधारा जा सकता है और AI chatbot की गलतियों को रोका जा सकता है, जिससे मॉडल के गलत जानकारी देने की प्रवृत्ति कम हो.
- यदि इस तकनीक को लागू किया जाता है, तो यह AI की विश्वसनीयता बढ़ाने और user experience को बेहतर बनाने में योगदान दे सकती है.
- हालांकि, चूँकि सभी तथ्य linear रूप से encoded नहीं होते, इसलिए यह जानने के लिए आगे और शोध की आवश्यकता है कि क्या यह तकनीक हर प्रकार के ज्ञान पुनर्प्राप्ति पर लागू हो सकती है.
- समान कार्यक्षमता देने वाले open source प्रोजेक्ट्स में Google का BERT और OpenAI की GPT series शामिल हैं, जो बड़े भाषा मॉडलों की कार्यप्रणाली को समझने में भी योगदान दे रहे हैं.
- नई तकनीक अपनाते समय मॉडल की जटिलता और interpretability के बीच संतुलन पर विचार करना चाहिए, और इस तकनीक को चुनने का संभावित लाभ मॉडल की accuracy और reliability में सुधार हो सकता है.
1 टिप्पणियां
Hacker News राय
यह उल्लेखनीय काम AI क्षेत्र की कुछ सबसे बड़ी मौजूदा समस्याओं को उजागर करता है
भाषा की संरचना Word2Vec को संभव बनाती है
यह समझने में मदद मिलती है कि facts का linear function के रूप में store होना क्या दर्शाता है
programming knowledge को encode करने में उपयोग होने वाले functions के प्रकार को लेकर जिज्ञासा
Word2Vec में relation vectors की भूमिका जैसी समानता दिखाई देती है
LLM एक अच्छा compression mechanism लगता है
"King - Man + Woman = Queen" embedding उदाहरण की याद दिलाता है
यह समझना कठिन है कि 7 billion "parameters" वाला "CSV file/database/model" लगभग हर विषय पर ज्ञानसम्पन्न interactive LLM/GPT कैसे प्रदान करता है
यह paper शानदार है, और यह अच्छा लगा कि इन विचारों की पुष्टि के लिए experiments किए गए
information वाले हिस्से को reasoning वाले हिस्से से अलग किया जा सकने की संभावना