2 पॉइंट द्वारा GN⁺ 2024-03-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

MIT शोधकर्ताओं ने बड़े भाषा मॉडलों की ज्ञान खोज तकनीक का प्रदर्शन किया

  • यह पाया गया कि बड़े भाषा मॉडल उपयोगकर्ता के प्रॉम्प्ट का उत्तर देते समय संग्रहीत ज्ञान को खोजने के लिए एक सरल मेकैनिज़्म का उपयोग करते हैं.
  • शोधकर्ताओं ने दिखाया कि इस सरल मेकैनिज़्म का उपयोग करके यह समझा जा सकता है कि मॉडल विभिन्न विषयों के बारे में क्या जानता है, और गलत तरीके से संग्रहीत जानकारी को सुधारा जा सकता है.

बड़े भाषा मॉडलों की जटिलता

  • बड़े भाषा मॉडल customer support, code generation, language translation जैसे विभिन्न क्षेत्रों में उपयोग हो रहे हैं, लेकिन वे कैसे काम करते हैं यह अब तक पूरी तरह समझा नहीं गया है.
  • MIT और अन्य संस्थानों के शोधकर्ताओं ने यह अध्ययन किया कि ये विशाल machine learning मॉडल संग्रहीत ज्ञान को किस मेकैनिज़्म से खोजते हैं.

ज्ञान खोजने का सरल मेकैनिज़्म

  • शोध में पाया गया कि बड़े भाषा मॉडल अक्सर संग्रहीत तथ्यों को पुनर्प्राप्त और डिकोड करने के लिए सरल linear function का उपयोग करते हैं.
  • मॉडल समान प्रकार के तथ्यों के लिए एक ही decoding function का उपयोग करते हैं.
  • linear function वह समीकरण है जो दो चर के बीच सीधा संबंध दर्शाता है.

मॉडल क्या जानता है, इसकी पड़ताल

  • शोधकर्ताओं ने विभिन्न तथ्यों के लिए linear function की पहचान करके यह जांचा कि मॉडल नए विषयों के बारे में क्या जानता है, और वह ज्ञान मॉडल के भीतर कहाँ संग्रहीत है.
  • विकसित तकनीक का उपयोग करके अनुमानित सरल functions के माध्यम से उन्होंने पाया कि मॉडल गलत उत्तर देने पर भी अक्सर सही जानकारी अपने भीतर संग्रहीत रखता है.

मॉडल के ज्ञान का विज़ुअलाइज़ेशन

  • शोधकर्ताओं ने functions का उपयोग करके यह निर्धारित किया कि मॉडल अलग-अलग विषयों के बारे में वास्तव में क्या सच मानता है.
  • उदाहरण के लिए, Bill Bradley was a प्रॉम्प्ट से शुरुआत कर plays sports और attended university के decoding functions का उपयोग करके उन्होंने जांचा कि क्या मॉडल जानता है कि Sen. Bradley एक basketball player थे और Princeton University से पढ़े थे.
  • इस खोज तकनीक का उपयोग करके उन्होंने एक grid बनाया, जिसे 'attribute lens' कहा जाता है, ताकि यह देखा जा सके कि किसी विशेष संबंध की जानकारी transformer की कई layers में कहाँ संग्रहीत है.

GN⁺ की राय

  • यह शोध इस समझ को एक कदम आगे बढ़ाता है कि बड़े भाषा मॉडल तथ्यात्मक ज्ञान को कैसे संग्रहीत और पुनर्प्राप्त करते हैं.
  • यह संभावना दिखती है कि इन निष्कर्षों का उपयोग करके ज्ञान को सुधारा जा सकता है और AI chatbot की गलतियों को रोका जा सकता है, जिससे मॉडल के गलत जानकारी देने की प्रवृत्ति कम हो.
  • यदि इस तकनीक को लागू किया जाता है, तो यह AI की विश्वसनीयता बढ़ाने और user experience को बेहतर बनाने में योगदान दे सकती है.
  • हालांकि, चूँकि सभी तथ्य linear रूप से encoded नहीं होते, इसलिए यह जानने के लिए आगे और शोध की आवश्यकता है कि क्या यह तकनीक हर प्रकार के ज्ञान पुनर्प्राप्ति पर लागू हो सकती है.
  • समान कार्यक्षमता देने वाले open source प्रोजेक्ट्स में Google का BERT और OpenAI की GPT series शामिल हैं, जो बड़े भाषा मॉडलों की कार्यप्रणाली को समझने में भी योगदान दे रहे हैं.
  • नई तकनीक अपनाते समय मॉडल की जटिलता और interpretability के बीच संतुलन पर विचार करना चाहिए, और इस तकनीक को चुनने का संभावित लाभ मॉडल की accuracy और reliability में सुधार हो सकता है.

1 टिप्पणियां

 
GN⁺ 2024-03-29
Hacker News राय
  • यह उल्लेखनीय काम AI क्षेत्र की कुछ सबसे बड़ी मौजूदा समस्याओं को उजागर करता है

    • हम वास्तव में ऐसे neurons या rule sets पर काम करने की कोशिश नहीं कर रहे हैं जो perceptron से बहुत अलग हों
    • यह आश्चर्यजनक नहीं है कि perceptron architecture, जो एक simple summation function है, मॉडल में बार-बार दिखाई देता है
    • यह सवाल उठता है कि क्या feedforward topology और single-neuron steps वास्तव में सबसे बेहतर हैं, सिर्फ इसलिए कि उन्हें train करना और graphics cards पर चलाना सबसे आसान है
    • ऐसे अनोखे training methods और encoding schemes मौजूद हैं जिनका उपयोग नहीं होता क्योंकि बड़े libraries उन्हें support नहीं करते
    • जब तक हम neural networks के बुनियादी rule set में वास्तविक बदलाव देखना शुरू नहीं करते, हम हमेशा perceptron के variants से जूझते रहेंगे
  • भाषा की संरचना Word2Vec को संभव बनाती है

    • Word2Vec + positional encoding के साथ encode किए गए terabytes मानव text पर training, अगले encoding की भविष्यवाणी को superhuman स्तर तक संभव बनाती है
    • bag-of-words (input/output method) और positional encoding को काम करने लायक बनाने के लिए सीमित context window, internal cognitive structure के साथ बड़ा mismatch पैदा करती है
    • GPT-4 आदि में बहुत अधिक computing power झोंकने से representation के नए रूप evolve हो सकते हैं, जिन्हें इंसानों को खोजने की जरूरत होगी
    • MemGPT, unlimited long-term memory की वजह से आखिरकार AGI बन सकता है, लेकिन ज़्यादा संभावना यह है कि वह 'Memento' के नायक जैसा होगा
  • यह समझने में मदद मिलती है कि facts का linear function के रूप में store होना क्या दर्शाता है

    • LLM facts को N-dimensional "fact space" में encode करता है, facts को उस space में points/hyperspheres/Voronoi manifolds आदि के रूप में embed करता है, और facts को recall करना वह प्रक्रिया है जिसमें neural network key की गणना/स्मरण करता है और इस space में key-value lookup करता है
    • सवाल यह है कि ऐसे KV-store को edge-propagation graphical models में कैसे embed किया जाए, और क्या इसके लिए कोई अच्छी तरह ज्ञात manual techniques मौजूद हैं
    • मानव मस्तिष्क के facts को linear functions में embed करके उन्हें आसानी से retrievable बनाने और "memory palace" mnemonic technique के बीच एक दिलचस्प संबंध
  • programming knowledge को encode करने में उपयोग होने वाले functions के प्रकार को लेकर जिज्ञासा

    • इस पर विचार कि क्या standard library या दूसरी libraries को महंगे training या performance घटाने वाले fine-tuning के बिना सीधे LLM के brain में upload किया जा सकता है
    • यह अभी भी science fiction जैसी क्षमता है, लेकिन लगता है कि हम इसके और करीब आ रहे हैं
  • Word2Vec में relation vectors की भूमिका जैसी समानता दिखाई देती है

    • "X का" vector जोड़ने पर अक्सर सही उत्तर मिल सकता है
    • हो सकता है कि transformers entities को embedding space में बेहतर तरीके से map कर रहे हों
  • LLM एक अच्छा compression mechanism लगता है

    • यह हैरान करने वाली बात है कि अगर PC पर Llama की एक local copy हो, तो मानो लगभग पूरे internet तक पहुंच मिल जाती है
  • "King - Man + Woman = Queen" embedding उदाहरण की याद दिलाता है

    • यह समझाता है कि simple linear functions प्रभावी रूप से क्यों काम करते हैं, क्योंकि embeddings में semantic properties शामिल होती हैं
  • यह समझना कठिन है कि 7 billion "parameters" वाला "CSV file/database/model" लगभग हर विषय पर ज्ञानसम्पन्न interactive LLM/GPT कैसे प्रदान करता है

    • 4-bit एक "compression method" है, और मॉडल आखिरकार f32 ही देखता है
    • quantization वह प्रक्रिया है जिसमें neural network के weights, यानी 32-bit floating-point numbers, को 4-bit values जैसे बहुत छोटे bit representations में map किया जाता है
    • dequantization मॉडल के उपयोग के समय होता है, जिसमें 4-bit quantized weights को उन floating-point numbers में बदला जाता है जिन पर मॉडल की गणनाएँ वास्तव में की जाती हैं
    • "parameters" और मॉडल द्वारा ज्ञात "unique tokens की संख्या (vocabulary size)" के बीच संबंध पर सवाल
    • LLAMa के पास GPT-3 की तुलना में 32,000 vocabulary size और 65B parameters हैं
    • 6.5 billion parameters एक जटिल mapping system की तरह काम करते हैं, जो training data के tokens के बीच सीखे गए संबंधों के आधार पर यह तय करता है कि दिए गए input पर कैसे प्रतिक्रिया देनी है
  • यह paper शानदार है, और यह अच्छा लगा कि इन विचारों की पुष्टि के लिए experiments किए गए

    • यह देखते हुए कि LLM स्वाभाविक रूप से शब्दों के बीच साधारण statistical tendencies सीखते हैं, विचार की नवीनता पर सवाल उठता है
    • इससे भी ज़्यादा शानदार यह है कि इसने साफ़ दिखाया कि LLM का हर व्यवहार इतनी सरलता से समझाया नहीं जा सकता
  • information वाले हिस्से को reasoning वाले हिस्से से अलग किया जा सकने की संभावना

    • अगर यह सच है, तो यह बेहद चौंकाने वाली खोज होगी