2 पॉइंट द्वारा GN⁺ 2024-02-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

परिचय

  • यह लेख इस बात की पड़ताल करता है कि छोटे language models अगला token कैसे predict करते हैं.
  • Transformer models के self-attention mechanism पर फोकस करने के बजाय, यह बताता है कि attention calculation के नतीजे कैसे सटीक अगले token prediction में बदलते हैं.
  • लेखक एक काम करने वाले छोटे transformer के ज़रिए उसकी internal state की जांच करता है और 6 महीने की गहरी पड़ताल से मिले उपयोगी नतीजे साझा करता है.

Transformer block संरचना

  • Transformer block, multi-head self-attention layer और feedforward network से मिलकर बना होता है.
  • Feedforward network का output वह प्रमुख तत्व है जो तय करता है कि block input को output में कैसे बदलता है.

प्रस्ताव: Transformer कैसे काम करता है

  • हर transformer block दिए गए prompt को training data में मौजूद string classes से जोड़ते हुए weights सीखता है.
  • इन string classes के बाद आने वाले tokens का distribution मोटे तौर पर उसी से मेल खाता है जिसे block अगले token के लिए prediction के रूप में output करता है.

कार्यान्वयन: feedforward network output का उपयोग करके transformer output का approximation

  • लेखक transformer के output का approximation करने के लिए feedforward network output का उपयोग करने की एक ठोस प्रक्रिया प्रस्तुत करता है.
  • यह प्रक्रिया model के माध्यम से prompt चलाने और हर block के लिए feedforward network output को store करने से शुरू होती है.
  • Training data में ऐसे strings खोजे जाते हैं जो समान feedforward network outputs पैदा करते हैं, और फिर उन strings के बाद आने वाले tokens का frequency distribution बनाया जाता है.
  • इन distributions को weights के साथ जोड़कर और normalize करके अंतिम probability distribution प्राप्त की जाती है.

GN⁺ की राय

  • यह अध्ययन transformer models की internal working पर गहरी समझ देता है. खास तौर पर self-attention के बाद की प्रक्रिया पर इसकी insight, transformer models के prediction mechanism को समझने में महत्वपूर्ण है.
  • लेखक का approach यह स्पष्ट रूप से समझाता है कि transformers training data के patterns को कैसे पहचानते हैं और उनके आधार पर अगला token कैसे predict करते हैं.
  • यह लेख transformer models पर शोध या विकास करने वालों के लिए उपयोगी सामग्री हो सकता है और AI language processing के क्षेत्र की समझ को और गहरा करने में योगदान देगा.

1 टिप्पणियां

 
GN⁺ 2024-02-05
Hacker News राय
  • नई घटना से चकित नहीं होना चाहिए। अगर आप पहले से स्थापित सिद्धांत नहीं पढ़ते, तो स्वाभाविक रूप से होने वाली घटनाओं को लेकर भ्रमित हो सकते हैं.

    • प्रयोग काफी ठोस लगता है, और विवरणों पर दिया गया ध्यान प्रभावशाली है.
    • मौजूदा सिद्धांत सीखने और सिद्धांत को शुरुआत से फिर से खोजने के बीच संतुलन महत्वपूर्ण है.
    • मॉडल का प्रशिक्षण डेटा के आधार पर log likelihood को अधिकतम करना स्वाभाविक परिणाम है.
    • बुनियादी बातों को समझना महत्वपूर्ण है, और Shannon की entropy theory जैसी चीजें अच्छी शुरुआत हो सकती हैं.
  • Google ने यह बताया था कि अगर ChatGPT से एक ही शब्द बार-बार दोहराने को कहा जाए, तो वह प्रशिक्षण डेटा को ज्यों का त्यों उगल देता है; इस पर सकारात्मक प्रतिक्रिया कि किसी ने इसे वास्तव में लागू भी किया.

    • इससे कुछ अतिरिक्त सवाल उठते हैं:
      1. क्या 'AI ke bina AI' तरीका मौजूदा model compression तरीकों की तुलना में अधिक energy-efficient है?
      2. क्या इस नतीजे को OpenAI और Stability AI के खिलाफ मुकदमों में सबूत के रूप में इस्तेमाल किया जा सकता है?
  • Attention और FF(Feed Forward) network के एक ही दिशा की ओर इशारा करने की घटना पर आश्चर्य व्यक्त किया गया.

    • FF network मनमाने rotation कर सकता है, फिर भी कई layers में उसके एक ही latent space में होने की उम्मीद नहीं थी.
  • Andrej Karpathy के NanoGPT tutorial का अनुसरण करके एक छोटा मॉडल train किया गया, तो वह कुछ हद तक जटिल रूसी grammar को समझता हुआ लगा.

    • मॉडल परफेक्ट नहीं है, लेकिन सिर्फ एक-तिहाई training में ही वह जटिल नियमों का अनुमान लगा सका.
  • यह सवाल कि क्या LLM एक Markov chain text generator है.

    • अगर हाँ, तो क्या मूल training data का उपयोग करके समान प्रदर्शन वाली Markov chain बनाई जा सकती है, इस पर सवाल उठाया गया.
  • अध्ययन किया गया मॉडल वास्तव में एक साधारण toy model है, जिसे और भी सरल मॉडल से approximate किया जा सकता है.

    • लेकिन यह मॉडल ज़रूरी नहीं कि बड़े LLM किस तरह काम करते हैं, उसका प्रतिनिधित्व करता हो.
  • लेखक क्या कहना चाह रहा है, इसे ठीक-ठीक समझना कठिन है.

    • 'approximation ke kaam karne ka kaaran' सेक्शन को कई बार पढ़ा, लेकिन वह सिर्फ transformer की step-by-step व्याख्या जैसा लगा.
  • LLM system की 3D visualization उपयोगी है, और अधिकतम प्रभाव के लिए इसे साथ में पढ़ना चाहिए.

  • transformer वास्तव में क्या करता है, इस पर एक अजीब पोस्ट.

    • अगर आप code के साथ चलें, तो transformer क्या कर रहा है यह बिल्कुल स्पष्ट दिखता है.