परिचय
- यह लेख इस बात की पड़ताल करता है कि छोटे language models अगला token कैसे predict करते हैं.
- Transformer models के self-attention mechanism पर फोकस करने के बजाय, यह बताता है कि attention calculation के नतीजे कैसे सटीक अगले token prediction में बदलते हैं.
- लेखक एक काम करने वाले छोटे transformer के ज़रिए उसकी internal state की जांच करता है और 6 महीने की गहरी पड़ताल से मिले उपयोगी नतीजे साझा करता है.
Transformer block संरचना
- Transformer block, multi-head self-attention layer और feedforward network से मिलकर बना होता है.
- Feedforward network का output वह प्रमुख तत्व है जो तय करता है कि block input को output में कैसे बदलता है.
प्रस्ताव: Transformer कैसे काम करता है
- हर transformer block दिए गए prompt को training data में मौजूद string classes से जोड़ते हुए weights सीखता है.
- इन string classes के बाद आने वाले tokens का distribution मोटे तौर पर उसी से मेल खाता है जिसे block अगले token के लिए prediction के रूप में output करता है.
कार्यान्वयन: feedforward network output का उपयोग करके transformer output का approximation
- लेखक transformer के output का approximation करने के लिए feedforward network output का उपयोग करने की एक ठोस प्रक्रिया प्रस्तुत करता है.
- यह प्रक्रिया model के माध्यम से prompt चलाने और हर block के लिए feedforward network output को store करने से शुरू होती है.
- Training data में ऐसे strings खोजे जाते हैं जो समान feedforward network outputs पैदा करते हैं, और फिर उन strings के बाद आने वाले tokens का frequency distribution बनाया जाता है.
- इन distributions को weights के साथ जोड़कर और normalize करके अंतिम probability distribution प्राप्त की जाती है.
GN⁺ की राय
- यह अध्ययन transformer models की internal working पर गहरी समझ देता है. खास तौर पर self-attention के बाद की प्रक्रिया पर इसकी insight, transformer models के prediction mechanism को समझने में महत्वपूर्ण है.
- लेखक का approach यह स्पष्ट रूप से समझाता है कि transformers training data के patterns को कैसे पहचानते हैं और उनके आधार पर अगला token कैसे predict करते हैं.
- यह लेख transformer models पर शोध या विकास करने वालों के लिए उपयोगी सामग्री हो सकता है और AI language processing के क्षेत्र की समझ को और गहरा करने में योगदान देगा.
1 टिप्पणियां
Hacker News राय
नई घटना से चकित नहीं होना चाहिए। अगर आप पहले से स्थापित सिद्धांत नहीं पढ़ते, तो स्वाभाविक रूप से होने वाली घटनाओं को लेकर भ्रमित हो सकते हैं.
Google ने यह बताया था कि अगर ChatGPT से एक ही शब्द बार-बार दोहराने को कहा जाए, तो वह प्रशिक्षण डेटा को ज्यों का त्यों उगल देता है; इस पर सकारात्मक प्रतिक्रिया कि किसी ने इसे वास्तव में लागू भी किया.
Attention और FF(Feed Forward) network के एक ही दिशा की ओर इशारा करने की घटना पर आश्चर्य व्यक्त किया गया.
Andrej Karpathy के NanoGPT tutorial का अनुसरण करके एक छोटा मॉडल train किया गया, तो वह कुछ हद तक जटिल रूसी grammar को समझता हुआ लगा.
यह सवाल कि क्या LLM एक Markov chain text generator है.
अध्ययन किया गया मॉडल वास्तव में एक साधारण toy model है, जिसे और भी सरल मॉडल से approximate किया जा सकता है.
लेखक क्या कहना चाह रहा है, इसे ठीक-ठीक समझना कठिन है.
LLM system की 3D visualization उपयोगी है, और अधिकतम प्रभाव के लिए इसे साथ में पढ़ना चाहिए.
transformer वास्तव में क्या करता है, इस पर एक अजीब पोस्ट.