- GPT-आधारित बड़े language model nano-gpt की कार्यप्रणाली का संक्षिप्त परिचय दिया गया है
- इस मॉडल का लक्ष्य 6 अक्षरों की sequence लेकर उन्हें alphabetical order में sort करना है
- हर अक्षर को एक token माना जाता है, और सभी token के पास एक यूनिक token index होता है
- हर token index को 48-आयामी embedding vector में बदला जाता है और फिर यह कई transformer layers से होकर गुजरता है
- मॉडल अगले आने वाले token का prediction करता है, और परिणाम को बार-बार input sequence में जोड़कर उसे आगे बढ़ाया जा सकता है
GPT language model परिचय
- यह दस्तावेज़ GPT बड़े language model की कार्यप्रणाली को विज़ुअली समझाने वाली सामग्री है
- यहाँ nano-gpt नाम के एक बहुत छोटे मॉडल (लगभग 85,000 parameters) का उपयोग किया गया है
- मॉडल का लक्ष्य 6 अक्षरों वाली sequence लेकर उसे alphabetical order में sort करना है (उदाहरण: "ABBBCC")
Token और vocabulary
- हर अक्षर को token के रूप में परिभाषित किया गया है, और मॉडल जिन सभी token को पहचानता है, उनके पूरे सेट को vocabulary कहा जाता है
- तालिका में हर token को एक यूनिक नंबर (token index) दिया गया है
- इन token index की number sequence को मॉडल के input के रूप में इस्तेमाल किया जाता है
Input transformation और embedding
- 3D visualization में हरे cell प्रोसेस हो रहे नंबर को दिखाते हैं, और नीले cell मॉडल के weight को दर्शाते हैं
- हर input number को 48-आयामी embedding vector में बदला जाता है
- यह embedding मॉडल की संरचना के भीतर कई transformer layers से क्रमिक रूप से गुजरती है
Output और prediction प्रक्रिया
- मॉडल का output उस sequence में अनुमानित अगले token की probability के रूप में दिखाया जाता है
- 6वें input position पर, अगला token 'A', 'B', 'C' होने की probability distribution का prediction किया जाता है
- उदाहरण में मॉडल अनुमान लगाता है कि 'A' होने की probability सबसे अधिक है
- इस prediction result को फिर से input में डालकर प्रक्रिया दोहराई जाती है, और इस तरह पूरी sequence बनाई जाती है
1 टिप्पणियां
Hacker News राय
LLM Visualization - दिसंबर 2023, 131 टिप्पणियाँ
https://poloclub.github.io/transformer-explainer/
और
The Illustrated Transformerनाम का एक मशहूर visualization resource भी सुझाया गया हैhttps://jalammar.github.io/illustrated-transformer/
Sebastian Raschka, PhD की architecture पर लिखी एक पोस्ट भी है
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Hacker News की इस टिप्पणी में कई resources एक साथ देखे जा सकते हैं
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(मोबाइल पर हों तो play दबाएँ, फिर पूरी तरह zoom out करें और उसके बाद नीचे scroll करें)