- GPT-2, nano-gpt, GPT-3 आदि बड़े language models के काम करने के सिद्धांत को विज़ुअल तरीके से समझाने वाली गाइड
- विषय-सूची: परिचय और बुनियादी जानकारी, embeddings, layer normalization, self-attention, projection, MLP, transformer, Softmax, output
पूरे परिचय भाग का सारांश
- 'nano-gpt' के मामले में 85,000 parameters हैं
- लक्ष्य दिए गए छह-अक्षरों वाले string को alphabet क्रम में sort करना है
- string 'C B A B B C' को input लेकर उसे 'ABBBCC' में sort करने की प्रक्रिया को उदाहरण के रूप में देखा जा सकता है।
- string के हर अक्षर को 'token' कहा जाता है, और model की vocabulary कई तरह के tokens से बनी होती है
- हर token को एक संख्यात्मक index दिया जाता है, और इसे model में input किया जाता है
- हर संख्या को 48 elements वाले vector में बदला जाता है, जिसे 'embedding' कहा जाता है
- embeddings, 'transformer' कहलाने वाली layers की एक श्रृंखला से होकर गुजरते हैं
- अंत में model दी गई sequence के अगले token की probability का पूर्वानुमान करता है
- अनुमानित token को फिर model के शीर्ष पर दोबारा input किया जाता है और पूरी प्रक्रिया दोहराई जाती है
1 टिप्पणियां
Hacker News की राय
LLM को बुनियादी तौर पर समझने के लिए यह बहुत उपयोगी टूल है
model.pyदेखने की सलाह दी गई है।3D space में algorithmic complexity को इतनी स्पष्टता से दिखाया गया देखकर आश्चर्य हुआ
यह visualization सचमुच चौंकाने वाला है
यह वही visualization तरीका है जिसकी कई महीनों से तलाश थी
इसका शीर्षक 'जादू को matrix multiplication और dot product में तोड़ना' भी रखा जा सकता था
3D model शैक्षिक दृष्टि से बेहद प्रभावशाली है
LLM आखिर इतना अच्छी तरह कैसे काम करते हैं, इस पर और भी आश्चर्य हुआ
self-attention की ताकत की व्याख्या अक्सर छूट जाती है
लेखक ने अपने Twitter thread में इस काम के बारे में अतिरिक्त संदर्भ साझा किया
अगर अपने model के लिए low-dimensional version चाहिए, तो Netron library की सिफारिश की गई
यह सिर्फ एक साधारण 3D model नहीं, बल्कि गहराई वाला काम है
यह visualization सचमुच अद्भुत है
यही वजह है कि Hacker News पसंद है