47 पॉइंट द्वारा GN⁺ 2023-12-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-2, nano-gpt, GPT-3 आदि बड़े language models के काम करने के सिद्धांत को विज़ुअल तरीके से समझाने वाली गाइड
  • विषय-सूची: परिचय और बुनियादी जानकारी, embeddings, layer normalization, self-attention, projection, MLP, transformer, Softmax, output

पूरे परिचय भाग का सारांश

  • 'nano-gpt' के मामले में 85,000 parameters हैं
  • लक्ष्य दिए गए छह-अक्षरों वाले string को alphabet क्रम में sort करना है
  • string 'C B A B B C' को input लेकर उसे 'ABBBCC' में sort करने की प्रक्रिया को उदाहरण के रूप में देखा जा सकता है।
  • string के हर अक्षर को 'token' कहा जाता है, और model की vocabulary कई तरह के tokens से बनी होती है
  • हर token को एक संख्यात्मक index दिया जाता है, और इसे model में input किया जाता है
  • हर संख्या को 48 elements वाले vector में बदला जाता है, जिसे 'embedding' कहा जाता है
  • embeddings, 'transformer' कहलाने वाली layers की एक श्रृंखला से होकर गुजरते हैं
  • अंत में model दी गई sequence के अगले token की probability का पूर्वानुमान करता है
  • अनुमानित token को फिर model के शीर्ष पर दोबारा input किया जाता है और पूरी प्रक्रिया दोहराई जाती है

1 टिप्पणियां

 
GN⁺ 2023-12-04
Hacker News की राय
  • LLM को बुनियादी तौर पर समझने के लिए यह बहुत उपयोगी टूल है

    • इसे एक शानदार टूल माना गया है, जो LLM वास्तव में कैसे काम करते हैं, इसे गहराई से समझने में मदद करता है।
    • अगर यह समझ में न आए कि पहले array में 48 elements क्यों हैं, तो minGPT की model.py देखने की सलाह दी गई है।
    • यह राय भी दी गई कि ऐसे structural decisions, जिनका संदर्भ स्पष्ट न हो, लोगों को भ्रमित कर सकते हैं, इसलिए लेख में उनका उल्लेख होना अच्छा रहेगा।
  • 3D space में algorithmic complexity को इतनी स्पष्टता से दिखाया गया देखकर आश्चर्य हुआ

    • algorithm की complexity को 3D में साफ़ तौर पर दिखाए जाने पर प्रशंसा व्यक्त की गई।
    • साथ ही यह व्यक्तिगत इच्छा भी जताई गई कि काश उसके accuracy को पूरी तरह समझने लायक पर्याप्त ज्ञान होता।
  • यह visualization सचमुच चौंकाने वाला है

    • लंबे समय से इसमें गहराई से उतरना चाहते थे, और 3D model एक educational tool के रूप में हैरान कर देने जितना अच्छा लगा।
  • यह वही visualization तरीका है जिसकी कई महीनों से तलाश थी

    • लंबे समय से खोजे जा रहे visualization approach को पाकर बहुत संतोष व्यक्त किया गया।
    • इस तरह की सामग्री मुफ्त में उपलब्ध होने के लिए आभार भी जताया गया।
  • इसका शीर्षक 'जादू को matrix multiplication और dot product में तोड़ना' भी रखा जा सकता था

    • LLM के इतना अच्छी तरह काम करने की बात और भी ज़्यादा आश्चर्यजनक लगी।
  • 3D model शैक्षिक दृष्टि से बेहद प्रभावशाली है

    • 3D model को एक educational tool के रूप में बहुत प्रभावशाली बताया गया।
    • इसे गहराई से सीखने के लिए बेहतरीन सामग्री के रूप में आंका गया।
  • LLM आखिर इतना अच्छी तरह कैसे काम करते हैं, इस पर और भी आश्चर्य हुआ

    • LLM के काम करने के सिद्धांत को बुनियादी स्तर पर विश्लेषित करने वाली सामग्री की सकारात्मक सराहना की गई।
    • साथ ही LLM के प्रभावी ढंग से काम करने पर और अधिक आश्चर्य व्यक्त किया गया।
  • self-attention की ताकत की व्याख्या अक्सर छूट जाती है

    • पारंपरिक neural networks के विपरीत, self-attention layers संदर्भ के आधार पर inputs के बीच connections को अनुकूल रूप से weight करती हैं।
    • इससे transformers वे काम एक ही layer में कर सकते हैं, जिनके लिए पारंपरिक networks को कई layers से गुजरना पड़ता है।
  • लेखक ने अपने Twitter thread में इस काम के बारे में अतिरिक्त संदर्भ साझा किया

    • लेखक ने इस काम की अतिरिक्त पृष्ठभूमि Twitter thread के ज़रिए साझा की।
  • अगर अपने model के लिए low-dimensional version चाहिए, तो Netron library की सिफारिश की गई

    • model architecture visualization के लिए Netron library की सकारात्मक समीक्षा और सिफारिश की गई।
  • यह सिर्फ एक साधारण 3D model नहीं, बल्कि गहराई वाला काम है

    • शुरुआत में इसे एक साधारण 3D model समझा गया था, लेकिन animation के साथ दिए गए गहरे कंटेंट ने प्रभावित किया।
  • यह visualization सचमुच अद्भुत है

    • जब transformers को समझने की कोशिश कर रहे थे, तब अगर यह देखा होता तो बात बहुत आसान हो जाती।
  • यही वजह है कि Hacker News पसंद है

    • ऐसे उत्कृष्ट संसाधन Hacker News पर साझा होने को लेकर सकारात्मक प्रतिक्रिया व्यक्त की गई।