43 पॉइंट द्वारा GN⁺ 2025-09-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-आधारित बड़े language model nano-gpt की कार्यप्रणाली का संक्षिप्त परिचय दिया गया है
  • इस मॉडल का लक्ष्य 6 अक्षरों की sequence लेकर उन्हें alphabetical order में sort करना है
  • हर अक्षर को एक token माना जाता है, और सभी token के पास एक यूनिक token index होता है
  • हर token index को 48-आयामी embedding vector में बदला जाता है और फिर यह कई transformer layers से होकर गुजरता है
  • मॉडल अगले आने वाले token का prediction करता है, और परिणाम को बार-बार input sequence में जोड़कर उसे आगे बढ़ाया जा सकता है

GPT language model परिचय

  • यह दस्तावेज़ GPT बड़े language model की कार्यप्रणाली को विज़ुअली समझाने वाली सामग्री है
  • यहाँ nano-gpt नाम के एक बहुत छोटे मॉडल (लगभग 85,000 parameters) का उपयोग किया गया है
  • मॉडल का लक्ष्य 6 अक्षरों वाली sequence लेकर उसे alphabetical order में sort करना है (उदाहरण: "ABBBCC")

Token और vocabulary

  • हर अक्षर को token के रूप में परिभाषित किया गया है, और मॉडल जिन सभी token को पहचानता है, उनके पूरे सेट को vocabulary कहा जाता है
  • तालिका में हर token को एक यूनिक नंबर (token index) दिया गया है
  • इन token index की number sequence को मॉडल के input के रूप में इस्तेमाल किया जाता है

Input transformation और embedding

  • 3D visualization में हरे cell प्रोसेस हो रहे नंबर को दिखाते हैं, और नीले cell मॉडल के weight को दर्शाते हैं
  • हर input number को 48-आयामी embedding vector में बदला जाता है
  • यह embedding मॉडल की संरचना के भीतर कई transformer layers से क्रमिक रूप से गुजरती है

Output और prediction प्रक्रिया

  • मॉडल का output उस sequence में अनुमानित अगले token की probability के रूप में दिखाया जाता है
  • 6वें input position पर, अगला token 'A', 'B', 'C' होने की probability distribution का prediction किया जाता है
  • उदाहरण में मॉडल अनुमान लगाता है कि 'A' होने की probability सबसे अधिक है
  • इस prediction result को फिर से input में डालकर प्रक्रिया दोहराई जाती है, और इस तरह पूरी sequence बनाई जाती है

1 टिप्पणियां

 
GN⁺ 2025-09-05
Hacker News राय
  • यह बेहद जटिल होने के साथ-साथ विस्मयकारी भी है, और इसकी प्रक्रिया को विज़ुअलाइज़ करने का तरीका सच में शानदार है
  • इससे जुड़ी सामग्री भी है, अगर किसी और चीज़ के बारे में जिज्ञासा हो तो देख सकते हैं
    LLM Visualization - दिसंबर 2023, 131 टिप्पणियाँ
  • Georgia Tech के शोधकर्ताओं द्वारा बनाया गया एक और transformer visualization resource भी है
    https://poloclub.github.io/transformer-explainer/
    और The Illustrated Transformer नाम का एक मशहूर visualization resource भी सुझाया गया है
    https://jalammar.github.io/illustrated-transformer/
    Sebastian Raschka, PhD की architecture पर लिखी एक पोस्ट भी है
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Hacker News की इस टिप्पणी में कई resources एक साथ देखे जा सकते हैं
    https://news.ycombinator.com/item?id=35712334
  • यह visualization सच में दिलचस्प है; पूरे process को visual रूप में देखा जा सकता है, लेकिन यह विडंबनापूर्ण है कि हम अब भी मॉडल के अंदरूनी decision-making criteria को पूरी तरह नहीं समझते। लगभग एक साल पहले जब मैंने इसे देखा था, तब भी इस हिस्से में ज़्यादा प्रगति नहीं हुई थी
  • यह visualization content इतना शानदार है कि मैं इसे अपने 5 साल के बेटे के computer club में बच्चों को दिखाने की योजना बना रहा हूँ
    • उस तरीके से तो बच्चों को सुलाने का बढ़िया इंतज़ाम हो जाएगा
  • यह सचमुच अद्भुत और विस्मयकारी कला-कृति जैसी है, इसे बनाने के लिए धन्यवाद
  • मुझे यह visualization resource पहले से ही बहुत पसंद था
    https://alphacode.deepmind.com/
    (मोबाइल पर हों तो play दबाएँ, फिर पूरी तरह zoom out करें और उसके बाद नीचे scroll करें)
  • अगर LLM visualization इस तरह का एक educational tool बन जाए तो यह सच में शानदार होगा। उदाहरण के लिए, यह दिखा सकता है कि generation process के दौरान attention कैसे move करता है, या prompt output को कैसे प्रभावित करता है। ऐसे interactive visualizations से यह समझने में सच में मदद मिलेगी कि backend में वास्तव में क्या हो रहा है
  • मुझे यह सच में बेहतरीन लगता है। समय मिला तो मैं इसे गहराई से explore करना चाहूँगा। मेरा मानना है कि observability tools के साथ मिलकर यह सामग्री वैज्ञानिकों को उस मॉडल के भीतर झाँकने में मदद कर सकती है जिसे "black box" कहा जाता है
  • अब जाकर समझ आया, यह सामग्री वाकई एक शानदार resource है, समय और मेहनत के लिए धन्यवाद