GPT मॉडल के बारे में एक सवाल है: मैं सोचता था कि मॉडल सबसे अधिक संभावित शब्द चुनता है, लेकिन अगर वह "संभावित" शब्दों में से किसी एक को चुनता है, तो क्या अगले शब्दों की भविष्यवाणी की सूची बहुत कम संभावित नहीं हो जाएगी? अगर "दो शब्द साथ में" की संभावना चलाना गणनात्मक रूप से संभव हो, तो वह अधिक उपयोगी होगा, और यही बात 3, 4, n शब्दों पर भी लागू हो सकती है। जानना चाहता हूँ कि क्या ऐसा कोई तरीका मौजूद है।
वीडियो देखने और टिप्पणियाँ पढ़ने के बाद संपादन: इस समस्या को नियंत्रित करने के लिए beam search और temperature का उपयोग किया जाता है.
किसी समूह को attention mechanism सिखाने के लिए इससे बेहतर व्यक्ति की कल्पना नहीं कर सकता। ऐसा लगता है जैसे सपना सच हो गया हो.
अप्रैल फूल्स डे कंटेंट के लिए यह एक अद्भुत इलाज है। काश मैं इसे सीधे अपने अंदर इंजेक्ट कर पाता.
Andrej Karpathy के चैनल पर कुछ दिलचस्प वीडियो हैं जो प्रोग्रामिंग जानने वाले लोगों के लिए neural networks और उनके अंदरूनी काम करने के तरीके को समझाते हैं। अगर आपको यह पसंद आया, तो इसकी सिफारिश करता हूँ.
अगला token unembedding के बाद अंतिम column से logits को sample करके चुना जाता है। लेकिन क्या वह सिर्फ आखिरी token को फिर से चुनना नहीं हुआ? या किसी चरण पर matrix का आकार N+1 तक बढ़ाया जाता है?
अगली वीडियो का इंतज़ार नहीं कर सकता। लगता है कि अब मैं आखिरकार समझ पाऊँगा और भीतर तक आत्मसात कर पाऊँगा कि ये चीज़ें कैसे काम करती हैं.
3B1B, YouTube पर सबसे बेहतरीन STEM शिक्षकों में से एक है.
1 टिप्पणियां
Hacker News राय