SmolGPT: छोटे LLM को शुरुआत से ट्रेन करने के लिए न्यूनतम PyTorch इम्प्लीमेंटेशन

(github.com/Om-Alve)

24 पॉइंट द्वारा GN⁺ 2025-01-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

शैक्षिक उद्देश्यों के लिए डिज़ाइन किया गया PyTorch-आधारित सरल LLM ट्रेनिंग प्रोजेक्ट, जिसमें कुशल ट्रेनिंग और आधुनिक sampling तकनीकों का उपयोग किया गया है

Features

न्यूनतम codebase: PyTorch में इम्प्लीमेंटेड, बिना जटिल abstraction के
आधुनिक architecture: GPT मॉडल, जिसमें flash attention, RMSNorm, SwiGLU और कुशल sampling तकनीकें शामिल हैं
ट्रेनिंग फीचर्स:
- mixed precision (bfloat16/float16)
- gradient accumulation
- warmup के साथ learning rate decay
- weight decay और gradient clipping
dataset support: TinyStories dataset processing built-in
custom tokenizer: SentencePiece tokenizer training integration

इंस्टॉलेशन

Python 3.8+
PyTorch 2.0+ और CUDA
नवीनतम GPU की सिफारिश

क्विक स्टार्ट 🚀

विकल्प 1: पूरा ट्रेनिंग साइकल

dataset तैयार करें
ट्रेनिंग शुरू करें
टेक्स्ट जनरेट करें

विकल्प 2: pre-trained मॉडल का उपयोग

assets डाउनलोड करें
inference चलाएँ

pre-trained मॉडल विवरण

TinyStories dataset पर ट्रेन किया गया
4096-token vocabulary, 8 heads, 8-layer transformer, 512 embedding dimensions
लगभग 40 करोड़ tokens पर 18.5 घंटे ट्रेनिंग
validation loss: 1.0491

ट्रेनिंग हार्डवेयर स्पेसिफिकेशन

GPU: NVIDIA L4 Tensor Core
vCPUs: 16
RAM: 64 GB
VRAM: 24 GB

नोट: यह इम्प्लीमेंटेशन शैक्षिक उद्देश्यों के लिए आधुनिक LLM ट्रेनिंग प्रैक्टिसेज़ को ध्यान में रखकर बनाया गया है। प्रोडक्शन वातावरण में मॉडल आकार और dataset को स्केल करना बेहतर है।

1 टिप्पणियां

GN⁺ 2025-01-31

Hacker News टिप्पणियाँ

एक उपयोगकर्ता ने बताया कि GPT implementation को C में बनाते हुए उन्होंने memory management और data management के महत्व को सीखा। यह प्रोजेक्ट लगभग 1500 lines of code का है, और उन्होंने GitHub लिंक साझा किया
एक अन्य उपयोगकर्ता ने समझाया कि numpy का उपयोग करके खुद implementation करना अगला कदम है। उन्होंने ज़ोर दिया कि पहले powerful abstraction के साथ शुरू करके फिर धीरे-धीरे abstraction हटाने से पूरे system को पूरी तरह समझा जा सकता है
एक प्रोजेक्ट साझा किया गया जो Google Colab notebook का उपयोग करता है और A100 GPU पर लगभग 2 घंटे लेता है। यह भी कहा गया कि यह free account पर भी काम कर सकता है
बताया गया कि GitHub पर Andrej Karpathy के nanoGPT जैसे कई प्रोजेक्ट हैं, और कुछ अन्य प्रोजेक्ट भी हैं जिनमें MoE implement किया गया है
एक उपयोगकर्ता ने पूछा कि क्या किसी specific model को किसी specific dataset पर train करके उसके results test किए जा सकते हैं। उन्होंने कहा कि वे open source project ढूंढ रहे हैं, जो GPU उपलब्धता बताए और ऐसा Docker container दे जिसे CPU से बदला जा सके
एक अन्य उपयोगकर्ता ने अपनी खुद की multi-channel tokenizer का उपयोग करके की गई implementation की कहानी साझा की। उन्होंने कहा कि main character का नाम बार-बार दोहराया जा रहा था, जिससे उन्हें bug होने का संदेह हुआ
Om Alve ने कहा कि पोस्ट के viral होने से उन्हें लगा कि उनकी मेहनत सार्थक रही, और इसके लिए आभार जताया
यह कहा गया कि यह दिलचस्प है कि तकनीक को कुछ सौ lines of code में implement किया जा सकता है। साथ ही सुझाव दिया गया कि कोई अंदाज़ा लगाए कि state-of-the-art model में कितनी lines of code होंगी
यह उल्लेख किया गया कि इसका SmolLM से संबंध नहीं है, और HuggingFace के blog का लिंक साझा किया गया
पूछा गया कि क्या training dataset के examples और use cases साझा किए जा सकते हैं