• MacBook Pro पर सिर्फ 5 मिनट में लगभग 1.8M parameters वाले GPT-स्टाइल transformer model को लगभग 20M TinyStories tokens के साथ train किया गया, और लगभग 9.6 perplexity हासिल की गई
  • 5 मिनट के भीतर training की मुख्य सीमाएँ model size और process किए जा सकने वाले tokens की संख्या हैं; model जितना बड़ा होगा, convergence उतना धीमा होगा और कम data में उसका प्रभाव भी घटेगा
  • Performance optimization में MPS का उपयोग सबसे असरदार रहा, जबकि compile/quantization/gradient accumulation और PyTorch के विकल्पों की तुलना में छोटा model चुनना अधिक प्रभावी साबित हुआ
  • TinyStories जैसे सरल और सुसंगत dataset, encyclopedic data की तुलना में छोटे models के performance पर अधिक सकारात्मक असर डालते हैं
  • Transformer architecture ने छोटे size और कम training time की शर्तों में LSTM या diffusion तरीकों की तुलना में बेहतर नतीजे दिखाए

अवलोकन

यह लेख लैपटॉप (MacBook Pro) पर 5 मिनट में train किए जा सकने वाले अधिकतम प्रदर्शन वाले AI language model पर किए गए प्रयोगों के नतीजे, और optimal training strategy, dataset selection तथा model architecture से जुड़े insights प्रस्तुत करता है

प्रयोग के नतीजों का सार

  • लगभग 1.8M parameters वाले GPT-स्टाइल transformer model को लगभग 20M TinyStories data पर train किया गया और 9.6 perplexity दर्ज की गई
  • generation examples छोटे लेकिन सुसंगत कहानी-जैसे थे, और English grammar अधिकांशतः सही बनी रही
  • इस बात पर ज़ोर दिया गया कि 5 मिनट के भीतर व्यावहारिक स्तर का model result उम्मीद से बेहतर था

प्रयोग की पृष्ठभूमि और सीमाएँ

  • लैपटॉप environment में शक्तिशाली model को तेज़ी से train करना एक व्यावहारिक आवश्यकता से अधिक जिज्ञासा-आधारित प्रयोग था
  • वास्तव में cloud में high-performance GPU (H100 आदि) के साथ इससे कहीं अधिक शक्तिशाली model train किए जा सकते हैं, लेकिन इस प्रयोग की सीमा समय (5 मिनट) थी
  • जैसे-जैसे model size बढ़ता है, token processing speed धीमी हो जाती है, इसलिए 5 मिनट के भीतर अच्छे नतीजे पाना कठिन हो जाता है
    • बहुत छोटे model (जैसे 10K parameters) पर्याप्त जटिलता सीख नहीं पाते
    • व्यावहारिक सीमा लगभग 1M~2M parameters वाले models की है

throughput optimization

  • MPS (Apple का Metal Performance Shaders) का उपयोग सबसे प्रभावी रहा
  • torch.compile, float16, MLX जैसी विभिन्न mathematical optimizations से उम्मीद के मुताबिक performance सुधार नहीं मिला, बल्कि कुछ मामलों में गिरावट आई
  • Gradient accumulation memory management के लिए उपयोगी हो सकता है, लेकिन व्यवहार में इससे speed पर गंभीर असर पड़ा
  • model ऐसा होना चाहिए कि वह internal memory में तेज़ी से weight update कर सके, तभी दक्षता मिलती है

dataset selection

  • सीमित token count (लगभग 10~20M) के साथ Simple English Wikipedia जैसे सरल English wiki data का पहले उपयोग किया गया, जिसमें grammatical consistency तो मिली, लेकिन semantic consistency कम रही
    • proper nouns पर अधिक निर्भरता और बनावटी लगने वाले facts की सूची के कारण सार्थक content generation सीमित रहा
  • TinyStories dataset के उपयोग पर कहानी की संरचना स्पष्ट और भाषा सरल होने से नतीजे कहीं अधिक सुसंगत और अर्थपूर्ण रहे
    • यह 4-वर्षीय स्तर की stories का dataset है, इसलिए छोटे models पर भी training अच्छी तरह हुई

tokenizer और tokenization

  • tokenizer training को 5 मिनट की सीमा में शामिल नहीं किया गया, और data scale छोटा होने से optimization की आवश्यकता भी कम थी
  • multibyte tokens सीखना model training के लिए अधिक आसान था

model architecture experiments

  • Transformer (GPT-2 style) architecture का उपयोग किया गया

    • 2~3 layers, SwiGLU जैसी activation functions, positional embedding आदि hyperparameters को समायोजित किया गया
    • LSTM का performance काफ़ी करीब था, लेकिन perplexity के लिहाज़ से transformer बेहतर रहा
    • Dropout, mixture-of-experts आदि इतने छोटे scale पर अप्रभावी रहे
    • Curriculum learning का असर बहुत कम रहा क्योंकि training time बहुत छोटा था
  • Diffusion model (D3PM) का भी प्रयास किया गया

    • प्राकृतिक भाषा discrete tokens से बनी होती है, इसलिए diffusion process में केवल अर्थहीन random tokens बनते रहे और प्रयोग असफल रहा
    • transformer या LSTM की तुलना में तेज़ी से sentence structure बनाना कठिन था

model size और tokens/sec throughput का संबंध

  • 1M~2M parameters वाले models सबसे आदर्श sweet spot साबित हुए
    • बहुत बड़े model 5 मिनट में converge नहीं कर पाते, और बहुत छोटे model training शुरू होते ही performance limit तक पहुँच जाते हैं
  • Chinchilla scaling law और प्रयोग के नतीजे मोटे तौर पर एक-दूसरे से मेल खाते हैं
    • कुल training tokens/20 आदर्श model size माना जाता है, और इस प्रयोग में भी यह बात देखी गई

निष्कर्ष और संकेत

  • बहुत कम समय और छोटे hardware पर भी सुसंगत storytelling model को train करना संभव है
  • 5 मिनट की training शक्तिशाली model development के लिए उपयुक्त नहीं है, लेकिन छोटे और ultra-lightweight models के design तथा hardware और architecture optimization experiments के लिए इसका महत्व है
  • आगे चलकर लैपटॉप GPU और model structures में प्रगति होने पर, सिर्फ कुछ मिनटों में train होने वाले models का performance और बेहतर हो सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.