• nanochat के LLM training core को single GPU·single file में लगभग 630 lines तक संक्षिप्त करने वाला self-contained autonomous research framework, जिसमें AI agent रातभर स्वायत्त रूप से LLM training experiments दोहराता है
  • इंसान प्रॉम्प्ट को संशोधित करता है, और AI agent training code को संशोधित करता है → 5 मिनट के fixed time budget में training → परिणामों की तुलना → रखना या हटाना, इस लूप को दोहराना
  • agent git feature branch पर autonomous loop में चलता है, और neural network architecture, optimizer, hyperparameter आदि में अधिक कम validation loss हासिल होने पर हर बार training script में git commit जमा करता है
  • लक्ष्य ऐसा agent डिज़ाइन करना है जो मानव हस्तक्षेप के बिना सबसे तेज़ research progress पैदा करे

प्रोजेक्ट अवलोकन

  • nanochat के सरल single GPU implementation पर आधारित संरचना, जिसमें AI agent training code को स्वायत्त रूप से संशोधित और प्रयोग करता है
  • agent code संशोधन → 5 मिनट training → परिणाम जाँच → रखना/हटाना लूप दोहराता है, और उपयोगकर्ता सुबह experiment logs तथा बेहतर मॉडल देखता है
  • Claude, Codex जैसे इच्छित agent को इस repo से जोड़कर, उसे program.md पढ़ने देना और फिर experiment शुरू कराना

मुख्य file संरचना (सिर्फ 3 महत्वपूर्ण)

  • prepare.py - fixed constants, data preparation (training data download, BPE tokenizer training), runtime utilities (data loader, evaluation) शामिल; संशोधन के लिए नहीं
  • train.py - agent द्वारा संशोधित किया जाने वाला single file; पूरा GPT model, optimizer (Muon + AdamW), training loop शामिल; architecture, hyperparameter, optimizer, batch size आदि सभी तत्व संशोधित किए जा सकते हैं
  • program.md - agent के लिए base instruction file; इंसान इसे संपादित करता है, और यह agent की autonomous research दिशा सेट करने वाली lightweight skill की तरह काम करता है

डिज़ाइन सिद्धांत

  • single file modification: agent केवल train.py को संशोधित करता है, जिससे बदलाव की सीमा प्रबंधनीय रहती है और diff review आसान होता है
  • fixed time budget: platform की परवाह किए बिना हमेशा ठीक 5 मिनट execution → प्रति घंटे लगभग 12 बार, नींद के दौरान लगभग 100 experiments संभव
    • model size, batch size, architecture आदि में बदलाव होने पर भी experiments के बीच सीधी तुलना संभव
    • कमी: एक ही platform न होने पर दूसरे लोगों के execution results से तुलना संभव नहीं
  • self-contained: PyTorch और कुछ packages के अलावा कोई external dependency नहीं; distributed training नहीं; कोई complex setup नहीं

आवश्यकताएँ और execution

  • आवश्यकताएँ: single NVIDIA GPU (H100 tested), Python 3.10+, uv package manager
  • फिलहाल केवल NVIDIA GPU के लिए; CPU/MPS जैसे अन्य platform support को code bloating की चिंता के कारण अभी शामिल नहीं किया गया
    • यदि व्यापक platform support चाहिए, तो ऊपर वाले nanochat repo को देखना सुझाया गया है; macOS fork (miolini/autoresearch-macos) पहले से मौजूद है
  • agent चलाते समय repo के भीतर Claude/Codex आदि चलाएँ, सभी permissions निष्क्रिय करें, फिर उसे program.md पढ़कर experiment शुरू करने के लिए prompt करें

मूल program.md का डिज़ाइन इरादा

  • मूल program.md को जानबूझकर न्यूनतम baseline के रूप में रखा गया है
  • समय के साथ इसे बार-बार सुधारते हुए सबसे तेज़ research progress हासिल करने वाला "research organization code" खोजने के तरीके से इस्तेमाल किया जा सकता है
  • agents जोड़ना या निर्देशों को अधिक विशिष्ट बनाना भी स्पष्ट रूप से विस्तार योग्य संरचना है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.