• Autoresearch सिस्टम एक constraint optimization loop संरचना है जिसमें LLM एजेंट train.py को बार-बार संशोधित करके प्रदर्शन सुधारता है, और hypothesis बनाने से लेकर evaluation तक का स्वचालित चक्र चलाता है
  • प्रयोग container-आधारित sandbox environment में चलाए गए, जिससे network access और arbitrary code execution को रोका गया
  • Ukiyo-eVG dataset का उपयोग करते हुए लगभग 11,000 जापानी woodblock print images और annotation जानकारी को training में इस्तेमाल किया गया, और CLIP-आधारित मॉडल ने Mean Rank 34.30, R@5 लगभग 53% प्रदर्शन हासिल किया
  • मुख्य सुधार temperature parameter को ढीला करने (-113 Mean Rank) और hyperparameter tuning (-30 Mean Rank) से आए, और एक दिन में 42 प्रयोगों में 13 commits के जरिए 54% प्रदर्शन सुधार दर्ज हुआ
  • LLM एजेंट स्पष्ट रूप से परिभाषित search space में प्रभावी रहा, लेकिन structural changes के बाद अस्थिरता बढ़ी, जिससे पूर्ण autonomous research की सीमाएं सामने आईं

मुख्य आइडिया

  • Autoresearch LLM एजेंट-केंद्रित constraint optimization loop संरचना है, जिसमें एजेंट train.py को संशोधित करते हुए evaluation metrics को बार-बार बेहतर बनाता है
    • एजेंट program.md में दिए गए निर्देश पढ़ता है और scratchpad.md को working notes की तरह इस्तेमाल करके प्रयोग प्रक्रिया दर्ज करता है
  • खोज कई phases में बनी है; शुरुआत hyperparameter tuning से होती है, फिर छोटे structural changes, और बाद में कम से कम constraints के साथ free exploration तक बढ़ती है
  • पूरा loop hypothesis बनाना → code संशोधन → training → evaluation → commit या rollback → दोहराव की चक्रीय संरचना में डिज़ाइन किया गया है
  • हर experiment को लगभग 5 मिनट के भीतर पूरा करने की सीमा रखी गई, ताकि तेज़ iteration हो और overfitting से बचाव हो
  • एजेंट समय सीमा के भीतर train.py को स्वतंत्र रूप से संशोधित कर सकता है
  • Sandboxing

    • arbitrary code execution के जोखिम को रोकने के लिए training loop को container environment में चलाया गया और network access बंद किया गया
    • run.sh पूरा experiment flow संभालता है, और Claude Code केवल train.py और program.md को ही संशोधित कर सकता है
    • सीधे Python चलाना, pip install करना, network access, git push आदि सभी सीमित थे
    • संबंधित implementation GitHub repository में सार्वजनिक है

Dataset

  • मूल research में इस्तेमाल हुए medical X-ray dataset तक पहुंच न होने के कारण, नया Ukiyo-eVG dataset इस्तेमाल किया गया
    • इसमें लगभग 11,000 जापानी woodblock print images और phrase-bounding box annotations शामिल हैं
    • bounding boxes को Gaussian heatmaps में बदलकर model input में जोड़ा गया, और यह मूल eCLIP paper के expert attention mechanism जैसा तरीका था
  • heatmaps मॉडल को खास क्षेत्रों पर ध्यान केंद्रित करने के लिए प्रेरित करते हैं

Claude Code के साथ प्रयोग सेटअप

  • Claude Code ने मौजूदा research code को नवीनतम Python environment के लिए upgrade किया, नया dataset loading और experiment loop scaffolding लिखा
  • cross-validation splits, evaluation logic, और program.md के शुरुआती ideas सेट किए गए
  • evaluation metric के रूप में Mean Rank इस्तेमाल किया गया, जबकि अंतिम रिपोर्ट में Recall@K भी साथ दिया गया
    • Mean Rank का उपयोग सहज निर्णय के लिए किया गया, लेकिन यह भी कहा गया कि outliers के प्रति कम संवेदनशील Median Rank शायद अधिक उपयुक्त होता
  • Model configuration: CLIP backbone के रूप में ViT-Small(22M) + DistilBERT(66M) + HeatmapProcessor, कुल लगभग 90M parameters
    • training: 800 steps (लगभग 3 मिनट/experiment, RTX 4090 पर)
    • evaluation: 1,000-image test set पर Mean Rank और Recall@K मापा गया
    • baseline performance: Val Mean Rank 344.68, img→txt R@1 17.2%, txt→img R@1 16.5%

प्रयोग परिणाम

  • एक दिन में कुल 42 experiments हुए, जिनमें 13 commits और 29 rollbacks किए गए
    • Mean Rank 344.68 से घटकर 157.43 हुआ, यानी 54% कमी
  • पूरे dataset पर अंतिम training करने पर, test score validation score से अधिक निकला
    • यह संकेत देता है कि छोटे 800-step experiments underfitting की स्थिति में थे
  • अंतिम test performance: Mean Rank 34.30, img→txt R@5 53.0%, txt→img R@5 51.4%

मुख्य सुधार बिंदु

  • Temperature clamp में बदलाव (-113 Mean Rank)

    • code में मौजूद trainable temperature parameter को 2 पर fix किया गया था, जिसे एजेंट ने ढीला किया और प्रदर्शन में बड़ा सुधार मिला
    • पूरे सुधार में यह सबसे बड़ा single effect था
  • Optuna++ (-30 Mean Rank)

    • इसके बाद के सुधार मुख्य रूप से hyperparameter tuning से आए
    • projection dimension बढ़ाने और learning rate को दोबारा समायोजित करने से अतिरिक्त 30-point सुधार मिला
    • इंसान द्वारा बार-बार किए जाने वाले उबाऊ काम एजेंट ने अधिक तेज़ और व्यवस्थित ढंग से किए
  • घटते प्रतिफल का चरण

    • चरण 4 (structural changes) के बाद LLM की hypothesis success rate तेज़ी से घटी
    • attention mechanism बदलने या moonshot ideas आज़माने की अधिकांश कोशिशें विफल रहीं
    • खोज के अंतिम हिस्से में कई प्रयास अधिक random हो गए
  • Sandbox का महत्व

    • Claude Code कभी-कभी permissions भूलकर गलत bash calls करने की कोशिश करता था, या training के इंतज़ार के दौरान loop रोक देता था, यानी अस्थिर व्यवहार दिखाता था
    • पूरी तरह autonomous execution की अब भी सीमाएं हैं

समापन अवलोकन

  • पूरी प्रक्रिया में शुरुआती 90% हिस्सा सुचारु रहा, लेकिन अंतिम 10% में काफी हस्तक्षेप की ज़रूरत पड़ी
  • LLM एजेंट स्पष्ट रूप से परिभाषित search space के भीतर प्रभावी रूप से ML research कर सकता है
  • Autoresearch का commit-rollback loop एक structured exploration strategy के रूप में उपयोगी है
  • लेकिन जैसे ही इसे अज्ञात क्षेत्रों तक बढ़ाया जाता है, optimization loop अस्थिर हो जाता है
  • संभव है कि प्रति experiment केवल एक बदलाव की अनुमति देने वाली सीमा बड़े आइडिया exploration के लिए बहुत कड़ी रही हो
    • भविष्य में planning phase जोड़ना या subagents लाना संभावित सुधार दिशाओं के रूप में सुझाया गया
  • experiment समाप्त होने के बाद, Claude Code के साथ सहयोग रोज़मर्रा की सामान्य स्थिति में लौटते हुए समाप्त हुआ

आभार

  • Ukiyo-eVG dataset: लगभग 11K जापानी woodblock print images और phrase-bounding box annotations शामिल
  • Autoresearch: Andrej Karpathy के मूल आइडिया पर आधारित

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.