पुराने रिसर्च आइडिया पर Autoresearch चलाना

(ykumar.me)

4 पॉइंट द्वारा GN⁺ 2026-03-24 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Autoresearch सिस्टम एक constraint optimization loop संरचना है जिसमें LLM एजेंट train.py को बार-बार संशोधित करके प्रदर्शन सुधारता है, और hypothesis बनाने से लेकर evaluation तक का स्वचालित चक्र चलाता है
प्रयोग container-आधारित sandbox environment में चलाए गए, जिससे network access और arbitrary code execution को रोका गया
Ukiyo-eVG dataset का उपयोग करते हुए लगभग 11,000 जापानी woodblock print images और annotation जानकारी को training में इस्तेमाल किया गया, और CLIP-आधारित मॉडल ने Mean Rank 34.30, R@5 लगभग 53% प्रदर्शन हासिल किया
मुख्य सुधार temperature parameter को ढीला करने (-113 Mean Rank) और hyperparameter tuning (-30 Mean Rank) से आए, और एक दिन में 42 प्रयोगों में 13 commits के जरिए 54% प्रदर्शन सुधार दर्ज हुआ
LLM एजेंट स्पष्ट रूप से परिभाषित search space में प्रभावी रहा, लेकिन structural changes के बाद अस्थिरता बढ़ी, जिससे पूर्ण autonomous research की सीमाएं सामने आईं

मुख्य आइडिया

Autoresearch LLM एजेंट-केंद्रित constraint optimization loop संरचना है, जिसमें एजेंट train.py को संशोधित करते हुए evaluation metrics को बार-बार बेहतर बनाता है
- एजेंट program.md में दिए गए निर्देश पढ़ता है और scratchpad.md को working notes की तरह इस्तेमाल करके प्रयोग प्रक्रिया दर्ज करता है
खोज कई phases में बनी है; शुरुआत hyperparameter tuning से होती है, फिर छोटे structural changes, और बाद में कम से कम constraints के साथ free exploration तक बढ़ती है
पूरा loop hypothesis बनाना → code संशोधन → training → evaluation → commit या rollback → दोहराव की चक्रीय संरचना में डिज़ाइन किया गया है
हर experiment को लगभग 5 मिनट के भीतर पूरा करने की सीमा रखी गई, ताकि तेज़ iteration हो और overfitting से बचाव हो
एजेंट समय सीमा के भीतर train.py को स्वतंत्र रूप से संशोधित कर सकता है
Sandboxing
- arbitrary code execution के जोखिम को रोकने के लिए training loop को container environment में चलाया गया और network access बंद किया गया
- run.sh पूरा experiment flow संभालता है, और Claude Code केवल train.py और program.md को ही संशोधित कर सकता है
- सीधे Python चलाना, pip install करना, network access, git push आदि सभी सीमित थे
- संबंधित implementation GitHub repository में सार्वजनिक है

Dataset

मूल research में इस्तेमाल हुए medical X-ray dataset तक पहुंच न होने के कारण, नया Ukiyo-eVG dataset इस्तेमाल किया गया
- इसमें लगभग 11,000 जापानी woodblock print images और phrase-bounding box annotations शामिल हैं
- bounding boxes को Gaussian heatmaps में बदलकर model input में जोड़ा गया, और यह मूल eCLIP paper के expert attention mechanism जैसा तरीका था
heatmaps मॉडल को खास क्षेत्रों पर ध्यान केंद्रित करने के लिए प्रेरित करते हैं

Claude Code के साथ प्रयोग सेटअप

Claude Code ने मौजूदा research code को नवीनतम Python environment के लिए upgrade किया, नया dataset loading और experiment loop scaffolding लिखा
cross-validation splits, evaluation logic, और program.md के शुरुआती ideas सेट किए गए
evaluation metric के रूप में Mean Rank इस्तेमाल किया गया, जबकि अंतिम रिपोर्ट में Recall@K भी साथ दिया गया
- Mean Rank का उपयोग सहज निर्णय के लिए किया गया, लेकिन यह भी कहा गया कि outliers के प्रति कम संवेदनशील Median Rank शायद अधिक उपयुक्त होता
Model configuration: CLIP backbone के रूप में ViT-Small(22M) + DistilBERT(66M) + HeatmapProcessor, कुल लगभग 90M parameters
- training: 800 steps (लगभग 3 मिनट/experiment, RTX 4090 पर)
- evaluation: 1,000-image test set पर Mean Rank और Recall@K मापा गया
- baseline performance: Val Mean Rank 344.68, img→txt R@1 17.2%, txt→img R@1 16.5%

प्रयोग परिणाम

एक दिन में कुल 42 experiments हुए, जिनमें 13 commits और 29 rollbacks किए गए
- Mean Rank 344.68 से घटकर 157.43 हुआ, यानी 54% कमी
पूरे dataset पर अंतिम training करने पर, test score validation score से अधिक निकला
- यह संकेत देता है कि छोटे 800-step experiments underfitting की स्थिति में थे
अंतिम test performance: Mean Rank 34.30, img→txt R@5 53.0%, txt→img R@5 51.4%

मुख्य सुधार बिंदु

Temperature clamp में बदलाव (-113 Mean Rank)
- code में मौजूद trainable temperature parameter को 2 पर fix किया गया था, जिसे एजेंट ने ढीला किया और प्रदर्शन में बड़ा सुधार मिला
- पूरे सुधार में यह सबसे बड़ा single effect था
Optuna++ (-30 Mean Rank)
- इसके बाद के सुधार मुख्य रूप से hyperparameter tuning से आए
- projection dimension बढ़ाने और learning rate को दोबारा समायोजित करने से अतिरिक्त 30-point सुधार मिला
- इंसान द्वारा बार-बार किए जाने वाले उबाऊ काम एजेंट ने अधिक तेज़ और व्यवस्थित ढंग से किए
घटते प्रतिफल का चरण
- चरण 4 (structural changes) के बाद LLM की hypothesis success rate तेज़ी से घटी
- attention mechanism बदलने या moonshot ideas आज़माने की अधिकांश कोशिशें विफल रहीं
- खोज के अंतिम हिस्से में कई प्रयास अधिक random हो गए
Sandbox का महत्व
- Claude Code कभी-कभी permissions भूलकर गलत bash calls करने की कोशिश करता था, या training के इंतज़ार के दौरान loop रोक देता था, यानी अस्थिर व्यवहार दिखाता था
- पूरी तरह autonomous execution की अब भी सीमाएं हैं

समापन अवलोकन

पूरी प्रक्रिया में शुरुआती 90% हिस्सा सुचारु रहा, लेकिन अंतिम 10% में काफी हस्तक्षेप की ज़रूरत पड़ी
LLM एजेंट स्पष्ट रूप से परिभाषित search space के भीतर प्रभावी रूप से ML research कर सकता है
Autoresearch का commit-rollback loop एक structured exploration strategy के रूप में उपयोगी है
लेकिन जैसे ही इसे अज्ञात क्षेत्रों तक बढ़ाया जाता है, optimization loop अस्थिर हो जाता है
संभव है कि प्रति experiment केवल एक बदलाव की अनुमति देने वाली सीमा बड़े आइडिया exploration के लिए बहुत कड़ी रही हो
- भविष्य में planning phase जोड़ना या subagents लाना संभावित सुधार दिशाओं के रूप में सुझाया गया
experiment समाप्त होने के बाद, Claude Code के साथ सहयोग रोज़मर्रा की सामान्य स्थिति में लौटते हुए समाप्त हुआ

आभार

Ukiyo-eVG dataset: लगभग 11K जापानी woodblock print images और phrase-bounding box annotations शामिल
Autoresearch: Andrej Karpathy के मूल आइडिया पर आधारित

पुराने रिसर्च आइडिया पर Autoresearch चलाना

मुख्य आइडिया

Sandboxing

Dataset

Claude Code के साथ प्रयोग सेटअप

प्रयोग परिणाम

मुख्य सुधार बिंदु

Temperature clamp में बदलाव (-113 Mean Rank)

Optuna++ (-30 Mean Rank)

घटते प्रतिफल का चरण

Sandbox का महत्व

समापन अवलोकन

आभार

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.