• 3 दिन पहले जारी किए गए Autoresearch एजेंट ने depth=12 मॉडल के आधार पर लगभग 2 दिनों तक स्वायत्त रूप से करीब 700 बदलाव आज़माए और validation loss को बेहतर बनाने वाले लगभग 20 प्रभावी बदलाव खोजे
  • खोजे गए बदलाव सभी additive हैं और बड़े depth=24 मॉडल पर भी वैसे ही ट्रांसफ़र हो गए, जिससे leaderboard का "Time to GPT-2" 2.02 घंटे से घटकर 1.80 घंटे, यानी लगभग 11% कम हो गया
  • अब तक आइडिया निकालना → implementation → validation loss की जाँच → papers का संदर्भ लेना जैसी दोहराई जाने वाली manual optimization प्रक्रिया 20 वर्षों से की जाती रही है
  • इस बार एजेंट ने experiment results की sequence का विश्लेषण किया और उसके आधार पर अगले experiments को स्वायत्त रूप से plan करने वाला पूरा workflow end-to-end पूरा किया
  • फिलहाल "round 1" के नतीजे commit किए जा चुके हैं, और "round 2" शुरू करने की योजना है; साथ ही parallel processing के लिए कई एजेंटों के बीच collaboration मॉडल पर भी काम चल रहा है (AgentHub)
  • यह अभी ground-breaking research के स्तर का नहीं है, लेकिन manual tuning में छूट गए वास्तविक improvements के जमा होने से ठोस performance gains हासिल हुए हैं
  • बड़े पैमाने पर लागू करने पर यह सिर्फ एक train.py tuning से कहीं अधिक जटिल है, लेकिन मूल रूप से यह एक engineering problem है, इसलिए इसे हल किया जा सकता है
  • agent swarm के ज़रिए छोटे मॉडलों से tuning शुरू करके promising ideas को धीरे-धीरे बड़े scale पर promote करने का तरीका ऐसा रुझान हो सकता है जिसे हर LLM frontier lab को अपनाना पड़े
  • प्रभावी ढंग से evaluate किए जा सकने वाले (या जिनके लिए proxy metric मौजूद हों) सभी metrics इस automated optimization का लक्ष्य बन सकते हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.