- Factorio गेम पर आधारित Factorio Learning Environment(FLE) एक ऐसा वातावरण है जो दीर्घकालिक योजना, प्रोग्राम जनरेशन और संसाधन अनुकूलन का परीक्षण करता है
- FLE बुनियादी automation से लेकर जटिल फैक्ट्रियों तक स्केल होने वाली चुनौतियाँ प्रदान करता है, और इसमें दो सेटिंग्स शामिल हैं: निश्चित संसाधनों के साथ 24 संरचित कार्यों को पूरा करने वाला 'Lab-play' और असीमित कार्य देने वाला 'Open-play'.
- FLE का महत्व
- FLE कोड जनरेशन, spatial reasoning और दीर्घकालिक योजना के मूल्यांकन के लिए infrastructure, API और metrics प्रदान करता है.
- एजेंट को संसाधन निकालने, जटिल production chain को प्रबंधित करने, और इसके माध्यम से लगातार अधिक जटिल लक्ष्यों को निर्धारित और हासिल करना होता है.
- वातावरण और एजेंट
- एजेंट Python API के माध्यम से वातावरण के साथ इंटरैक्ट करता है, प्रोग्राम सबमिट करता है और feedback प्राप्त कर अपनी रणनीति में सुधार करता है.
- एजेंट प्रोग्राम production score(PS) और तकनीकी प्रगति को दर्शाने वाले milestones उत्पन्न करते हैं.
- प्रयोग सेटअप
- दो प्रयोग सेटिंग्स: 'Open-play' और 'Lab-play'.
- छह अत्याधुनिक language models का मूल्यांकन किया गया: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
- Open-Play
- एजेंट का लक्ष्य प्रक्रियात्मक रूप से जनरेट की गई दुनिया में "सबसे बड़ी फैक्टरी बनाना" है.
- production score के माध्यम से एजेंट की क्षमता का मूल्यांकन किया जाता है, और बेहतर मॉडल अधिक स्कोर तथा अधिक तीव्र growth curve दिखाते हैं.
- Lab-Play
- एजेंट को संसाधन दिए जाते हैं और उसे सीमित समय के भीतर लक्ष्य हासिल करना होता है.
- वह 24 लक्ष्य entities का उत्पादन करने वाले कार्य करता है, और हर entity क्रमशः अधिक जटिल होती जाती है.
- मुख्य अंतर्दृष्टियाँ
- coding क्षमता प्रदर्शन का पूर्वानुमान लगाती है, जबकि तकनीकी निवेश और योजना growth को आगे बढ़ाते हैं.
- spatial reasoning और error recovery प्रमुख चुनौतियाँ हैं.
- मॉडल अलग-अलग programming styles दिखाते हैं.
- निष्कर्ष
- नवीनतम LLM भी automation कार्यों के coordination और optimization की समस्याओं में कठिनाई झेलते हैं.
- Factorio के tech tree की जटिलता AI research के लगातार आगे बढ़ने के बावजूद एक चुनौतीपूर्ण evaluation scenario बनी रहती है.
- FLE जटिल और असीमित domain में एजेंट क्षमताओं के अध्ययन के लिए एक open source platform के रूप में उपलब्ध है.
1 टिप्पणियां
Hacker News राय
Anthropic Factorio शोध लैब में आवेदन करना चाहता हूँ। यह जानना दिलचस्प होगा कि क्या multimodal data ट्रांसफर किया जा रहा है। हाल ही में जारी Qwen 2.5 VLM अपने आकार की तुलना में काफ़ी शक्तिशाली लगता है
reinforcement learning का उपयोग करके Pokémon Red जीतने वाली टीम पर एक HN पोस्ट थी। सोच रहा हूँ कि क्या इस approach को Factorio पर लागू किया जा सकता है
सभी मॉडलों ने multi-section factory बनाते समय spatial planning में सीमाएँ दिखाई
बड़े और efficient factory को स्वायत्त रूप से बनाने के लिए LLM को high-level agent के रूप में इस्तेमाल किया जा सकता है
प्रयोग करने के लिए बहुत-सी दिलचस्प चीज़ें हैं। time-related element वाले lab scenario एक अच्छा विचार लगते हैं
सोच रहा हूँ कि क्या इस स्टाइल के interface के लिए human-play benchmark मौजूद है
सोच रहा हूँ कि क्या कुछ सालों में गेम के भीतर हर opponent, game control API तक पहुँच रखने वाला LLM होगा
"Lab Play" task की एक और category के रूप में balancer design दिलचस्प हो सकता है
बड़ी फैक्ट्रियों की और तस्वीरें देखना चाहता था
यह दिलचस्प है कि केवल कुछ ही complex scenario हैं