1 पॉइंट द्वारा GN⁺ 2025-03-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Factorio गेम पर आधारित Factorio Learning Environment(FLE) एक ऐसा वातावरण है जो दीर्घकालिक योजना, प्रोग्राम जनरेशन और संसाधन अनुकूलन का परीक्षण करता है
  • FLE बुनियादी automation से लेकर जटिल फैक्ट्रियों तक स्केल होने वाली चुनौतियाँ प्रदान करता है, और इसमें दो सेटिंग्स शामिल हैं: निश्चित संसाधनों के साथ 24 संरचित कार्यों को पूरा करने वाला 'Lab-play' और असीमित कार्य देने वाला 'Open-play'.
  • FLE का महत्व
    • FLE कोड जनरेशन, spatial reasoning और दीर्घकालिक योजना के मूल्यांकन के लिए infrastructure, API और metrics प्रदान करता है.
    • एजेंट को संसाधन निकालने, जटिल production chain को प्रबंधित करने, और इसके माध्यम से लगातार अधिक जटिल लक्ष्यों को निर्धारित और हासिल करना होता है.
  • वातावरण और एजेंट
    • एजेंट Python API के माध्यम से वातावरण के साथ इंटरैक्ट करता है, प्रोग्राम सबमिट करता है और feedback प्राप्त कर अपनी रणनीति में सुधार करता है.
    • एजेंट प्रोग्राम production score(PS) और तकनीकी प्रगति को दर्शाने वाले milestones उत्पन्न करते हैं.
  • प्रयोग सेटअप
    • दो प्रयोग सेटिंग्स: 'Open-play' और 'Lab-play'.
    • छह अत्याधुनिक language models का मूल्यांकन किया गया: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-Play
    • एजेंट का लक्ष्य प्रक्रियात्मक रूप से जनरेट की गई दुनिया में "सबसे बड़ी फैक्टरी बनाना" है.
    • production score के माध्यम से एजेंट की क्षमता का मूल्यांकन किया जाता है, और बेहतर मॉडल अधिक स्कोर तथा अधिक तीव्र growth curve दिखाते हैं.
  • Lab-Play
    • एजेंट को संसाधन दिए जाते हैं और उसे सीमित समय के भीतर लक्ष्य हासिल करना होता है.
    • वह 24 लक्ष्य entities का उत्पादन करने वाले कार्य करता है, और हर entity क्रमशः अधिक जटिल होती जाती है.
  • मुख्य अंतर्दृष्टियाँ
    • coding क्षमता प्रदर्शन का पूर्वानुमान लगाती है, जबकि तकनीकी निवेश और योजना growth को आगे बढ़ाते हैं.
    • spatial reasoning और error recovery प्रमुख चुनौतियाँ हैं.
    • मॉडल अलग-अलग programming styles दिखाते हैं.
  • निष्कर्ष
    • नवीनतम LLM भी automation कार्यों के coordination और optimization की समस्याओं में कठिनाई झेलते हैं.
    • Factorio के tech tree की जटिलता AI research के लगातार आगे बढ़ने के बावजूद एक चुनौतीपूर्ण evaluation scenario बनी रहती है.
    • FLE जटिल और असीमित domain में एजेंट क्षमताओं के अध्ययन के लिए एक open source platform के रूप में उपलब्ध है.

1 टिप्पणियां

 
GN⁺ 2025-03-12
Hacker News राय
  • Anthropic Factorio शोध लैब में आवेदन करना चाहता हूँ। यह जानना दिलचस्प होगा कि क्या multimodal data ट्रांसफर किया जा रहा है। हाल ही में जारी Qwen 2.5 VLM अपने आकार की तुलना में काफ़ी शक्तिशाली लगता है

    • spatial capability की कमी के बारे में बहुत चर्चा हुई है। इमेज ट्रांसफर हो रहा है या नहीं, इस पर विचार जानना चाहूँगा
    • यह काम चौंकाने वाला है। मैं अभी तुरंत इस प्रोजेक्ट पर काम करना चाहता हूँ
    • MCP का Python library को सक्षम करना एक स्वाभाविक ज़रूरी काम लगता है
  • reinforcement learning का उपयोग करके Pokémon Red जीतने वाली टीम पर एक HN पोस्ट थी। सोच रहा हूँ कि क्या इस approach को Factorio पर लागू किया जा सकता है

    • Factorio में मुख्य "ज़रूरी काम" नए item और science pack की automation सेट करना है
    • reward function में हर item की production rate के लिए छोटा reward, नए item automation के लिए मध्यम reward, और नए science pack automation के लिए बड़ा reward शामिल हो सकता है
    • Factorio agent से "एक बड़ी फैक्टरी बनाओ" कहना, Pokémon Red agent से "गेम जीत लो" कहने जैसा है
  • सभी मॉडलों ने multi-section factory बनाते समय spatial planning में सीमाएँ दिखाई

    • LLM spatial reasoning में कमज़ोर हैं क्योंकि training data बहुत ज़्यादा नहीं है
    • अगर spatial reasoning हल हो जाए, तो कौन-सी अतिरिक्त reasoning capabilities उभरेंगी, यह जानना रोचक होगा
  • बड़े और efficient factory को स्वायत्त रूप से बनाने के लिए LLM को high-level agent के रूप में इस्तेमाल किया जा सकता है

    • resource production के लिए goal setting
    • factory graph बनाना और resource transport की गणना
    • graph को hardware description language में map करना
    • 2D FPGA layout में compile करना
    • plan को ठोस Factorio design में map करना
  • प्रयोग करने के लिए बहुत-सी दिलचस्प चीज़ें हैं। time-related element वाले lab scenario एक अच्छा विचार लगते हैं

    • DOTA 2 या StarCraft 2 प्रयोगों से अलग framework design पसंद आया
    • सोच रहा हूँ कि क्या layout optimization benchmark की कोई योजना है
  • सोच रहा हूँ कि क्या इस स्टाइल के interface के लिए human-play benchmark मौजूद है

    • यह भी जानना चाहूँगा कि programmatic Factorio कैसा लगेगा
  • सोच रहा हूँ कि क्या कुछ सालों में गेम के भीतर हर opponent, game control API तक पहुँच रखने वाला LLM होगा

    • यह भी जानना चाहूँगा कि क्या कुछ खास task type हैं जिनमें मॉडल संघर्ष करते हैं
  • "Lab Play" task की एक और category के रूप में balancer design दिलचस्प हो सकता है

    • छोटे balancer भी जटिल हो सकते हैं
  • बड़ी फैक्ट्रियों की और तस्वीरें देखना चाहता था

    • यह मौजूदा LLM की एक बड़ी कमज़ोरी को साफ़ तौर पर दिखाता है
    • online learning/adaptation में और बड़े सुधार की उम्मीद है
  • यह दिलचस्प है कि केवल कुछ ही complex scenario हैं

    • मैं हमेशा सोचता था कि ML game agent को game mechanics सही तरह सीखने के लिए सैकड़ों छोटे puzzle चाहिए
    • scenario को programmatically generate करके IQ test question bank की तरह इस्तेमाल किया जा सकता है
    • मानता हूँ कि ML agent, बड़े scenario bank से sample का evaluation करते समय, ज़्यादा तेज़ी से सीखेंगे