कोरियाई डेवलपर के ओपन सोर्स Ouroboros ने Claude Plan Mode को पीछे छोड़ते हुए मॉडलिंग और सिमुलेशन बेंचमार्क में पहला स्थान हासिल किया

(github.com/Q00)

2 पॉइंट द्वारा shaun0927 1 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

कोरियाई डेवलपर द्वारा बनाया गया ओपन सोर्स प्रोजेक्ट Ouroboros ने
हाल ही में जारी किए गए "AI-assisted discrete-event simulation" बेंचमार्क में कुल मिलाकर पहला स्थान हासिल किया।

खास तौर पर अर्थपूर्ण बात यह रही कि, उसी Claude Max वातावरण में चलाए जाने के बावजूद, इसने Claude के अपने plan mode से बेहतर परिणाम दिए।

यह बेंचमार्क सिर्फ साधारण coding क्षमता देखने वाला टेस्ट नहीं था, बल्कि यह एक उच्च-कठिनाई वाला कार्य था जो यह आकलन करता है कि AI agent किसी वास्तविक system को कितना अच्छी तरह समझ सकता है,
उसे model कर सकता है, और executable simulation output तक बना सकता है।

यह कार्य एक mining transport system पर आधारित था, और मोटे तौर पर इसमें निम्न क्षमताओं की आवश्यकता थी।

mining truck, loading point, unloading point, path, queue आदि system structure की समझ
वास्तविक दुनिया की जटिल प्रक्रियाओं को discrete-event simulation model में abstract करना
कौन-से event होंगे, कौन-सी state बदलेगी, और किन metrics को मापना है, इसका design
वास्तव में चल सकने वाला simulation code लागू करना
bottleneck, throughput, waiting time आदि परिणामों की व्याख्या
topology diagram, animation आदि जैसे मनुष्यों के लिए आसानी से समझ आने वाले outputs बनाना

Ouroboros को Claude Code के भीतर ooo workflow के रूप में चलाया गया,
और submission में सिर्फ code implementation ही नहीं, बल्कि mining truck के अयस्क ढोने की animation और topology diagram भी शामिल थे।

दिलचस्प बात यह रही कि execution के दौरान MCP server विफल हो जाने के बावजूद,
Ouroboros ने skills-आधारित approach पर fallback करके अच्छे परिणाम दिए।
व्यक्तिगत रूप से मुझे यही हिस्सा सबसे अधिक अर्थपूर्ण लगता है।
क्योंकि वास्तविक वातावरण में AI workflow हमेशा आदर्श तरीके से काम नहीं करते,
इसलिए विफलता होने पर recovery करके किसी दूसरे रास्ते से आगे बढ़ते रहना महत्वपूर्ण है।

Ouroboros का लक्ष्य सिर्फ “AI से code लिखवाना” नहीं है।

यह ऐसा workflow बनाता है जिसमें AI समस्या को स्पष्ट करता है, योजना बनाता है, execution करता है, विफलता से recover करता है, परिणामों का मूल्यांकन करता है,
और आवश्यकता होने पर फिर से सुधार करता है।

मुझे लगता है कि यह बेंचमार्क इस बात का अच्छा सत्यापन है कि ऐसा approach वास्तविक जटिल समस्या-समाधान में भी सार्थक है।

एक और दिलचस्प बात यह थी कि केवल बहुत सारे निर्देश या बहुत बड़े skills जोड़ देने का तरीका हमेशा अच्छे परिणाम नहीं देता।
इस परिणाम में कुछ fat skills-आधारित approaches (जैसे superpowers) ने मूल plan mode से भी कम प्रदर्शन दिखाया,
जबकि दूसरी ओर Ouroboros जैसा workflow, जो problem definition, planning, execution, evaluation और recovery को संरचित करता है, बेहतर परिणाम देता दिखा।

व्यक्तिगत रूप से मुझे इस बात पर गर्व महसूस होता है कि “कोरिया के एक डेवलपर द्वारा बनाया गया ओपन सोर्स AI workflow
Anthropic के मूल plan mode से आगे निकला”।
लेकिन उससे भी अधिक महत्वपूर्ण यह है कि इसे आगे चलकर AI agent को वास्तविक समस्याएँ हल करने के लिए
कैसी संरचना चाहिए, इस पर एक छोटे प्रयोग के परिणाम के रूप में देखा जा सकता है।

Ouroboros GitHub: https://github.com/Q00/ouroboros
Benchmark: https://lnkd.in/dhGMsGVD

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.