OpenMythos: Claude Mythos का reverse-engineered open source implementation सामने आया
(github.com/kyegomez)- Claude Mythos की संरचना का अनुमान लगाकर इसे “बार-बार सोचने वाले transformer” के रूप में लागू करने वाला open source project
- OpenMythos, Anthropic के अगली पीढ़ी के model माने जाने वाले Claude Mythos के आधार पर, सार्वजनिक जानकारी और research ideas को जोड़कर उसकी संरचना को पुनर्निर्मित करता है
- यह वास्तविक model नहीं है, बल्कि “यह इस तरह काम कर सकता है” जैसी परिकल्पना को code में लागू करने वाला project है
मुख्य विचार
इस project का मूल विचार यह है कि पारंपरिक LLMs से अलग,
model को और बड़ा बनाने के बजाय उसी संरचना को कई बार दोहराकर चलाया जाता है।
एक ही layer को कई बार चलाते हुए आंतरिक state को धीरे-धीरे update किया जाता है,
और इस प्रक्रिया में अधिक गहरा reasoning किया जाता है।
प्रमुख संरचना
- एक ही transformer block को बार-बार चलाने वाली संरचना
- पुनरावृत्ति की प्रक्रिया में अलग-अलग experts (MoE) का चयनात्मक activation
- मध्यवर्ती परिणामों को बाहरी tokens के रूप में output न करके आंतरिक state में process करना
- memory efficiency बेहतर करने के लिए attention संरचना का उपयोग
मौजूदा तरीकों से अंतर
सामान्य LLMs में tokens generate करते हुए reasoning process सामने आती है,
जबकि यह संरचना अंदर ही कई बार computation दोहराने के बाद केवल final result output करने के अधिक करीब है।
यानी, “बोलते हुए सोचना” नहीं बल्कि
“अंदर ही पर्याप्त सोचने के बाद बोलने वाली संरचना” की ओर यह इशारा करती है।
महत्व
यह approach token usage बढ़ने से जुड़ी cost समस्या से भी संबंधित है।
क्योंकि अगर reasoning को internal repetition के रूप में संभाला जाए, तो बाहर generate होने वाले tokens की संख्या कम की जा सकती है।
साथ ही, model का प्रदर्शन parameter count बढ़ाकर नहीं
बल्कि inference चरण में computation बढ़ाकर ऊपर ले जाने की दिशा में इसे एक नए रुझान के रूप में देखा जा सकता है।
सीमाएँ
यह गारंटी नहीं है कि यह वास्तविक Claude Mythos की संरचना के समान है,
और सत्यापित performance या large-scale experiment results अभी भी पर्याप्त नहीं हैं।
एक पंक्ति की insight
- model को और बड़ा बनाने के बजाय, उसी model को बार-बार चलाकर उसे अधिक गहराई से सोचने देना अगली पीढ़ी के LLM design की दिशा बन सकता है
अभी कोई टिप्पणी नहीं है.