- Anthropic ने कई दिनों तक चलने वाले लंबे, asynchronous कार्यों के लिए 5वीं पीढ़ी के मॉडल जारी किए हैं। Fable 5, Mythos-स्तर के मॉडल का सामान्य उपयोगकर्ताओं के लिए सुरक्षित बनाया गया संस्करण है, जबकि Mythos 5 उसी मॉडल का ऐसा संस्करण है जिसमें कुछ safety guardrails हटाए गए हैं
- Mythos-स्तर, Opus-स्तर से ऊपर की नई मॉडल tier है। इसका पहला मॉडल Mythos Preview अप्रैल में Project Glasswing के रूप में पेश किया गया था, और आज Fable 5 व Mythos 5 उसके बाद आए हैं
- नाम की उत्पत्ति: Fable, लैटिन शब्द fabula ("जो बताया जाता है") से आया है और ग्रीक mythos का cognate है। दोनों मॉडलों को अलग करने वाली चीज़ स्वयं safety guardrails हैं, इसलिए इनके नाम भी अलग रखे गए हैं
- कीमत input के लिए प्रति 10 लाख token $10 और output के लिए $50 है, जो Mythos Preview की आधी से भी कम है। API मॉडल नाम
claude-fable-5है
प्रदर्शन
- मुख्य संदेश यह है कि काम जितना लंबा और जटिल होता है, बढ़त उतनी अधिक दिखती है
- कोडिंग: Stripe के pre-test में इसने 5 करोड़ लाइन वाले Ruby codebase का पूरा migration एक दिन में किया (टीम हाथ से करती तो दो महीने से ज़्यादा लगते)। इसने खुद test लिखे और vision से परिणामों को मूल design के साथ cross-check कर सत्यापित किया। Cognition के FrontierCode evaluation में medium effort पर भी frontier मॉडलों में सर्वोच्च स्कोर
- एजेंट: Claude Code जैसे environment में कई दिनों तक autonomously काम करते हुए planning, sub-agent delegation, और self-verification तक करता है
- विज़न: केवल screenshot के आधार पर web app source code को फिर से बनाया, और vision-only न्यूनतम harness के साथ Pokémon FireRed पूरा किया (पिछले मॉडलों को जटिल सहायक harness चाहिए था)
- मेमोरी: Slay the Spire में file-based persistent memory देने पर Opus 4.8 की तुलना में प्रदर्शन 3 गुना बढ़ा, और अंतिम अध्याय तक पहुँचने की आवृत्ति भी 3 गुना हुई
- knowledge work: Hebbia के financial benchmark में सभी मॉडलों में सर्वोच्च स्कोर, और IMC के trading analysis evaluation को लगभग हर क्षेत्र में पास किया
बेंचमार्क
- SWE-Bench Pro 80.3% (Opus 4.8 69.2%, GPT 5.5 58.6%), GDPval-AA 1932, OSWorld 85.0% आदि के आधार पर कोडिंग, knowledge work, vision, और computer use में व्यापक बढ़त का दावा
- ध्यान दें: तालिका के कुछ आँकड़े Mythos 5 और Fable 5 में से उच्चतर मान हैं, और asterisk वाले आइटम (biology, cybersecurity आदि) पर टिप्पणी दी गई है कि safety guardrail fallback के कारण प्रदर्शन Opus 4.8 के करीब है
Mythos 5 की वैज्ञानिक उपलब्धियाँ
- protein design प्रक्रिया को लगभग 10 गुना तेज किया, और 14 targets में से 9 पर मजबूत candidate पाए। binding site selection, tool execution, और failure recovery तक बिना मानवीय सहायता के किया
- blind comparison में वैज्ञानिकों ने molecular biology hypotheses को लगभग 80% मामलों में प्राथमिकता दी। एक hypothesis (E. coli protein के नए mechanism पर) को उसी समस्या पर स्वतंत्र रूप से काम कर रही एक lab ने सत्यापित किया
- एक सप्ताह से अधिक की autonomous कार्यावधि में 138 पशु प्रजातियों के लाखों cells का डेटा इकट्ठा कर custom ML model design और train किया, और Science में प्रकाशित नवीनतम मॉडल को 100 गुना छोटे आकार में पीछे छोड़ा
- alignment evaluation: रिपोर्ट के अनुसार Mythos 5 का misalignment व्यवहार निम्न स्तर का है और Opus 4.8 जैसा है
safety guardrails
- classifier जिन तीन क्षेत्रों को block करता है वे हैं: cybersecurity, biology और chemistry, तथा distillation (authoritarian राज्यों के प्रतिस्पर्धी मॉडलों के training हेतु capability extraction की कोशिश)। ऐसे अनुरोध अपने-आप Opus 4.8 पर reroute होते हैं और उपयोगकर्ता को इसकी सूचना दी जाती है (reroute होने पर Fable शुल्क नहीं लिया जाता)
- 95% से अधिक sessions में fallback नहीं होता, और safety guardrails औसतन 5% से कम sessions में सक्रिय होते हैं। हालांकि यह भी माना गया है कि guardrails को conservative तरीके से tune किया गया है, इसलिए कभी-कभी harmless अनुरोध भी रुक जाते हैं, और false positives कम करने की योजना है
- 1,000 घंटे से अधिक के external bug bounty में कोई universal jailbreak नहीं मिला। हालांकि UK AISI ने छोटे शुरुआती परीक्षण में काफ़ी नज़दीकी प्रगति दिखाई। एक external partner test में cyberattack-संबंधित harmful single-turn requests के 30 सार्वजनिक jailbreak techniques इस्तेमाल करने पर भी 0 responses मिले
- AAV (gene therapy delivery vehicle) design evaluation में Mythos-स्तर ने केवल biological reasoning से dedicated protein language model को पीछे छोड़ा। इसे dual-use risk के प्रमाण के रूप में पेश किया गया
- उपयोग के दौरान safety monitoring के उद्देश्य से 30 दिन का data retention अनिवार्य है। यह 1st party और 3rd party सभी traffic पर लागू होता है, मॉडल training या गैर-safety उद्देश्यों के लिए उपयोग नहीं होगा, human access logging होगी और 30 दिन बाद deletion किया जाएगा
कीमत और रिलीज़
- Enterprise (usage-based) प्लान, Claude Platform, AWS, GCP, और Microsoft Foundry पर उपलब्ध
- subscription प्लान चरणबद्ध rollout में: 9 जून से 22 जून तक Pro, Max, Team, और seat-based Enterprise में मुफ़्त शामिल। 23 जून से हटाया जाएगा और usage credit की आवश्यकता होगी। capacity उपलब्ध होने पर इसे default configuration में वापस लाया जाएगा। API और usage-based Enterprise आज से पूरी तरह उपलब्ध हैं
- Mythos 5 आज से मौजूदा Mythos Preview उपयोगकर्ताओं (Glasswing partners आदि) के लिए upgrade योग्य है। अधिकतर मामलों में यह Preview जितना या थोड़ा अधिक शक्तिशाली है, जबकि लागत काफ़ी कम है। दुनिया की सबसे मज़बूत cybersecurity capability होने का दावा
- biology trusted access program भी अलग से शुरू किया जाएगा (Fable 5 में केवल biology और chemistry safety guardrails हटेंगी, cyber safety guardrails बनी रहेंगी)
अभी कोई टिप्पणी नहीं है.