Claude Fable 5/Mythos 5 पेश, Anthropic के 5वीं पीढ़ी के frontier मॉडल

boradi · 2026-06-10T02:46:30+09:00

Anthropic ने कई दिनों तक चलने वाले लंबे, asynchronous कार्यों के लिए 5वीं पीढ़ी के मॉडल जारी किए हैं। Fable 5, Mythos-स्तर के मॉडल का सामान्य उपयोगकर्ताओं के लिए सुरक्षित बनाया गया संस्करण है, जबकि Mythos 5 उसी मॉडल का ऐसा संस्करण है जिसमें कुछ safety guardrails हटाए गए हैं Mythos-स्तर, Opus-स्तर से ऊपर की नई मॉडल tier है। इसका पहला मॉडल Mythos Preview अप्रैल में Project Glasswing के रूप में पेश किया गया था, और आज Fable 5 व Mythos 5 उसके बाद आए हैं नाम की उत्पत्ति: Fable, लैटिन शब्द fabula ("जो बताया जाता है") से आया है और ग्रीक mythos का cognate है। दोनों मॉडलों को अलग करने वाली चीज़ स्वयं safety guardrails हैं, इसलिए इनके नाम भी अलग रखे गए हैं कीमत input के लिए प्रति 10 लाख token $10 और output के लिए $50 है, जो Mythos Preview की आधी से भी कम है। API मॉडल नाम claude-fable-5 है प्रदर्शन मुख्य संदेश यह है कि काम जितना लंबा और जटिल होता है, बढ़त उतनी अधिक दिखती है कोडिंग: Stripe के pre-test में इसने 5 करोड़ लाइन वाले Ruby codebase का पूरा migration एक दिन में किया (टीम हाथ से करती तो दो महीने से ज़्यादा लगते)। इसने खुद test लिखे और vision से परिणामों को मूल design के साथ cross-check कर सत्यापित किया। Cognition के FrontierCode evaluation में medium effort पर भी frontier मॉडलों में सर्वोच्च स्कोर एजेंट: Claude Code जैसे environment में कई दिनों तक autonomously काम करते हुए planning, sub-agent delegation, और self-verification तक करता है विज़न: केवल screenshot के आधार पर web app source code को फिर से बनाया, और vision-only न्यूनतम harness के साथ Pokémon FireRed पूरा किया (पिछले मॉडलों को जटिल सहायक harness चाहिए था) मेमोरी: Slay the Spire में file-based persistent memory देने पर Opus 4.8 की तुलना में प्रदर्शन 3 गुना बढ़ा, और अंतिम अध्याय तक पहुँचने की आवृत्ति भी 3 गुना हुई knowledge work: Hebbia के financial benchmark में सभी मॉडलों में सर्वोच्च स्कोर, और IMC के trading analysis evaluation को लगभग हर क्षेत्र में पास किया बेंचमार्क SWE-Bench Pro 80.3% (Opus 4.8 69.2%, GPT 5.5 58.6%), GDPval-AA 1932, OSWorld 85.0% आदि के आधार पर कोडिंग, knowledge work, vision, और computer use में व्यापक बढ़त का दावा ध्यान दें: तालिका के कुछ आँकड़े Mythos 5 और Fable 5 में से उच्चतर मान हैं, और asterisk वाले आइटम (biology, cybersecurity आदि) पर टिप्पणी दी गई है कि safety guardrail fallback के कारण प्रदर्शन Opus 4.8 के करीब है Mythos 5 की वैज्ञानिक उपलब्धियाँ protein design प्रक्रिया को लगभग 10 गुना तेज किया, और 14 targets में से 9 पर मजबूत candidate पाए। binding site selection, tool execution, और failure recovery तक बिना मानवीय सहायता के किया blind comparison में वैज्ञानिकों ने molecular biology hypotheses को लगभग 80% मामलों में प्राथमिकता दी। एक hypothesis (E. coli protein के नए mechanism पर) को उसी समस्या पर स्वतंत्र रूप से काम कर रही एक lab ने सत्यापित किया एक सप्ताह से अधिक की autonomous कार्यावधि में 138 पशु प्रजातियों के लाखों cells का डेटा इकट्ठा कर custom ML model design और train किया, और Science में प्रकाशित नवीनतम मॉडल को 100 गुना छोटे आकार में पीछे छोड़ा alignment evaluation: रिपोर्ट के अनुसार Mythos 5 का misalignment व्यवहार निम्न स्तर का है और Opus 4.8 जैसा है safety guardrails classifier जिन तीन क्षेत्रों को block करता है वे हैं: cybersecurity, biology और chemistry, तथा distillation (authoritarian राज्यों के प्रतिस्पर्धी मॉडलों के training हेतु capability extraction की कोशिश)। ऐसे अनुरोध अपने-आप Opus 4.8 पर reroute होते हैं और उपयोगकर्ता को इसकी सूचना दी जाती है (reroute होने पर Fable शुल्क नहीं लिया जाता) 95% से अधिक sessions में fallback नहीं होता, और safety guardrails औसतन 5% से कम sessions में सक्रिय होते हैं। हालांकि यह भी माना गया है कि guardrails को conservative तरीके से tune किया गया है, इसलिए कभी-कभी harmless अनुरोध भी रुक जाते हैं, और false positives कम करने की योजना है 1,000 घंटे से अधिक के external bug bounty में कोई universal jailbreak नहीं मिला। हालांकि UK AISI ने छोटे शुरुआती परीक्षण में काफ़ी नज़दीकी प्रगति दिखाई। एक external partner test में cyberattack-संबंधित harmful single-turn requests के 30 सार्वजनिक jailbreak techniques इस्तेमाल करने पर भी 0 responses मिले AAV (gene therapy delivery vehicle) design evaluation में Mythos-स्तर ने केवल biological reasoning से dedicated protein language model को पीछे छोड़ा। इसे dual-use risk के प्रमाण के रूप में पेश किया गया उपयोग के दौरान safety monitoring के उद्देश्य से 30 दिन का data retention अनिवार्य है। यह 1st party और 3rd party सभी traffic पर लागू होता है, मॉडल training या गैर-safety उद्देश्यों के लिए उपयोग नहीं होगा, human access logging होगी और 30 दिन बाद deletion किया जाएगा कीमत और रिलीज़ Enterprise (usage-based) प्लान, Claude Platform, AWS, GCP, और Microsoft Foundry पर उपलब्ध subscription प्लान चरणबद्ध rollout में: 9 जून से 22 जून तक Pro, Max, Team, और seat-based Enterprise में मुफ़्त शामिल। 23 जून से हटाया जाएगा और usage credit की आवश्यकता होगी। capacity उपलब्ध होने पर इसे default configuration में वापस लाया जाएगा। API और usage-based Enterprise आज से पूरी तरह उपलब्ध हैं Mythos 5 आज से मौजूदा Mythos Preview उपयोगकर्ताओं (Glasswing partners आदि) के लिए upgrade योग्य है। अधिकतर मामलों में यह Preview जितना या थोड़ा अधिक शक्तिशाली है, जबकि लागत काफ़ी कम है। दुनिया की सबसे मज़बूत cybersecurity capability होने का दावा biology trusted access program भी अलग से शुरू किया जाएगा (Fable 5 में केवल biology और chemistry safety guardrails हटेंगी, cyber safety guardrails बनी रहेंगी)

(anthropic.com)

20 पॉइंट द्वारा boradi 2026-06-10 | 14 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic ने कई दिनों तक चलने वाले लंबे, asynchronous कार्यों के लिए 5वीं पीढ़ी के मॉडल जारी किए हैं। Fable 5, Mythos-स्तर के मॉडल का सामान्य उपयोगकर्ताओं के लिए सुरक्षित बनाया गया संस्करण है, जबकि Mythos 5 उसी मॉडल का ऐसा संस्करण है जिसमें कुछ safety guardrails हटाए गए हैं
Mythos-स्तर, Opus-स्तर से ऊपर की नई मॉडल tier है। इसका पहला मॉडल Mythos Preview अप्रैल में Project Glasswing के रूप में पेश किया गया था, और आज Fable 5 व Mythos 5 उसके बाद आए हैं
नाम की उत्पत्ति: Fable, लैटिन शब्द fabula ("जो बताया जाता है") से आया है और ग्रीक mythos का cognate है। दोनों मॉडलों को अलग करने वाली चीज़ स्वयं safety guardrails हैं, इसलिए इनके नाम भी अलग रखे गए हैं
कीमत input के लिए प्रति 10 लाख token $10 और output के लिए $50 है, जो Mythos Preview की आधी से भी कम है। API मॉडल नाम claude-fable-5 है

प्रदर्शन

मुख्य संदेश यह है कि काम जितना लंबा और जटिल होता है, बढ़त उतनी अधिक दिखती है
कोडिंग: Stripe के pre-test में इसने 5 करोड़ लाइन वाले Ruby codebase का पूरा migration एक दिन में किया (टीम हाथ से करती तो दो महीने से ज़्यादा लगते)। इसने खुद test लिखे और vision से परिणामों को मूल design के साथ cross-check कर सत्यापित किया। Cognition के FrontierCode evaluation में medium effort पर भी frontier मॉडलों में सर्वोच्च स्कोर
एजेंट: Claude Code जैसे environment में कई दिनों तक autonomously काम करते हुए planning, sub-agent delegation, और self-verification तक करता है
विज़न: केवल screenshot के आधार पर web app source code को फिर से बनाया, और vision-only न्यूनतम harness के साथ Pokémon FireRed पूरा किया (पिछले मॉडलों को जटिल सहायक harness चाहिए था)
मेमोरी: Slay the Spire में file-based persistent memory देने पर Opus 4.8 की तुलना में प्रदर्शन 3 गुना बढ़ा, और अंतिम अध्याय तक पहुँचने की आवृत्ति भी 3 गुना हुई
knowledge work: Hebbia के financial benchmark में सभी मॉडलों में सर्वोच्च स्कोर, और IMC के trading analysis evaluation को लगभग हर क्षेत्र में पास किया

बेंचमार्क

SWE-Bench Pro 80.3% (Opus 4.8 69.2%, GPT 5.5 58.6%), GDPval-AA 1932, OSWorld 85.0% आदि के आधार पर कोडिंग, knowledge work, vision, और computer use में व्यापक बढ़त का दावा
ध्यान दें: तालिका के कुछ आँकड़े Mythos 5 और Fable 5 में से उच्चतर मान हैं, और asterisk वाले आइटम (biology, cybersecurity आदि) पर टिप्पणी दी गई है कि safety guardrail fallback के कारण प्रदर्शन Opus 4.8 के करीब है

Mythos 5 की वैज्ञानिक उपलब्धियाँ

protein design प्रक्रिया को लगभग 10 गुना तेज किया, और 14 targets में से 9 पर मजबूत candidate पाए। binding site selection, tool execution, और failure recovery तक बिना मानवीय सहायता के किया
blind comparison में वैज्ञानिकों ने molecular biology hypotheses को लगभग 80% मामलों में प्राथमिकता दी। एक hypothesis (E. coli protein के नए mechanism पर) को उसी समस्या पर स्वतंत्र रूप से काम कर रही एक lab ने सत्यापित किया
एक सप्ताह से अधिक की autonomous कार्यावधि में 138 पशु प्रजातियों के लाखों cells का डेटा इकट्ठा कर custom ML model design और train किया, और Science में प्रकाशित नवीनतम मॉडल को 100 गुना छोटे आकार में पीछे छोड़ा
alignment evaluation: रिपोर्ट के अनुसार Mythos 5 का misalignment व्यवहार निम्न स्तर का है और Opus 4.8 जैसा है

safety guardrails

classifier जिन तीन क्षेत्रों को block करता है वे हैं: cybersecurity, biology और chemistry, तथा distillation (authoritarian राज्यों के प्रतिस्पर्धी मॉडलों के training हेतु capability extraction की कोशिश)। ऐसे अनुरोध अपने-आप Opus 4.8 पर reroute होते हैं और उपयोगकर्ता को इसकी सूचना दी जाती है (reroute होने पर Fable शुल्क नहीं लिया जाता)
95% से अधिक sessions में fallback नहीं होता, और safety guardrails औसतन 5% से कम sessions में सक्रिय होते हैं। हालांकि यह भी माना गया है कि guardrails को conservative तरीके से tune किया गया है, इसलिए कभी-कभी harmless अनुरोध भी रुक जाते हैं, और false positives कम करने की योजना है
1,000 घंटे से अधिक के external bug bounty में कोई universal jailbreak नहीं मिला। हालांकि UK AISI ने छोटे शुरुआती परीक्षण में काफ़ी नज़दीकी प्रगति दिखाई। एक external partner test में cyberattack-संबंधित harmful single-turn requests के 30 सार्वजनिक jailbreak techniques इस्तेमाल करने पर भी 0 responses मिले
AAV (gene therapy delivery vehicle) design evaluation में Mythos-स्तर ने केवल biological reasoning से dedicated protein language model को पीछे छोड़ा। इसे dual-use risk के प्रमाण के रूप में पेश किया गया
उपयोग के दौरान safety monitoring के उद्देश्य से 30 दिन का data retention अनिवार्य है। यह 1st party और 3rd party सभी traffic पर लागू होता है, मॉडल training या गैर-safety उद्देश्यों के लिए उपयोग नहीं होगा, human access logging होगी और 30 दिन बाद deletion किया जाएगा

कीमत और रिलीज़

Enterprise (usage-based) प्लान, Claude Platform, AWS, GCP, और Microsoft Foundry पर उपलब्ध
subscription प्लान चरणबद्ध rollout में: 9 जून से 22 जून तक Pro, Max, Team, और seat-based Enterprise में मुफ़्त शामिल। 23 जून से हटाया जाएगा और usage credit की आवश्यकता होगी। capacity उपलब्ध होने पर इसे default configuration में वापस लाया जाएगा। API और usage-based Enterprise आज से पूरी तरह उपलब्ध हैं
Mythos 5 आज से मौजूदा Mythos Preview उपयोगकर्ताओं (Glasswing partners आदि) के लिए upgrade योग्य है। अधिकतर मामलों में यह Preview जितना या थोड़ा अधिक शक्तिशाली है, जबकि लागत काफ़ी कम है। दुनिया की सबसे मज़बूत cybersecurity capability होने का दावा
biology trusted access program भी अलग से शुरू किया जाएगा (Fable 5 में केवल biology और chemistry safety guardrails हटेंगी, cyber safety guardrails बनी रहेंगी)

14 टिप्पणियां

makekr 2026-06-11

अगर आप अपने ही प्रोजेक्ट की security मजबूत करने को कहें, तब भी उस बेकार safety guardrail की वजह से वह रोक देता है.
मुझे लगता है कि इस हालत में इसे लॉन्च करना बस stock listing के लिए किया गया एक तकनीकी दिखावा भर है.

wkang586 2026-06-10

सुना है कि आज से इसे Cursor में इस्तेमाल किया जा सकता है, इसलिए मैं इसकी evaluation कैसी है यह ढूँढने की कोशिश कर रहा था, लेकिन अभी जानकारी ज़्यादा नहीं है.
कहा जा रहा है कि performance evaluation score Opus से बेहतर है, तो लगता है एक बार इस्तेमाल करके ही पता चलेगा.
चिंता इस बात की है कि यह tokens कितने खाएगा.

gkhcdef 2026-06-11

यह 5x प्लान है, लेकिन एक बार code review चलाया तो यह 40 मिनट तक चलता रहा और 5 घंटे की limit पूरी भर दी;;;; हर code review इतना ज़्यादा use नहीं करता, और सुधार के points भी अच्छी तरह ढूंढ लेता है, लेकिन सच में...
थोड़ा व्यंग्य में कहूं तो, अगर opus या gpt भी इसी तरह इतनी 'मेहनत' से काम करें, तो लगता है result में बहुत फ़र्क नहीं होगा। कुछ क्षेत्रों में 40 मिनट तक इस तरह काम करना बहुत बड़ा फ़ायदा भी हो सकता है, लेकिन

bluekai17 2026-06-11

मैंने इसे कल इस्तेमाल किया था, और सच में token consumption काफ़ी जल्दी हो जाता है। code quality बेहतर लगी, और यह review और security issues तक एक साथ संभाल देता है।

seoseonyu 2026-06-10

इसे इस्तेमाल करके देखना चाहता/चाहती हूँ, लेकिन Claude का पेमेंट करूँ तब भी
23 जून के बाद से यह subscription usage में शामिल नहीं होगा, इसलिए हाथ नहीं बढ़ रहा...

awbrg789 2026-06-10

मानता हूँ..

savvykang 2026-06-10

उस लिंक पर बातचीत के दौरान जब उस मामले का ज़िक्र किया गया, जिसमें Fable ने CSAT की Biology 1 समस्या हल करने से इनकार कर दिया था, तो उसने कहा कि बातचीत का विषय ख़तरनाक है और ज़बरदस्ती Opus 4.8 पर स्विच कर दिया। मैं सच में अपने प्लान को डाउनग्रेड करने पर गंभीरता से विचार कर रहा हूँ।

dhkd63 2026-06-10

मैं सोच रहा हूँ कि claude से codex पर जाऊँ या नहीं,
पता नहीं। पहले थोड़ा इस्तेमाल करके देखता हूँ

winkagn 2026-06-10

पहले तो लिखा है कि tokens, opus की तुलना में 2 गुना तेजी से खत्म होते हैं, इसलिए मैंने इसे इस्तेमाल करके देखा, लेकिन अनुभव के हिसाब से मुझे खास फर्क समझ नहीं आया... और काम के अनुसार, नीचे दिए गए कारणों से कभी-कभी यह अपने-आप opus मॉडल पर switch हो जाता है। (https://support.claude.com/en/articles/15363606)

bluekai17 2026-06-11

टोकन की खपत तो वाकई महसूस होती है। स्विच होना शायद तब अपने-आप होता है जब इसे संवेदनशील सुरक्षा मुद्दा माना जाता है, लेकिन अभी वह थ्रेशहोल्ड काफ़ी ज़्यादा लगता है।

newdps 2026-06-10

codex इस्तेमाल करते हुए बस थोड़ा ट्राय किया और तुरंत 200 डॉलर का पेमेंट कर दिया

shakespeares 2026-06-10

क्या फायदे थे?

jimmy2056 2026-06-10

मेरे अनुभव में इसका काम की quality ठीक-ठाक लगी और token usage भी कम था। Claude का 200 डॉलर वाला प्लान कम पड़ गया, लेकिन Codex का 200 डॉलर वाला प्लान बच गया।