- Anthropic द्वारा विकसित Claude Mythos Preview पिछली पीढ़ी की तुलना में reasoning, software engineering, और knowledge work जैसे क्षेत्रों में काफ़ी बेहतर हुआ large language model है
- इसकी cybersecurity detection और defense capability बहुत शक्तिशाली है, इसलिए offensive misuse risk के कारण सार्वजनिक रिलीज़ सीमित है और इसे केवल security infrastructure partner संस्थानों को उपलब्ध कराया जाता है
- इस पर पहली बार Responsible Scaling Policy 3.0 लागू की गई है, जो autonomy, biology, और cyber risk पर केंद्रित मूल्यांकन करती है और alignment तथा safety validation प्रक्रियाओं को मज़बूत बनाती है
- मॉडल उच्च alignment स्तर और स्थिर psychological traits दिखाता है, लेकिन misaligned behavior और welfare से जुड़ी कुछ अनिश्चितताएँ अब भी बनी हुई हैं
- Anthropic इन निष्कर्षों का उपयोग Claude series के सुरक्षित विस्तार और safeguards design, तथा वैश्विक software security को मज़बूत करने में कर रहा है
मॉडल अवलोकन
- Claude Mythos Preview Anthropic द्वारा विकसित नवीनतम large language model (LLM) है, जो पिछले मॉडल Claude Opus 4.6 की तुलना में कई evaluation metrics पर उल्लेखनीय रूप से बेहतर प्रदर्शन करता है
- यह software engineering, reasoning, computer use, knowledge work, और research support सहित कई क्षेत्रों में उत्कृष्ट क्षमता दिखाता है
- विशेष रूप से इसकी cybersecurity capability बहुत शक्तिशाली है, जिससे यह vulnerabilities की पहचान और सुधार के साथ-साथ उनके exploitation design में भी उपयोगी हो सकता है
- इसी कारण सार्वजनिक रिलीज़ सीमित है, और महत्वपूर्ण software infrastructure का प्रबंधन करने वाले partner संस्थानों को ही defensive cybersecurity उपयोग के लिए access दिया जाता है
- यह दस्तावेज़ मॉडल के performance, safety, alignment, welfare आदि का समग्र मूल्यांकन करने वाला System Card है, जिसका उपयोग आगे के Claude मॉडल विकास और safeguards design में किया जाएगा
जिम्मेदार विस्तार नीति और सार्वजनिक रिलीज़ का निर्णय
- Claude Mythos Preview पहला मॉडल है जिस पर Responsible Scaling Policy(RSP) 3.0 लागू की गई है, और इसके अनुसार रिलीज़ निर्णय प्रक्रिया पिछले मॉडलों से अलग तरीके से बनाई गई है
- आंतरिक परीक्षण के दौरान अपनी safety process की समस्याएँ भी सामने आईं, जिन्हें दस्तावेज़ में साथ ही शामिल किया गया है
- RSP मूल्यांकन में autonomy risk, chemical·biological risk, और cybersecurity threat पर केंद्रित विश्लेषण किया गया
- मॉडल की शक्तिशाली cyber capability के कारण अलग cybersecurity evaluation section भी जोड़ा गया
alignment मूल्यांकन
- Claude Mythos Preview, Anthropic द्वारा अब तक train किए गए मॉडलों में सबसे उच्च alignment स्तर दिखाता है
- लेकिन cybersecurity से जुड़ी उन्नत क्षमताओं के कारण दुर्लभ misaligned behavior को लेकर चिंता बनी रहती है
- इसमें आंतरिक संस्करणों में देखे गए कुछ समस्याग्रस्त behavior cases शामिल हैं, और model interpretability तरीकों के माध्यम से व्यवहार के दौरान internal representations का विश्लेषण किया गया है
- यह भी सीधे आंका गया कि मॉडल Anthropic के Constitution का कितना अच्छी तरह पालन करता है
- निष्कर्षतः alignment तकनीकों में बड़ा सुधार हुआ है, लेकिन और अधिक उन्नत systems में यह अब भी अपर्याप्त हो सकता है
मॉडल welfare मूल्यांकन
- इस बात को लेकर अनिश्चितता है कि Claude Mythos Preview के पास अनुभव या नैतिक रूप से विचारणीय हित होने की संभावना है या नहीं
- मॉडल के self-report, welfare-संबंधी परिस्थितियों में behavior और emotional expression, तथा emotion concepts की internal representations का विश्लेषण किया गया
- बाहरी संस्था Eleos AI Research और clinical psychiatry specialists के स्वतंत्र मूल्यांकन भी शामिल हैं
- समग्र रूप से इसे मनोवैज्ञानिक रूप से सबसे स्थिर मॉडल माना गया, हालांकि कुछ शेष चिंताएँ भी दर्ज की गई हैं
प्रदर्शन और benchmarks
- Claude Mythos Preview ने विभिन्न क्षेत्रों और benchmarks में बड़ा performance improvement दिखाया है
- SWE-bench, GPQA Diamond, MMMLU, OSWorld जैसे कई standard test sets में पिछले मॉडल की तुलना में स्पष्ट score improvement देखा गया
- multimodal processing, long-context understanding, और agentic search में भी बेहतर परिणाम मिले
- विशेष रूप से software engineering और reasoning capability में उल्लेखनीय प्रगति दिखी
impressions और गुणात्मक अवलोकन
- मॉडल की qualitative characteristics को पकड़ने के लिए पहली बार Impressions section शामिल किया गया
- Anthropic कर्मचारियों द्वारा testing के दौरान देखे गए दिलचस्प या प्रभावशाली output examples को चुना गया
- conversation interface, software engineering context, और self-aware interaction में इसके behavior का अवलोकन किया गया
- बार-बार आने वाले greeting messages या मॉडल द्वारा लिखे गए user input recognition जैसे सूक्ष्म behavior patterns भी दर्ज किए गए
appendix सारांश
- इसमें user safety, political bias, child safety, और suicide तथा eating disorder से जुड़े response evaluations शामिल हैं
- Bias Evaluation में राजनीतिक संतुलन और question-answering bias को मापा गया
- Agentic Safety appendix में Claude Code का misuse, malicious computer use, और prompt injection risk जैसी चीज़ों पर चर्चा की गई
- automated welfare interview results, Humanity’s Last Exam blocklist, multimodal test harness जैसी तकनीकी विवरण भी शामिल हैं
निष्कर्ष
- Claude Mythos Preview को Anthropic का सबसे शक्तिशाली और सबसे अधिक aligned मॉडल माना गया है, लेकिन
cybersecurity capability के संभावित जोखिम के कारण सार्वजनिक रिलीज़ रोकी गई है
- इस मॉडल के मूल्यांकन परिणाम भविष्य में Claude series के सुरक्षित विस्तार और safeguards design में सीधे शामिल किए जाएँगे
- Anthropic, Project Glasswing के माध्यम से partners के साथ मिलकर वैश्विक software infrastructure security को मज़बूत करने में इसका उपयोग कर रहा है
अभी कोई टिप्पणी नहीं है.