• अगर आप यह assignment हल करके Claude Opus 4.5 के सर्वोच्च प्रदर्शन (1487 cycles) को पार कर लेते हैं, तो Anthropic को अपना code और resume जमा कर सकते हैं
  • शुरुआती version में 4 घंटे की सीमा थी, लेकिन बाद में Opus 4 ने अधिकांश लोगों को हरा दिया, इसलिए इसे 2 घंटे की सीमा वाले version में बदल दिया गया

Anthropic का original performance take-home assignment

  • repository में Anthropic के शुरुआती performance evaluation assignment का version शामिल है
    • यह वह version है जो Claude Opus 4.5 के 2 घंटे के भीतर इंसानों से बेहतर प्रदर्शन करने से पहले का है
    • मूल रूप से यह 4 घंटे की सीमा वाला assignment था, जिसे बाद में 2 घंटे के version में छोटा किया गया
  • 2 घंटे वाला version 18532 cycles (7.97x तेज प्रदर्शन) के starting code पर आधारित है
    • अभी जारी किया गया version नवीनतम structure बनाए रखता है, लेकिन सबसे धीमे baseline code पर वापस जाकर दिया गया है
  • Claude Opus 4.5 के बाद से नया baseline code इस्तेमाल होना शुरू हुआ

Performance benchmark

  • सभी आँकड़े simulated machine के clock cycle units में मापे गए हैं
    • नतीजे 2 घंटे वाले version (18532 cycles starting code) के आधार पर मापे गए हैं
  • मुख्य परिणाम:
    • 2164 cycles: Claude Opus 4 (test harness में लंबे समय तक चलाया गया)
    • 1790 cycles: Claude Opus 4.5 (सामान्य code session, इंसानी सर्वोच्च स्तर के समान)
    • 1579 cycles: Claude Opus 4.5 (2 घंटे test harness run)
    • 1548 cycles: Claude Sonnet 4.5 (लंबे समय का test harness run)
    • 1487 cycles: Claude Opus 4.5 (11.5 घंटे harness run)
    • 1363 cycles: Claude Opus 4.5 (बेहतर harness environment)
    • मानव का सर्वोच्च प्रदर्शन इन आँकड़ों से भी बेहतर है, लेकिन सार्वजनिक नहीं किया गया

भागीदारी और submission guide

  • फिलहाल यह assignment बिना किसी समय सीमा के सभी के लिए open है
  • अगर कोई प्रतिभागी Claude Opus 4.5 के सर्वोच्च प्रदर्शन को हराते हुए 1487 cycles या उससे कम तक optimize कर देता है, तो वह Anthropic को email से code और resume जमा कर सकता है
    • email address: performance-recruiting@anthropic.com
  • नए model के release होने पर performance benchmark बदल सकता है
  • test run python tests/submission_tests.py command से किया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.