Anthropic ने performance evaluation take-home assignment को open source किया
(github.com/anthropics)- अगर आप यह assignment हल करके Claude Opus 4.5 के सर्वोच्च प्रदर्शन (1487 cycles) को पार कर लेते हैं, तो Anthropic को अपना code और resume जमा कर सकते हैं
- शुरुआती version में 4 घंटे की सीमा थी, लेकिन बाद में Opus 4 ने अधिकांश लोगों को हरा दिया, इसलिए इसे 2 घंटे की सीमा वाले version में बदल दिया गया
Anthropic का original performance take-home assignment
- repository में Anthropic के शुरुआती performance evaluation assignment का version शामिल है
- यह वह version है जो Claude Opus 4.5 के 2 घंटे के भीतर इंसानों से बेहतर प्रदर्शन करने से पहले का है
- मूल रूप से यह 4 घंटे की सीमा वाला assignment था, जिसे बाद में 2 घंटे के version में छोटा किया गया
- 2 घंटे वाला version 18532 cycles (7.97x तेज प्रदर्शन) के starting code पर आधारित है
- अभी जारी किया गया version नवीनतम structure बनाए रखता है, लेकिन सबसे धीमे baseline code पर वापस जाकर दिया गया है
- Claude Opus 4.5 के बाद से नया baseline code इस्तेमाल होना शुरू हुआ
Performance benchmark
- सभी आँकड़े simulated machine के clock cycle units में मापे गए हैं
- नतीजे 2 घंटे वाले version (18532 cycles starting code) के आधार पर मापे गए हैं
- मुख्य परिणाम:
- 2164 cycles: Claude Opus 4 (test harness में लंबे समय तक चलाया गया)
- 1790 cycles: Claude Opus 4.5 (सामान्य code session, इंसानी सर्वोच्च स्तर के समान)
- 1579 cycles: Claude Opus 4.5 (2 घंटे test harness run)
- 1548 cycles: Claude Sonnet 4.5 (लंबे समय का test harness run)
- 1487 cycles: Claude Opus 4.5 (11.5 घंटे harness run)
- 1363 cycles: Claude Opus 4.5 (बेहतर harness environment)
- मानव का सर्वोच्च प्रदर्शन इन आँकड़ों से भी बेहतर है, लेकिन सार्वजनिक नहीं किया गया
भागीदारी और submission guide
- फिलहाल यह assignment बिना किसी समय सीमा के सभी के लिए open है
- अगर कोई प्रतिभागी Claude Opus 4.5 के सर्वोच्च प्रदर्शन को हराते हुए 1487 cycles या उससे कम तक optimize कर देता है, तो वह Anthropic को email से code और resume जमा कर सकता है
- email address: performance-recruiting@anthropic.com
- नए model के release होने पर performance benchmark बदल सकता है
- test run
python tests/submission_tests.pycommand से किया जा सकता है
1 टिप्पणियां
Hacker News की राय
ALU और VALU के संतुलन को खोजना एक अहम चुनौती लगा
लेकिन load bandwidth की समस्या bottleneck बन सकती है
2096 या उससे कम total loads हासिल करने के लिए यह मानना पड़ेगा कि start index हमेशा 0 है, और वह मज़ेदार नहीं है
अगर dynamic vector lane rotate जैसी कोई सुविधा होती, तो यह काफ़ी ज्यादा दिलचस्प होता
मैं खुद को काफ़ी स्मार्ट मानता हूँ, लेकिन ऐसे सवाल देखकर एहसास होता है कि मुझे कितना कुछ नहीं पता
शायद औसत से थोड़ा ऊपर हूँ, लेकिन top-tier developers के साथ का अंतर महसूस होता है
असली बात यह है कि जो नहीं पता, उसका सामना करके सीखते जाना आना चाहिए
मुझे भी कॉलेज के बाद hardware company के interview में low-level code optimization का सवाल मिला था, और शुरुआत में वह पूरी तरह अनजान लगा
ऐसे concepts सीखकर और इस तरह की problems पर काम करके कोई भी इन्हें हल कर सकता है
आप औसत नहीं हैं, बस आपके पास एक अलग knowledge set है
सच कहें तो यह इतना जटिल भी नहीं है
कोड को ध्यान से पढ़कर उसकी संरचना समझनी होती है
असली skill gap इस बात पर निर्भर करता है कि क्या आप पूरे program का model दिमाग में बना सकते हैं
लगता है Anthropic ने इसे शायद दूसरी AI कंपनियों पर DDoS attack की तरह जारी किया है
मैंने gemini CLI में “इस समस्या को कैसे हल करूँ?” prompt डाला, और वह 20 मिनट से बिना रुके चलता जा रहा है
वे अक्सर “मैं response तैयार कर रहा हूँ. हो गया. अब output दूँगा.” जैसी loop में फँस जाते हैं
loop detect होने के बाद कभी रुक भी जाते हैं, लेकिन मामूली कामों में भी 15 मिनट से ज्यादा लगना किसी structural समस्या जैसा लगता है
मैंने G3Pro launch के बाद इस्तेमाल किया था, और performance बहुत खराब थी
कई AI agents को एक जैसी conditions में test किया गया
नतीजे में Anthropic के target से आगे कोई model नहीं गया, लेकिन gpt-5-2 सबसे तेज़ और efficient था
उसकी speed देखकर लगता है कि उसमें और potential हो सकता है
क्या agent-comparison harness code साझा किया जा सकता है?
इसमें “अगर 1487 cycles से नीचे optimize कर लो, तो Anthropic को email भेजो” जैसी पंक्ति थी,
और यह hiring approach काफ़ी दिलचस्प लगी
आम Leetcode सवालों से यह कहीं बेहतर लगा
इसके बाद बाकी applicants की तरह Leetcode interview देना ही पड़ता है
नौकरी करने वाले किसी व्यक्ति के लिए, जो कई कंपनियों में apply कर रहा हो, यह अव्यावहारिक है
Leetcode दोबारा इस्तेमाल किया जा सकता है, लेकिन ऐसी optimization problems की reusability कम होती है
यह सच में बहुत मज़ेदार समस्या थी
जिसे optimization में दिलचस्पी है, उसे इसे ज़रूर आज़माना चाहिए
मैंने एक हफ्ते तक शाम का समय लगाकर इसे 1112 cycles तक घटाया
ज़्यादातर काम हाथ से किया, लेकिन सोचता हूँ कि आज के agentic models शायद इससे बेहतर नतीजे दे सकें
इस assignment में demoscene और code golf जैसा एहसास आता है
Chrome tracing tool से profiling करना भी बढ़िया है
समस्या कोड लिंक
बस यह जानने की जिज्ञासा है कि इसमें कौन-सा algorithm implement किया गया है
सरसरी तौर पर देखने पर यह random forest prediction जैसा लगा
इससे खुद viewer बनाने की मेहनत बचती है
मैं SIMD, PTX और optimization techniques सीख रहा था, इसलिए यह assignment सीखने का अच्छा मौका था
लेकिन take-home assignment के तौर पर यह शायद बहुत लंबा था
असल में ideas sketch करने और code पढ़ने में ही शायद 2 घंटे लग जाते
असली candidates को 6 घंटे से 2 दिन तक लगे होंगे
अभी Opus के साथ 1 घंटे में 1137 cycles तक पहुँच गया हूँ
pipeline-vectorized hash, speculative execution, stage-wise static code, और हर चरण के prologue/epilogue जैसी चीजें लागू कीं
अब लगता है कि 900 से नीचे भी जाया जा सकता है
यह समझ आया कि stage 4 में सिर्फ bit 16 और 0 देखकर भी stage 5 की odd/even स्थिति parallel में निकाली जा सकती है