Anthropic ने performance evaluation take-home assignment को open source किया

(github.com/anthropics)

11 पॉइंट द्वारा GN⁺ 2026-01-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

अगर आप यह assignment हल करके Claude Opus 4.5 के सर्वोच्च प्रदर्शन (1487 cycles) को पार कर लेते हैं, तो Anthropic को अपना code और resume जमा कर सकते हैं
शुरुआती version में 4 घंटे की सीमा थी, लेकिन बाद में Opus 4 ने अधिकांश लोगों को हरा दिया, इसलिए इसे 2 घंटे की सीमा वाले version में बदल दिया गया

Anthropic का original performance take-home assignment

repository में Anthropic के शुरुआती performance evaluation assignment का version शामिल है
- यह वह version है जो Claude Opus 4.5 के 2 घंटे के भीतर इंसानों से बेहतर प्रदर्शन करने से पहले का है
- मूल रूप से यह 4 घंटे की सीमा वाला assignment था, जिसे बाद में 2 घंटे के version में छोटा किया गया
2 घंटे वाला version 18532 cycles (7.97x तेज प्रदर्शन) के starting code पर आधारित है
- अभी जारी किया गया version नवीनतम structure बनाए रखता है, लेकिन सबसे धीमे baseline code पर वापस जाकर दिया गया है
Claude Opus 4.5 के बाद से नया baseline code इस्तेमाल होना शुरू हुआ

Performance benchmark

सभी आँकड़े simulated machine के clock cycle units में मापे गए हैं
- नतीजे 2 घंटे वाले version (18532 cycles starting code) के आधार पर मापे गए हैं
मुख्य परिणाम:
- 2164 cycles: Claude Opus 4 (test harness में लंबे समय तक चलाया गया)
- 1790 cycles: Claude Opus 4.5 (सामान्य code session, इंसानी सर्वोच्च स्तर के समान)
- 1579 cycles: Claude Opus 4.5 (2 घंटे test harness run)
- 1548 cycles: Claude Sonnet 4.5 (लंबे समय का test harness run)
- 1487 cycles: Claude Opus 4.5 (11.5 घंटे harness run)
- 1363 cycles: Claude Opus 4.5 (बेहतर harness environment)
- मानव का सर्वोच्च प्रदर्शन इन आँकड़ों से भी बेहतर है, लेकिन सार्वजनिक नहीं किया गया

भागीदारी और submission guide

फिलहाल यह assignment बिना किसी समय सीमा के सभी के लिए open है
अगर कोई प्रतिभागी Claude Opus 4.5 के सर्वोच्च प्रदर्शन को हराते हुए 1487 cycles या उससे कम तक optimize कर देता है, तो वह Anthropic को email से code और resume जमा कर सकता है
- email address: performance-recruiting@anthropic.com
नए model के release होने पर performance benchmark बदल सकता है
test run python tests/submission_tests.py command से किया जा सकता है

1 टिप्पणियां

GN⁺ 2026-01-22

Hacker News की राय

ALU और VALU के संतुलन को खोजना एक अहम चुनौती लगा
लेकिन load bandwidth की समस्या bottleneck बन सकती है
2096 या उससे कम total loads हासिल करने के लिए यह मानना पड़ेगा कि start index हमेशा 0 है, और वह मज़ेदार नहीं है
अगर dynamic vector lane rotate जैसी कोई सुविधा होती, तो यह काफ़ी ज्यादा दिलचस्प होता
मैं खुद को काफ़ी स्मार्ट मानता हूँ, लेकिन ऐसे सवाल देखकर एहसास होता है कि मुझे कितना कुछ नहीं पता
शायद औसत से थोड़ा ऊपर हूँ, लेकिन top-tier developers के साथ का अंतर महसूस होता है
- computing इतना विस्तृत क्षेत्र है कि Linus या Carmack को भी बहुत-से हिस्सों की जानकारी नहीं होगी
  असली बात यह है कि जो नहीं पता, उसका सामना करके सीखते जाना आना चाहिए
- यह बहुत विशेष तरह की समस्या है, इसलिए अगर आपने पहले ऐसा कुछ नहीं किया है तो समय लगना स्वाभाविक है
  मुझे भी कॉलेज के बाद hardware company के interview में low-level code optimization का सवाल मिला था, और शुरुआत में वह पूरी तरह अनजान लगा
- 30 साल का अनुभव होने के बावजूद, सच कहूँ तो मैं सवाल को समझ ही नहीं पाया
- स्मार्टनेस और ज्ञान अलग चीजें हैं
  ऐसे concepts सीखकर और इस तरह की problems पर काम करके कोई भी इन्हें हल कर सकता है
  आप औसत नहीं हैं, बस आपके पास एक अलग knowledge set है
- ऐसा रवैया अच्छा है क्योंकि यह सीखने की प्रेरणा देता है
  सच कहें तो यह इतना जटिल भी नहीं है
  कोड को ध्यान से पढ़कर उसकी संरचना समझनी होती है
  असली skill gap इस बात पर निर्भर करता है कि क्या आप पूरे program का model दिमाग में बना सकते हैं
लगता है Anthropic ने इसे शायद दूसरी AI कंपनियों पर DDoS attack की तरह जारी किया है
मैंने gemini CLI में “इस समस्या को कैसे हल करूँ?” prompt डाला, और वह 20 मिनट से बिना रुके चलता जा रहा है
- हाल में Gemini CLI या Jules में समय कठिनाई का पैमाना नहीं रहा
  वे अक्सर “मैं response तैयार कर रहा हूँ. हो गया. अब output दूँगा.” जैसी loop में फँस जाते हैं
  loop detect होने के बाद कभी रुक भी जाते हैं, लेकिन मामूली कामों में भी 15 मिनट से ज्यादा लगना किसी structural समस्या जैसा लगता है
- जानना चाहूँगा कि कौन-सा Gemini model इस्तेमाल किया गया था
  मैंने G3Pro launch के बाद इस्तेमाल किया था, और performance बहुत खराब थी
कई AI agents को एक जैसी conditions में test किया गया
नतीजे में Anthropic के target से आगे कोई model नहीं गया, लेकिन gpt-5-2 सबसे तेज़ और efficient था
- codex CLI + gpt-5-2-codex-xhigh को “beat 1487 cycles. go.” prompt दिया, तो वह 1606 तक पहुँचा, और लगभग 53 मिनट लगे
- सोच रहा हूँ कि अगर Gemini को लंबे समय तक loop में चलने दिया जाए तो क्या होगा
  उसकी speed देखकर लगता है कि उसमें और potential हो सकता है
- मैं model benchmarking सीखना चाहता हूँ
  क्या agent-comparison harness code साझा किया जा सकता है?
- Qwen3-coder, GLM-4.7, Devstral-2 जैसे open-weight models से भी कोशिश करने का सुझाव है
- अच्छा होगा अगर हर model के solutions को directory या branch के हिसाब से इकट्ठा करके comparison repo बनाया जाए
इसमें “अगर 1487 cycles से नीचे optimize कर लो, तो Anthropic को email भेजो” जैसी पंक्ति थी,
और यह hiring approach काफ़ी दिलचस्प लगी
आम Leetcode सवालों से यह कहीं बेहतर लगा
- लेकिन यह सिर्फ hiring pipeline में entry के लिए है
  इसके बाद बाकी applicants की तरह Leetcode interview देना ही पड़ता है
- ऐसी problem हल करने में full-time पूरा एक हफ्ता लग सकता है
  नौकरी करने वाले किसी व्यक्ति के लिए, जो कई कंपनियों में apply कर रहा हो, यह अव्यावहारिक है
  Leetcode दोबारा इस्तेमाल किया जा सकता है, लेकिन ऐसी optimization problems की reusability कम होती है
यह सच में बहुत मज़ेदार समस्या थी
जिसे optimization में दिलचस्पी है, उसे इसे ज़रूर आज़माना चाहिए
मैंने एक हफ्ते तक शाम का समय लगाकर इसे 1112 cycles तक घटाया
ज़्यादातर काम हाथ से किया, लेकिन सोचता हूँ कि आज के agentic models शायद इससे बेहतर नतीजे दे सकें
- “RalphWiggum की तरह समस्या हल करना” वाला expression पहली बार सुना, इतना मज़ेदार लगा कि अब आगे इस्तेमाल करूँगा
इस assignment में demoscene और code golf जैसा एहसास आता है
Chrome tracing tool से profiling करना भी बढ़िया है
समस्या कोड लिंक
- मैं पहले demoscene में सक्रिय था, और इस तरह की low-level optimization वही एहसास देती है
  बस यह जानने की जिज्ञासा है कि इसमें कौन-सा algorithm implement किया गया है
  सरसरी तौर पर देखने पर यह random forest prediction जैसा लगा
- perfetto ऐसे trace visualization के लिए अक्सर इस्तेमाल होता है
  इससे खुद viewer बनाने की मेहनत बचती है
- लगता है इस assignment का मकसद ऐसे लोगों को चुनना है जो हाथ से PTX code लिख सकें
मैं SIMD, PTX और optimization techniques सीख रहा था, इसलिए यह assignment सीखने का अच्छा मौका था
लेकिन take-home assignment के तौर पर यह शायद बहुत लंबा था
असल में ideas sketch करने और code पढ़ने में ही शायद 2 घंटे लग जाते
- 2 घंटे की सीमा शायद candidates को दिए गए समय की नहीं, बल्कि Claude को best performance तक पहुँचने में लगे समय की बात है
  असली candidates को 6 घंटे से 2 दिन तक लगे होंगे
अभी Opus के साथ 1 घंटे में 1137 cycles तक पहुँच गया हूँ
pipeline-vectorized hash, speculative execution, stage-wise static code, और हर चरण के prologue/epilogue जैसी चीजें लागू कीं
अब लगता है कि 900 से नीचे भी जाया जा सकता है
यह समझ आया कि stage 4 में सिर्फ bit 16 और 0 देखकर भी stage 5 की odd/even स्थिति parallel में निकाली जा सकती है
- जानना चाहूँगा कि आपने load bottleneck से कैसे बचाव किया

Anthropic ने performance evaluation take-home assignment को open source किया

Anthropic का original performance take-home assignment

Performance benchmark

भागीदारी और submission guide

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय