Fable 5 के साथ लूप डिज़ाइन करना

Anthropic के अंदरूनी काम करने के तरीके को बदल देने वाले Mythos-class मॉडल Claude Fable 5 का बेहतर उपयोग करने के लिए दो मुख्य तकनीकें बताई गई हैं: self-correction loop और memory
अच्छी तरह डिज़ाइन किया गया goal·rubric वातावरण में feedback inject करता है, जिससे Claude execute → feedback collect → self-correct को लक्ष्य पूरा होने तक बार-बार दोहराता है
Parameter Golf ML engineering task में Fable 5 ने Opus 4.7 की तुलना में training pipeline को लगभग 6 गुना अधिक बेहतर किया
सत्रों के पार काम करने वाले outer loop के रूप में memory के जरिए, Claude सत्र के दौरान लिखी गई बातों को बाद के सत्रों में फिर से इस्तेमाल करता है
मुख्य बात यह है कि सीधे prompting·control करने की बजाय ऐसे loops डिज़ाइन करना ज़्यादा प्रभावी है जिनमें मॉडल खुद को सुधारता है और context संभालता है

Self-correction loop (स्व-सुधार लूप)

performance criteria के ऊपर मॉडल को hillclimb करने देना काम की performance सुधारने का एक सामान्य recipe है
- bcherny ने कहा कि "उनका काम लूप लिखना है"
- Claude Code का /goal, और Claude Managed Agent का Outcomes, इस recipe को खास tasks पर लागू करने वाले primitives हैं
अच्छी तरह डिज़ाइन किया गया goal या rubric, उस environment में अतिरिक्त feedback जोड़ता है जिसमें Claude चल रहा है; फिर वह execute करता है, feedback इकट्ठा करता है, self-correct करता है, और goal/rubric पूरा होने तक आगे बढ़ता है

Parameter Golf test

Parameter Golf एक open source ML engineering challenge है, जिसमें 16MB artifact में फिट होने वाला सबसे उच्च-प्रदर्शन मॉडल 8xH100 पर 10 मिनट के भीतर train करना होता है
- यह single train_gpt.py file को edit करना, training चलाना, logs poll करना, score देखना, और अगला experiment तय करने की क्षमता को परखता है
- यह karpathy के autoresearch project जैसा है
Claude Managed Agents(CMA) का उपयोग करके Fable 5 और Opus 4.7 की तुलना की गई
- CMA agent harness और hosted sandbox देता है, इसलिए यह Fable 5 के लंबे समय वाले कामों के लिए उपयुक्त है
- Parameter Golf के लिए 8xH100 GPU वाला self-hosted sandbox दिया गया

मूल्यांकन करने वाले की अहमियत

यह पाया गया कि मॉडल को अपने ही output पर self-critique करने में समस्याएँ आती हैं (जैसा Prithvi Rajasekaran ने engineering blog में लिखा)
verifier sub-agent, self-critique से बेहतर निकला, क्योंकि मूल्यांकन एक independent context window में होता है
- CMA का Outcomes अपने-आप grader sub-agent बनाकर यह काम संभालता है
9 जाँचे जा सकने वाले मानदंडों वाला rubric दिया गया (जैसे baseline run करना, 20 experiments करना आदि), और अधिकतम 8 घंटे का runtime दिया गया
- Outcomes grader, सभी experiment criteria पूरे होने की पुष्टि करने के बाद ही Claude को काम समाप्त करने देता है

परिणाम तुलना

Fable 5 ने Opus 4.7 की तुलना में training pipeline को लगभग 6 गुना अधिक बेहतर किया
- जब experiments को structural (architecture changes) और scalar (constants tuning) में बाँटा गया, तब Fable 5 ने बड़े structural changes पर दांव लगाया और मज़बूत recovery दिखाई (quantization regression को पार करते हुए अधिकतम performance हासिल की)
Opus 4.7 ने पहले experiment में थोड़ी सफलता के बाद लगभग वही template दोहराया: scalar tuning·measurement·positive होने पर बनाए रखना

Memory (मेमोरी)

सत्रों के पार काम करने वाले outer loop के रूप में, सत्र के दौरान लिखी गई memory को बाद के सत्रों में search करके फिर से इस्तेमाल किया जाता है
pgasawa टीम ने Continual Learning Bench 1.0 जारी किया
- यह पहला यथार्थवादी benchmark है जो मापता है कि online environment में AI system कितनी हद तक बेहतर होता है
- पुराने benchmarks मॉडल को stateless मानते थे और हर example को अलग-अलग process करते थे

test setup

benchmark tasks में से एक में Fable 5·Opus 4.7·Sonnet 4.6 की तुलना की गई
- यह ऐसा task था जिसमें SQL database access के साथ क्रमिक प्रश्नों के उत्तर देने थे; हर प्रश्न एक अलग agent session था और memory उपलब्ध थी
CMA की memory का उपयोग किया गया, जो हर agent को सत्रों के बीच साझा किया जा सकने वाला mounted filesystem देता है

प्रभावी memory उपयोग के चरण

प्रभावी memory उपयोग, fail(गलतियों को दर्ज करना)·investigate(कारण समझना)·verify(तथ्यों को सत्यापित ज्ञान बनाना)·distill(सामान्य नियम में बदलना)·consult(नियमों का संदर्भ लेना) जैसी प्रगति से मजबूत होता है
Sonnet 4.6 लगभग पहले चरण के पास रुक गया
- उसका repository failure notes और unresolved guesses की सूची से भरा था ("maybe prc instead of prc_usd?"), और वह पुराने notes को लगभग refer नहीं करता था
- performance सुधारने के लिए task-specific memory instructions की ज़रूरत पड़ी
Opus 4.7 लगभग तीसरे चरण के पास रुक गया
- उसने uncertainty चिह्नित schema reference बनाए ("possibly prc in cents? Verify."), लेकिन verification coverage केवल 7~33% रही (median लगभग 17%)
Fable 5 ने इस progression को पूरा करने की प्रवृत्ति दिखाई
- सबसे अच्छे run में verification coverage 73% तक पहुँची (30 में से 22), और सीखी गई बातों को future tasks में मदद करने वाले सामान्य नियमों में distill किया

समग्र रूप से

Fable 5 को सीधे prompt या control करने की बजाय, environment feedback (/goal, Outcomes) पर प्रतिक्रिया देते हुए उसे self-correct करने और memory के जरिए खुद context manage करने देने वाले loops डिज़ाइन करना अधिक प्रभावी है
चुनौतीपूर्ण tasks में self-correction और memory loops के साथ Fable 5 को सीधे test करके देखने की सिफारिश की गई है

Fable 5 के साथ लूप डिज़ाइन करना

Self-correction loop (स्व-सुधार लूप)

Parameter Golf test

मूल्यांकन करने वाले की अहमियत

परिणाम तुलना

Memory (मेमोरी)

test setup

प्रभावी memory उपयोग के चरण

समग्र रूप से

संबंधित पढ़ाई

1 टिप्पणियां