- 16 Claude agents ने समानांतर सहयोग से Rust-आधारित C compiler पूरा किया, जो Linux 6.9 kernel को build कर सकने के स्तर तक पहुँचा
- लगभग 2,000 sessions और 20,000 डॉलर की लागत में 100,000 lines के स्तर का code बनाया गया, और x86·ARM·RISC-V architectures का support जोड़ा गया
- agents ने automatic loop harness के जरिए मानव हस्तक्षेप के बिना लगातार काम किया, और testing·parallelization·role division संरचना से दक्षता बढ़ाई
- परिणाम में GCC compatibility और उच्च test pass rate दिखा, लेकिन 16-bit x86 code generation·linker·optimization quality जैसे हिस्से अभी अधूरे हैं
- यह प्रयोग autonomous LLM team की सीमाओं और संभावनाओं को परखने का उदाहरण है, और आगे fully autonomous development environment की safety और quality management को मुख्य चुनौती के रूप में सामने लाता है
एजेंट टीम-आधारित C compiler प्रोजेक्ट का अवलोकन
- कई Claude instances ने समानांतर सहयोग से एक codebase विकसित करने का प्रयोग किया
- मानव के real-time हस्तक्षेप के बिना स्वायत्त रूप से code लिखना·test करना·fix करना बार-बार दोहराया गया
- लक्ष्य था Rust में लिखा गया C compiler पूरा करना और उससे Linux kernel को सीधे build करना
- कुल 16 agents, लगभग 2,000 sessions, और 20 करोड़ input tokens·14 करोड़ output tokens का उपयोग हुआ
- परिणामस्वरूप 100,000 lines के स्तर का compiler बना, जो Linux 6.9 kernel और प्रमुख open source projects (QEMU, FFmpeg, SQLite, Redis आदि) को build कर सकता है
लंबे समय तक चलने वाले execution के लिए Claude harness की डिजाइन
- पहले Claude Code को मानव input चाहिए होता था, लेकिन infinite loop structure वाले automatic execution harness से स्वायत्त प्रगति संभव हुई
- हर task पूरा होने के बाद तुरंत अगला task करने वाली automatic repeat structure
- काम के दौरान Claude ने गलती से
pkill -9 bash चलाकर खुद को बंद भी कर दिया था
- parallel execution structure में Docker containers और Git synchronization का उपयोग किया गया
- हर agent
/workspace में काम करने के बाद /upstream पर push करता था
- text file-आधारित lock से task conflicts रोके गए
- merge conflicts भी Claude ने खुद हल किए
समानांतर Claude संचालन का तरीका
- parallel execution का लाभ simultaneous debugging और role specialization में मिला
- कुछ agents code लिखते थे, जबकि कुछ documentation·quality management·performance optimization संभालते थे
- कोई communication layer या central coordinator नहीं था; हर agent स्वायत्त रूप से अगला task चुनता था
- Git history में हर agent के task lock records और progress documents दर्ज रहे
Claude टीम programming से मिली सीख
high-quality testing का महत्व
- Claude दिए गए tests के आधार पर स्वायत्त रूप से काम करता है, इसलिए verifier की accuracy सबसे अहम है
- false positive होने पर development गलत दिशा में जा सकता है
- continuous integration (CI) pipeline बनाकर यह सुनिश्चित किया गया कि मौजूदा features टूटें नहीं
- quality बनाए रखने के लिए open source build scripts और compiler test suites का उपयोग किया गया
Claude के नजरिए से environment design
- हर agent context के बिना नए container से शुरू करता था, इसलिए progress documentation अनिवार्य थी
- README और progress files को लगातार update करने के निर्देश दिए गए
- context pollution की रोकथाम: logs को न्यूनतम रखा गया और errors को
ERROR keyword से पहचानने योग्य बनाया गया
- time awareness की कमी की भरपाई के लिए
--fast option के साथ 1–10% sample tests चलाए गए
parallelization की सीमाएँ और समाधान
- जब independent tests अधिक हों तो parallelization आसान होती है, लेकिन Linux kernel build एक बड़ा single task होने के कारण conflicts पैदा हुए
- समाधान के तौर पर GCC को reference compiler oracle की तरह इस्तेमाल किया गया
- कुछ files GCC से, और बाकी Claude compiler से build की गईं
- failure होने पर problematic files को सीमित करते हुए parallel debugging संभव हुई
- बाद में delta debugging से interdependent errors पकड़ी गईं
agents की role specialization
- duplicate code हटाना, performance सुधारना, efficient code generation, Rust structure सुधारना, documentation आदि जैसे विशेषीकृत role division अपनाए गए
- parallelization और specialization को मिलाकर बड़े codebase के management की दक्षता बढ़ाई गई
Opus 4.6 model का performance evaluation
- Opus 4.5 तक बड़े projects build नहीं हो पाते थे; Opus 4.6 में पहली बार व्यावहारिक स्तर हासिल हुआ
- clean-room implementation के रूप में internet access के बिना केवल Rust standard library का उपयोग किया गया
- GCC torture test suite में 99% pass rate, और Doom चलाने में सफलता मिली
- सीमाएँ:
- 16-bit x86 code generation संभव नहीं, इसलिए boot stage में GCC को बुलाना पड़ता है
- assembler·linker अधूरे हैं, और कुछ bugs मौजूद हैं
- generated code की efficiency कम है, और GCC optimization बंद होने की स्थिति से भी कम प्रभावी है
- Rust code quality ठीक-ठाक है, लेकिन expert level की नहीं
autonomous agent team की सीमाएँ और संभावनाएँ
- यह प्रोजेक्ट LLM autonomous collaboration की limits मापने के लिए एक benchmark है
- पूरी तरह autonomous development में quality assurance·security risks शामिल हैं
- केवल tests pass होने को पूर्णता मान लेने का जोखिम है
- मानव verification के बिना code deploy करने को लेकर चिंता जताई गई
- फिर भी, यह साबित हुआ कि autonomous agent teams जटिल projects पूरे कर सकती हैं
- आगे model development के साथ safe autonomous development strategies को अनिवार्य कार्य माना गया है
आगे की दिशा
- language models का विकास IDE autocomplete → function completion → pair programming → autonomous project execution की दिशा में बढ़ रहा है
- Agent teams पूरी तरह autonomous development की संभावना दिखाती हैं
- तेज तकनीकी प्रगति पर आश्चर्य के साथ-साथ नए ethics·safety frameworks की जरूरत पर जोर दिया गया
- उम्मीद है कि सकारात्मक उपयोग नकारात्मक जोखिमों की भरपाई करेगा, लेकिन नए development paradigm के लिए तैयारी जरूरी है
अभी कोई टिप्पणी नहीं है.