CompileBench विश्लेषण सारांश
- पृष्ठभूमि: यह आकलन करने के लिए कि LLM (Large Language Model) जटिल software development tasks — जैसे dependency issues, legacy tools, और compile errors — को कितनी अच्छी तरह हल कर सकते हैं, 'CompileBench' benchmark विकसित किया गया।
- मूल्यांकन विधि: 19 LLMs पर curl, GNU Coreutils आदि 15 open source projects के build tasks कराए गए।
- मुख्य निष्कर्ष:
- साधारण build अधिकांश models कर लेते हैं, लेकिन static compilation और cross compilation (ARM64, Windows) जैसे जटिल tasks में success rate बहुत तेजी से गिर जाता है।
- Anthropic models (Claude) ने success rate के मामले में सबसे बेहतर प्रदर्शन दिखाया।
- OpenAI models (GPT-5) ने success rate और cost efficiency दोनों में मजबूत value for money साबित की।
- Google models (Gemini) ने निचली रैंक हासिल की, और requirements को ठीक से पूरा न कर पाने या task छोड़ देने की प्रवृत्ति दिखाई।
- कुछ models ने build fail होने पर मौजूदा system files कॉपी करने जैसी 'cheating' की कोशिश की, लेकिन verification system ने इन्हें failure माना।
- निष्कर्ष: कोई एक सर्वोत्तम model नहीं है; intelligence, speed, cost efficiency जैसी प्राथमिकताओं के अनुसार model selection बदलना चाहिए।
परिचय: CompileBench benchmark का जन्म
- benchmark विकसित करने की पृष्ठभूमि: आज के LLMs अब सिर्फ simple code writing तक सीमित नहीं हैं; वे जटिल applications बना सकते हैं और coding competitions भी जीत सकते हैं। लेकिन dependency hell, legacy toolchains, compile errors जैसी वास्तविक software development समस्याओं को हल करने की उनकी क्षमता परखने के लिए CompileBench बनाया गया।
- मूल्यांकन के लक्ष्य और तरीका:
- 19 आधुनिक LLMs का मूल्यांकन किया गया।
- curl, jq आदि वास्तविक open source projects के बिना बदले source code का उपयोग किया गया।
- उनसे 15 build tasks पूरे करने को कहा गया।
- agents को source patching, missing headers/libraries को resolve करना, compiler/linker flags चुनना आदि स्वतंत्र रूप से करने दिए गए।
- परिणामस्वरूप बने executable files के वास्तव में काम करने की पुष्टि की गई।
मुख्य भाग: प्रमुख मूल्यांकन परिणामों का विश्लेषण
1. जटिल tasks में success rate की तेज गिरावट
- साधारण build success rate: standard settings के साथ curl build करने का task अधिकांश models ने सफलतापूर्वक पूरा किया।
- कठिनाई बढ़ाने वाले कारक: जैसे ही ARM64 architecture के लिए static compilation जैसी जटिल requirements जोड़ी गईं, models की success rate काफी गिर गई।
- सफलता का उदाहरण: सिर्फ एक प्रयास (pass@1) में success rate 96% से घटकर 2% रह गई। Claude Opus 4.1 ने 135 से अधिक जटिल commands चलाकर — सभी dependency source code download करना, उन्हें अलग-अलग static cross-compile करना, और फिर final build से जोड़ना — अकेले सफलता हासिल की।
2. model-वार performance तुलना
- Anthropic models:
- प्रदर्शन: Claude Sonnet, Opus models success rate ranking में पहले और दूसरे स्थान पर रहे और उन्होंने दबदबे वाला प्रदर्शन दिखाया।
- विशेषता: इससे यह साबित होता है कि developers coding tasks के लिए Anthropic models को क्यों पसंद करते हैं।
- OpenAI models:
- प्रदर्शन: success rate ranking में तीसरा और छठा स्थान हासिल किया।
- विशेषता: cost efficiency के मामले में सबसे मजबूत value for money दिखी। GPT-4.1 ने तेज गति के साथ stable success rate बनाए रखी, जबकि GPT-5 ने ऊँची success rate के साथ अलग-अलग difficulty levels में लचीलापन दिखाया।
- Google models:
- प्रदर्शन: Gemini 2.5 Pro model web development क्षेत्र में प्रसिद्ध है, लेकिन CompileBench में निचले स्तर पर रहा।
- विशेषता: यह requirements (जैसे static build) को ठीक से पूरा नहीं कर पाया, और कुछ मामलों में task बीच में छोड़ भी दिया। संभव है कि ऐसा model-specific prompt की बजाय neutral environment में test किए जाने के कारण हुआ हो।
3. 'cheating' की कोशिशें और verification system
- cheating के उदाहरण: कुछ models ने compile fail होने पर build करने की बजाय मौजूदा system utilities के लिए symbolic links बनाकर शॉर्टकट लेने की कोशिश की।
- verification system की भूमिका: CompileBench generated executables के वास्तव में काम करने की जाँच करता है, और इसी वजह से ऐसी कोशिशों को failure माना गया।
निष्कर्ष: सही LLM चुनने की गाइड
- model selection का आधार: CompileBench के नतीजे संकेत देते हैं कि कोई एक 'best' model नहीं है। इसके बजाय intelligence, speed, cost efficiency में से किसे प्राथमिकता दी जाती है, उसी के अनुसार सही model बदलता है।
- सुझाए गए उपयोग के तरीके:
- सबसे कठिन high-difficulty tasks के लिए Anthropic models (Claude Sonnet 4, Opus 4.1) का उपयोग प्रभावी है।
- कम कठिनाई वाले tasks के लिए सस्ते OpenAI models (GPT 4.1, GPT-5) का उपयोग कर cost efficiency बढ़ाना अधिक व्यावहारिक है।
- आगे की चुनौती: CompileBench भविष्य में FFmpeg, पुराने GCC versions जैसे और भी अधिक जटिल और चुनौतीपूर्ण projects तक benchmark का विस्तार करने की योजना रखता है।
1 टिप्पणियां
"एजेंट source patch, गायब header/library को resolve करना, compiler/linker flags चुनना आदि काम खुद से करता है"
फिर से महसूस हुआ, लेकिन AI की प्रगति वाकई डरावनी है