- Cursor द्वारा जारी किया गया Composer सॉफ्टवेयर इंजीनियरिंग के लिए एक उच्च-गति बुद्धिमान एजेंट मॉडल है, जो समान मॉडलों की तुलना में 4 गुना तेज कोड जनरेशन गति हासिल करता है
- इसे वास्तविक बड़े कोडबेस की समस्याओं को हल करने के लिए प्रशिक्षित किया गया है, और यह खोज·संपादन टूल्स का उपयोग करके विभिन्न कठिनाई स्तरों के कार्य पूरे करता है
- Mixture-of-Experts(MoE) संरचना और रीइन्फोर्समेंट लर्निंग(RL) को मिलाकर यह कोड संपादन, योजना और उत्तर देने जैसे कार्यों में दीर्घ-प्रसंग समझ और जनरेशन का समर्थन करता है
- Cursor Bench मूल्यांकन के माध्यम से मॉडल की सटीकता के साथ-साथ कोडबेस संगति और इंजीनियरिंग प्रथाओं के अनुपालन को भी मापा जाता है
- PyTorch·Ray आधारित असिंक्रोनस RL इंफ्रास्ट्रक्चर और MXFP8 लो-प्रिसीजन ट्रेनिंग का उपयोग करके हजारों GPU पर कुशल प्रशिक्षण और तेज अनुमान संभव बनाया गया है
Composer का अवलोकन
- Composer सॉफ्टवेयर इंजीनियरिंग बुद्धिमत्ता और गति को लक्ष्य बनाकर विकसित किया गया एक नया एजेंट मॉडल है
- बेंचमार्क में इसने समान मॉडलों की तुलना में 4 गुना तेज कोड जनरेशन गति दर्ज की
- इसे Cursor के भीतर बड़े कोडबेस की समस्याएँ हल करने वाले एजेंट के रूप में अनुकूलित किया गया है
- मॉडल को वास्तविक वातावरण में खोज और संपादन टूल्स का उपयोग कर विभिन्न कठिनाई स्तरों की समस्याएँ हल करने के लिए प्रशिक्षित किया गया है
- इसके माध्यम से उच्च-गति इंटरैक्टिव डेवलपमेंट अनुभव प्रदान किया जाता है
विकास पृष्ठभूमि
- Composer, Cursor के कस्टम कोड ऑटोकम्प्लीट मॉडल (Cursor Tab) के विकास अनुभव से उत्पन्न हुआ
- इससे यह पुष्टि हुई कि डेवलपर बुद्धिमान होने के साथ तेज प्रतिक्रिया देने वाले मॉडल को पसंद करते हैं
- प्रारंभिक प्रायोगिक मॉडल Cheetah के आधार पर Composer को इसका और तेज और अधिक स्मार्ट संस्करण बनाकर डिज़ाइन किया गया
- लक्ष्य था डेवलपमेंट फ्लो को बनाए रखते हुए तुरंत प्रतिक्रिया देने वाला मॉडल बनाना
मॉडल संरचना और प्रशिक्षण विधि
- Composer एक Mixture-of-Experts(MoE) भाषा मॉडल है, जो दीर्घ-प्रसंग समझ और जनरेशन का समर्थन करता है
- इसे रीइन्फोर्समेंट लर्निंग(RL) के माध्यम से विभिन्न विकास परिवेशों में विशेषज्ञ बनाया गया है
- प्रत्येक प्रशिक्षण चरण में इसे समस्या विवरण दिया जाता है, और यह सर्वोत्तम कोड संशोधन, योजना और उत्तर तैयार करता है
- मॉडल फ़ाइल पढ़ना·संपादन, टर्मिनल कमांड चलाना, कोडबेस-व्यापी सिमेंटिक सर्च जैसे टूल्स का उपयोग करता है
- RL प्रक्रिया के दौरान मॉडल जटिल खोज करना, लिंटर त्रुटियाँ ठीक करना, यूनिट टेस्ट लिखना और चलाना जैसे उपयोगी व्यवहार स्वयं सीखता है
मूल्यांकन और बेंचमार्क
- Cursor Bench वास्तविक इंजीनियरिंग अनुरोधों और आदर्श समाधानों को शामिल करने वाला एक आंतरिक मूल्यांकन सेट है
- यह मॉडल की सटीकता, कोडबेस अमूर्तन के अनुपालन, और सॉफ्टवेयर इंजीनियरिंग प्रथाओं से मेल को मापता है
- Composer को “Fast Frontier” श्रेणी के मॉडल के रूप में Haiku 4.5, Gemini Flash 2.5 आदि से तुलना की गई
- यह GPT-5, Sonnet 4.5 जैसे शीर्ष Frontier मॉडलों से धीमा है, लेकिन गति के मुकाबले उच्च दक्षता प्रदान करता है
इंफ्रास्ट्रक्चर और सिस्टम डिज़ाइन
- बड़े पैमाने के MoE मॉडल प्रशिक्षण के लिए PyTorch और Ray आधारित असिंक्रोनस RL इंफ्रास्ट्रक्चर बनाया गया
- इसमें MXFP8 MoE कर्नेल, एक्सपर्ट पैरेललाइज़ेशन, और हाइब्रिड शार्डिंग डेटा पैरेललाइज़ेशन को जोड़ा गया
- यह हजारों NVIDIA GPU पर संचार लागत को न्यूनतम रखते हुए प्रशिक्षण का विस्तार करता है
- MXFP8 लो-प्रिसीजन ट्रेनिंग के माध्यम से अनुमान गति में सुधार होता है और पोस्ट-प्रोसेसिंग क्वांटाइज़ेशन की आवश्यकता नहीं रहती
- RL के दौरान मॉडल Cursor Agent के सभी टूल्स को कॉल कर सकता है
- कोड संपादन, सिमेंटिक सर्च, स्ट्रिंग
grep, टर्मिनल कमांड चलाना आदि का समर्थन है
- इसके लिए लाखों क्लाउड सैंडबॉक्स परिवेशों को समानांतर चलाया जाता है
- मौजूदा Background Agents इंफ्रास्ट्रक्चर का विस्तार करके बर्स्ट-आधारित प्रशिक्षण लोड को संभाला गया
आंतरिक उपयोग और परिनियोजन
- Cursor टीम Composer का अपने विकास कार्यों में सक्रिय रूप से उपयोग कर रही है
- कई इंजीनियर दैनिक सॉफ्टवेयर विकास में Composer का उपयोग करते हैं
- इस सार्वजनिक रिलीज़ के माध्यम से उम्मीद है कि अन्य डेवलपर भी इसका उपयोगी लाभ उठा सकेंगे
परिशिष्ट: आंतरिक बेंचमार्क वर्गीकरण
- Fast Frontier: कुशल अनुमान मॉडल (Haiku 4.5, Gemini Flash 2.5 आदि)
- Best Open: ओपन-वेट मॉडल (Qwen Coder, GLM 4.6 आदि)
- Frontier 7/2025: जुलाई 2025 तक के सर्वश्रेष्ठ मॉडल
- Best Frontier: GPT-5, Sonnet 4.5 आदि, जो Composer से बेहतर प्रदर्शन वाले मॉडल हैं
- Tokens per Second की गणना नवीनतम Anthropic tokenizer के आधार पर मानकीकृत की गई है
1 टिप्पणियां
Hacker News की राय
मुझे लगता है कि पारदर्शिता बहुत कम है
मॉडल की performance सिर्फ अपने benchmark से दिखाई गई है, और वह data भी private है, इसलिए उस पर भरोसा करना मुश्किल है
RL training की बात की गई है, लेकिन pre-training या fine-tuning हुई या नहीं, जैसी अहम जानकारी बिल्कुल नहीं है
जब तक वे details सार्वजनिक नहीं करते या बाहर से independently benchmark नहीं किया जाता, तब तक इन सभी दावों पर संदेह रहेगा
अगर उसे public कर दिया जाए, तो वह data दूसरे LLMs के training set में शामिल हो सकता है और scientific validity खत्म हो सकती है
लेकिन अगर वह private रहे, तो उल्टा यह शक भी हो सकता है कि उन्होंने अपने पक्ष में जाने वाला data ही चुना हो
आखिरकार यह एक मुश्किल dilemma है
Cursor हज़ारों accept/reject data points को real time में इकट्ठा करता है, इसलिए वही सबसे अच्छा feedback loop है
benchmark की तुलना में असली user response कहीं ज़्यादा उपयोगी है, और इसी से मॉडल को तेज़ी से बेहतर बनाया जा सकता है
हाल में multi-agent + git tree integration फीचर भी जोड़ा गया है, जिससे user behavior को training signal की तरह इस्तेमाल किया जाता है
मेरा मानना है कि ऐसी competition पूरे market की quality बढ़ाती है और usage cost भी कम करती है
मुझे अब भी लगता है कि Cursor का Tab model सबसे अच्छा है
इससे जुड़ी बात official blog post में अच्छी तरह समझाई गई है
अगर यह approach agentic coding model पर भी लागू हो सके, तो वह सच में बहुत दिलचस्प होगा
इस project की motivation ही Tab जैसा agent बनाने के idea से शुरू हुई थी
मैं Claude Code को लगभग हमेशा चालू रखकर इस्तेमाल करता हूँ, और Tab सिर्फ तब हस्तक्षेप करता है जब मॉडल पूरी तरह अटक जाता है
यह देखना दिलचस्प है कि ऐसी failure situations धीरे-धीरे कम हो रही हैं
काश इसे shift+tab जैसा कुछ बनाया जाता
जब भी मैं खुद code लिखता हूँ, ऐसा लगता है जैसे AI के साथ indentation की प्रतिस्पर्धा चल रही हो, जो असुविधाजनक है
मैं Cursor में ML researcher हूँ और इस project में शामिल था
मॉडल या blog post पर feedback का स्वागत है
लेकिन अगर Composer open model को RL से fine-tune किया गया है, तो फिर weights को private क्यों रखा गया है, यह जानना चाहूँगा
performance में थोड़ा-सा advantage जल्दी गायब हो जाता है, इसलिए उल्टा open strategy developer trust पाने में ज़्यादा फायदेमंद हो सकती है
व्यक्तिगत रूप से मुझे closed model में कम रुचि है
पहले मैंने Cursor इस्तेमाल किया था लेकिन छोड़ दिया था, मगर इस बार Composer1 GPT5 Codex से कहीं ज़्यादा तेज़ और सटीक लगा
speed और quality दोनों अच्छी थीं, इसलिए मैं इसे फिर से इस्तेमाल करने का सोच रहा हूँ
अगर कोई ऐसा version होता जिसमें model grouping के बिना individual names दिखते, तो वह ज़्यादा fair लगता
planning stage के लिए मैं Claude का इस्तेमाल करता हूँ, लेकिन execution stage में Composer कहीं ज़्यादा efficient है
Sonnet 4.5 लगभग वह न्यूनतम quality line है जिसे मैं स्वीकार कर सकता हूँ
speed से ज़्यादा महत्वपूर्ण यह है कि मुझे मनचाहा output पाने के लिए संघर्ष न करना पड़े
हो सकता है मैंने गलत समझा हो, लेकिन क्या इस लेख में जिन models की तुलना की गई है वे सभी Cursor के internal models हैं?
एक वे जो चाहते हैं कि model अपने आप लंबे काम संभाले,
और दूसरे वे जो model के साथ interactively collaborate करना चाहते हैं
दूसरे मामले में speed कहीं ज़्यादा महत्वपूर्ण है, जबकि पहले में intelligence ज़्यादा महत्वपूर्ण है
मेरे लिए context understanding की कमी बड़ा मुद्दा है, इसलिए यह स्थिति पर निर्भर करता है
Claude के अलावा दूसरे models इस्तेमाल करने पर token cost ज़्यादा आती है और efficiency कम हो जाती है
Claude 4.5 Sonnet वही काम आधी cost में कर देता है
मैं accuracy से ज़्यादा fast feedback को पसंद करता हूँ
नया model आना अच्छा है, लेकिन graph में numbers या model names नहीं हैं, इसलिए उस पर भरोसा करना मुश्किल है
training details बताना मुश्किल है, लेकिन उनका कहना है कि RL अच्छी तरह scale हुआ
लोग Cursor के प्रति आलोचनात्मक हैं, लेकिन मैंने Copilot, Claude Code, Codex, Gemini CLI, Cline आदि सब इस्तेमाल किए हैं, और नतीजे में Cursor की polish सबसे बेहतर लगी
खासकर speed और stability बहुत अच्छी है, और यह सच में एक product जैसा महसूस होता है
कई बार request 30 seconds से ज़्यादा अटकी रहती थी, जबकि Claude Code कहीं तेज़ और stable था
आज मैंने नया model फिर से इस्तेमाल किया, Composer1 तेज़ था लेकिन connection errors अब भी थे
जो मैं चाहता हूँ उसे तेज़ी से implement करने में Cursor सबसे अच्छा है
autocomplete भी refactoring के समय काफ़ी उपयोगी है
competitors में response completion time को गंभीरता से लेने वाली जगह सिर्फ Cursor ही है
उस मामले में Cursor पूरी तरह आगे निकल गया है
मैंने नया system इस्तेमाल किया, लेकिन उल्टा लगा कि performance गिर गई है
basic app भी ठीक से काम नहीं कर रही थी, और CSS या terminal context handle करने में भी विफल रहा
speed भी धीरे-धीरे कम होती गई, और अंत में मैं फिर Sonnet पर लौट गया
उम्मीद है कि यह stable version नहीं होगा
मुझे Cursor सच में बहुत पसंद है
Copilot, Claude जैसे कई tools इस्तेमाल किए, लेकिन आखिर में फिर Cursor पर ही लौट आया
खासकर Tab autocomplete refactoring काम में बहुत सटीक है
वह धीमा था और suggestions की quality कम थी
Cursor कहीं तेज़ है और उसके suggestions ज़्यादा उपयोगी हैं
लेकिन कभी-कभी वह इतना तेज़ है कि बेकार suggestions लगातार दिखाता रहता है
फिर भी snooze फीचर होने से यह समस्या संभाली जा सकती है
Composer 1 में साइकिल चलाते पेलिकन की एक image है
image link