2 पॉइंट द्वारा GN⁺ 2025-10-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Cursor द्वारा जारी किया गया Composer सॉफ्टवेयर इंजीनियरिंग के लिए एक उच्च-गति बुद्धिमान एजेंट मॉडल है, जो समान मॉडलों की तुलना में 4 गुना तेज कोड जनरेशन गति हासिल करता है
  • इसे वास्तविक बड़े कोडबेस की समस्याओं को हल करने के लिए प्रशिक्षित किया गया है, और यह खोज·संपादन टूल्स का उपयोग करके विभिन्न कठिनाई स्तरों के कार्य पूरे करता है
  • Mixture-of-Experts(MoE) संरचना और रीइन्फोर्समेंट लर्निंग(RL) को मिलाकर यह कोड संपादन, योजना और उत्तर देने जैसे कार्यों में दीर्घ-प्रसंग समझ और जनरेशन का समर्थन करता है
  • Cursor Bench मूल्यांकन के माध्यम से मॉडल की सटीकता के साथ-साथ कोडबेस संगति और इंजीनियरिंग प्रथाओं के अनुपालन को भी मापा जाता है
  • PyTorch·Ray आधारित असिंक्रोनस RL इंफ्रास्ट्रक्चर और MXFP8 लो-प्रिसीजन ट्रेनिंग का उपयोग करके हजारों GPU पर कुशल प्रशिक्षण और तेज अनुमान संभव बनाया गया है

Composer का अवलोकन

  • Composer सॉफ्टवेयर इंजीनियरिंग बुद्धिमत्ता और गति को लक्ष्य बनाकर विकसित किया गया एक नया एजेंट मॉडल है
    • बेंचमार्क में इसने समान मॉडलों की तुलना में 4 गुना तेज कोड जनरेशन गति दर्ज की
    • इसे Cursor के भीतर बड़े कोडबेस की समस्याएँ हल करने वाले एजेंट के रूप में अनुकूलित किया गया है
  • मॉडल को वास्तविक वातावरण में खोज और संपादन टूल्स का उपयोग कर विभिन्न कठिनाई स्तरों की समस्याएँ हल करने के लिए प्रशिक्षित किया गया है
    • इसके माध्यम से उच्च-गति इंटरैक्टिव डेवलपमेंट अनुभव प्रदान किया जाता है

विकास पृष्ठभूमि

  • Composer, Cursor के कस्टम कोड ऑटोकम्प्लीट मॉडल (Cursor Tab) के विकास अनुभव से उत्पन्न हुआ
    • इससे यह पुष्टि हुई कि डेवलपर बुद्धिमान होने के साथ तेज प्रतिक्रिया देने वाले मॉडल को पसंद करते हैं
  • प्रारंभिक प्रायोगिक मॉडल Cheetah के आधार पर Composer को इसका और तेज और अधिक स्मार्ट संस्करण बनाकर डिज़ाइन किया गया
    • लक्ष्य था डेवलपमेंट फ्लो को बनाए रखते हुए तुरंत प्रतिक्रिया देने वाला मॉडल बनाना

मॉडल संरचना और प्रशिक्षण विधि

  • Composer एक Mixture-of-Experts(MoE) भाषा मॉडल है, जो दीर्घ-प्रसंग समझ और जनरेशन का समर्थन करता है
  • इसे रीइन्फोर्समेंट लर्निंग(RL) के माध्यम से विभिन्न विकास परिवेशों में विशेषज्ञ बनाया गया है
    • प्रत्येक प्रशिक्षण चरण में इसे समस्या विवरण दिया जाता है, और यह सर्वोत्तम कोड संशोधन, योजना और उत्तर तैयार करता है
    • मॉडल फ़ाइल पढ़ना·संपादन, टर्मिनल कमांड चलाना, कोडबेस-व्यापी सिमेंटिक सर्च जैसे टूल्स का उपयोग करता है
  • RL प्रक्रिया के दौरान मॉडल जटिल खोज करना, लिंटर त्रुटियाँ ठीक करना, यूनिट टेस्ट लिखना और चलाना जैसे उपयोगी व्यवहार स्वयं सीखता है

मूल्यांकन और बेंचमार्क

  • Cursor Bench वास्तविक इंजीनियरिंग अनुरोधों और आदर्श समाधानों को शामिल करने वाला एक आंतरिक मूल्यांकन सेट है
    • यह मॉडल की सटीकता, कोडबेस अमूर्तन के अनुपालन, और सॉफ्टवेयर इंजीनियरिंग प्रथाओं से मेल को मापता है
  • Composer को “Fast Frontier” श्रेणी के मॉडल के रूप में Haiku 4.5, Gemini Flash 2.5 आदि से तुलना की गई
    • यह GPT-5, Sonnet 4.5 जैसे शीर्ष Frontier मॉडलों से धीमा है, लेकिन गति के मुकाबले उच्च दक्षता प्रदान करता है

इंफ्रास्ट्रक्चर और सिस्टम डिज़ाइन

  • बड़े पैमाने के MoE मॉडल प्रशिक्षण के लिए PyTorch और Ray आधारित असिंक्रोनस RL इंफ्रास्ट्रक्चर बनाया गया
    • इसमें MXFP8 MoE कर्नेल, एक्सपर्ट पैरेललाइज़ेशन, और हाइब्रिड शार्डिंग डेटा पैरेललाइज़ेशन को जोड़ा गया
    • यह हजारों NVIDIA GPU पर संचार लागत को न्यूनतम रखते हुए प्रशिक्षण का विस्तार करता है
  • MXFP8 लो-प्रिसीजन ट्रेनिंग के माध्यम से अनुमान गति में सुधार होता है और पोस्ट-प्रोसेसिंग क्वांटाइज़ेशन की आवश्यकता नहीं रहती
  • RL के दौरान मॉडल Cursor Agent के सभी टूल्स को कॉल कर सकता है
    • कोड संपादन, सिमेंटिक सर्च, स्ट्रिंग grep, टर्मिनल कमांड चलाना आदि का समर्थन है
    • इसके लिए लाखों क्लाउड सैंडबॉक्स परिवेशों को समानांतर चलाया जाता है
    • मौजूदा Background Agents इंफ्रास्ट्रक्चर का विस्तार करके बर्स्ट-आधारित प्रशिक्षण लोड को संभाला गया

आंतरिक उपयोग और परिनियोजन

  • Cursor टीम Composer का अपने विकास कार्यों में सक्रिय रूप से उपयोग कर रही है
    • कई इंजीनियर दैनिक सॉफ्टवेयर विकास में Composer का उपयोग करते हैं
  • इस सार्वजनिक रिलीज़ के माध्यम से उम्मीद है कि अन्य डेवलपर भी इसका उपयोगी लाभ उठा सकेंगे

परिशिष्ट: आंतरिक बेंचमार्क वर्गीकरण

  • Fast Frontier: कुशल अनुमान मॉडल (Haiku 4.5, Gemini Flash 2.5 आदि)
  • Best Open: ओपन-वेट मॉडल (Qwen Coder, GLM 4.6 आदि)
  • Frontier 7/2025: जुलाई 2025 तक के सर्वश्रेष्ठ मॉडल
  • Best Frontier: GPT-5, Sonnet 4.5 आदि, जो Composer से बेहतर प्रदर्शन वाले मॉडल हैं
  • Tokens per Second की गणना नवीनतम Anthropic tokenizer के आधार पर मानकीकृत की गई है

1 टिप्पणियां

 
GN⁺ 2025-10-30
Hacker News की राय
  • मुझे लगता है कि पारदर्शिता बहुत कम है
    मॉडल की performance सिर्फ अपने benchmark से दिखाई गई है, और वह data भी private है, इसलिए उस पर भरोसा करना मुश्किल है
    RL training की बात की गई है, लेकिन pre-training या fine-tuning हुई या नहीं, जैसी अहम जानकारी बिल्कुल नहीं है
    जब तक वे details सार्वजनिक नहीं करते या बाहर से independently benchmark नहीं किया जाता, तब तक इन सभी दावों पर संदेह रहेगा

    • internal benchmark को public न करने की वजह समझ में आती है
      अगर उसे public कर दिया जाए, तो वह data दूसरे LLMs के training set में शामिल हो सकता है और scientific validity खत्म हो सकती है
      लेकिन अगर वह private रहे, तो उल्टा यह शक भी हो सकता है कि उन्होंने अपने पक्ष में जाने वाला data ही चुना हो
      आखिरकार यह एक मुश्किल dilemma है
    • असल में महत्वपूर्ण चीज़ real user data है
      Cursor हज़ारों accept/reject data points को real time में इकट्ठा करता है, इसलिए वही सबसे अच्छा feedback loop है
      benchmark की तुलना में असली user response कहीं ज़्यादा उपयोगी है, और इसी से मॉडल को तेज़ी से बेहतर बनाया जा सकता है
      हाल में multi-agent + git tree integration फीचर भी जोड़ा गया है, जिससे user behavior को training signal की तरह इस्तेमाल किया जाता है
      मेरा मानना है कि ऐसी competition पूरे market की quality बढ़ाती है और usage cost भी कम करती है
  • मुझे अब भी लगता है कि Cursor का Tab model सबसे अच्छा है
    इससे जुड़ी बात official blog post में अच्छी तरह समझाई गई है
    अगर यह approach agentic coding model पर भी लागू हो सके, तो वह सच में बहुत दिलचस्प होगा

    • हमारी टीम भी Tab का बहुत इस्तेमाल करती है
      इस project की motivation ही Tab जैसा agent बनाने के idea से शुरू हुई थी
    • क्या आपने Windsurfs इस्तेमाल किया है?
    • Tab model अच्छा है, लेकिन कभी-कभी ऐसा भी लगता है जैसे यह घोड़े की चाबुक को और बेहतर बनाने की race हो
      मैं Claude Code को लगभग हमेशा चालू रखकर इस्तेमाल करता हूँ, और Tab सिर्फ तब हस्तक्षेप करता है जब मॉडल पूरी तरह अटक जाता है
      यह देखना दिलचस्प है कि ऐसी failure situations धीरे-धीरे कम हो रही हैं
    • Tab model शानदार है, लेकिन यह कमी खलती है कि वह मौजूदा AI chat session के context को नहीं समझता
    • फीचर अच्छा है, लेकिन shortcut उतना अच्छा नहीं लगा
      काश इसे shift+tab जैसा कुछ बनाया जाता
      जब भी मैं खुद code लिखता हूँ, ऐसा लगता है जैसे AI के साथ indentation की प्रतिस्पर्धा चल रही हो, जो असुविधाजनक है
  • मैं Cursor में ML researcher हूँ और इस project में शामिल था
    मॉडल या blog post पर feedback का स्वागत है

    • system का explanation प्रभावशाली था
      लेकिन अगर Composer open model को RL से fine-tune किया गया है, तो फिर weights को private क्यों रखा गया है, यह जानना चाहूँगा
      performance में थोड़ा-सा advantage जल्दी गायब हो जाता है, इसलिए उल्टा open strategy developer trust पाने में ज़्यादा फायदेमंद हो सकती है
      व्यक्तिगत रूप से मुझे closed model में कम रुचि है
    • यह सच में चौंकाने वाला था
      पहले मैंने Cursor इस्तेमाल किया था लेकिन छोड़ दिया था, मगर इस बार Composer1 GPT5 Codex से कहीं ज़्यादा तेज़ और सटीक लगा
      speed और quality दोनों अच्छी थीं, इसलिए मैं इसे फिर से इस्तेमाल करने का सोच रहा हूँ
    • ब्लॉग का पहला graph बहुत अस्पष्ट था
      अगर कोई ऐसा version होता जिसमें model grouping के बिना individual names दिखते, तो वह ज़्यादा fair लगता
    • आज मैंने Composer, Sonnet 4.5 और Gemini 2.5 Pro को साथ में इस्तेमाल किया, और Composer का speed और quality का combination सबसे संतोषजनक लगा
      planning stage के लिए मैं Claude का इस्तेमाल करता हूँ, लेकिन execution stage में Composer कहीं ज़्यादा efficient है
    • log graph को देखें तो frontier model तक पहुँचने के लिए लगभग 50% और compute चाहिए लगता है, इसलिए यह जानना दिलचस्प है कि training वहीं क्यों रोक दी गई
  • Sonnet 4.5 लगभग वह न्यूनतम quality line है जिसे मैं स्वीकार कर सकता हूँ
    speed से ज़्यादा महत्वपूर्ण यह है कि मुझे मनचाहा output पाने के लिए संघर्ष न करना पड़े
    हो सकता है मैंने गलत समझा हो, लेकिन क्या इस लेख में जिन models की तुलना की गई है वे सभी Cursor के internal models हैं?

    • Sonnet 4.5 को आए अभी सिर्फ एक महीना हुआ है, और उसे ही पहले से ‘न्यूनतम स्तर’ मानना मज़ेदार है
    • मुझे लगता है कि user दो तरह के होते हैं
      एक वे जो चाहते हैं कि model अपने आप लंबे काम संभाले,
      और दूसरे वे जो model के साथ interactively collaborate करना चाहते हैं
      दूसरे मामले में speed कहीं ज़्यादा महत्वपूर्ण है, जबकि पहले में intelligence ज़्यादा महत्वपूर्ण है
      मेरे लिए context understanding की कमी बड़ा मुद्दा है, इसलिए यह स्थिति पर निर्भर करता है
    • Sonnet 4.5 शानदार है, लेकिन क्या आपने Composer भी इस्तेमाल किया है?
    • मेरा भी लगभग यही अनुभव है
      Claude के अलावा दूसरे models इस्तेमाल करने पर token cost ज़्यादा आती है और efficiency कम हो जाती है
      Claude 4.5 Sonnet वही काम आधी cost में कर देता है
    • तुलना इसलिए उठाई गई क्योंकि इससे दिखता है कि Cursor speed-focused user experience को कितनी गंभीरता से लेता है
      मैं accuracy से ज़्यादा fast feedback को पसंद करता हूँ
  • नया model आना अच्छा है, लेकिन graph में numbers या model names नहीं हैं, इसलिए उस पर भरोसा करना मुश्किल है

    • footnote में model से जुड़ी कुछ explanation है
      training details बताना मुश्किल है, लेकिन उनका कहना है कि RL अच्छी तरह scale हुआ
  • लोग Cursor के प्रति आलोचनात्मक हैं, लेकिन मैंने Copilot, Claude Code, Codex, Gemini CLI, Cline आदि सब इस्तेमाल किए हैं, और नतीजे में Cursor की polish सबसे बेहतर लगी
    खासकर speed और stability बहुत अच्छी है, और यह सच में एक product जैसा महसूस होता है

    • मैंने भी Cursor इस्तेमाल किया, लेकिन reliability issues की वजह से छोड़ दिया
      कई बार request 30 seconds से ज़्यादा अटकी रहती थी, जबकि Claude Code कहीं तेज़ और stable था
      आज मैंने नया model फिर से इस्तेमाल किया, Composer1 तेज़ था लेकिन connection errors अब भी थे
    • मैंने भी कई tools आज़माए, लेकिन आखिरकार फिर Cursor पर लौट आया
      जो मैं चाहता हूँ उसे तेज़ी से implement करने में Cursor सबसे अच्छा है
    • Cursor कभी-कभी अटकता है, लेकिन UI में आसानी से revert किया जा सकता है, इसलिए बहुत असुविधा नहीं होती
      autocomplete भी refactoring के समय काफ़ी उपयोगी है
    • आपने कई alternatives इस्तेमाल करने की बात की, लेकिन क्या Zed नहीं आज़माया?
    • Claude इस्तेमाल करने के बाद भी Cursor को ज़्यादा पसंद करना दिलचस्प है
  • competitors में response completion time को गंभीरता से लेने वाली जगह सिर्फ Cursor ही है
    उस मामले में Cursor पूरी तरह आगे निकल गया है

    • हमें भी अलग-अलग models पसंद हैं, लेकिन तेज़ और smart के बीच balance point खोजना ज़रूरी है (Cursor researcher)
  • मैंने नया system इस्तेमाल किया, लेकिन उल्टा लगा कि performance गिर गई है
    basic app भी ठीक से काम नहीं कर रही थी, और CSS या terminal context handle करने में भी विफल रहा
    speed भी धीरे-धीरे कम होती गई, और अंत में मैं फिर Sonnet पर लौट गया
    उम्मीद है कि यह stable version नहीं होगा

  • मुझे Cursor सच में बहुत पसंद है
    Copilot, Claude जैसे कई tools इस्तेमाल किए, लेकिन आखिर में फिर Cursor पर ही लौट आया
    खासकर Tab autocomplete refactoring काम में बहुत सटीक है

    • एक महीने पहले मैं VS Code + Copilot पर वापस गया था, लेकिन 4 दिन में ही छोड़ दिया
      वह धीमा था और suggestions की quality कम थी
      Cursor कहीं तेज़ है और उसके suggestions ज़्यादा उपयोगी हैं
      लेकिन कभी-कभी वह इतना तेज़ है कि बेकार suggestions लगातार दिखाता रहता है
      फिर भी snooze फीचर होने से यह समस्या संभाली जा सकती है
  • Composer 1 में साइकिल चलाते पेलिकन की एक image है
    image link

    • यह उम्मीद से कहीं बेहतर निकला