5 पॉइंट द्वारा GN⁺ 2026-01-17 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • Cursor ने घोषणा की कि उसने ‘autonomous coding agents’ के हफ्तों तक चलने वाले प्रयोग किए, ताकि यह जांचा जा सके कि क्या इंसानी टीमों को महीनों लगने वाले प्रोजेक्ट्स को automate किया जा सकता है
  • इस सिस्टम को सत्यापित करने के लिए ‘शुरू से एक web browser बनाना’ लक्ष्य रखा गया, और दावा किया गया कि agents ने लगभग एक हफ्ते में 10 लाख से अधिक lines of code लिखीं
  • लेकिन सार्वजनिक GitHub repository (fastrender) में कई compile errors और CI failures दिखते हैं, जिससे यह स्पष्ट होता है कि यह चलने योग्य browser नहीं है
  • Cursor ने यह काम करता है या नहीं, reproducible demo, या build होने वाला commit पेश नहीं किया, और प्रयोग की सफलता के ठोस सबूत भी नहीं दिए
  • इसके बावजूद Cursor ने “agents ने बड़े प्रोजेक्ट्स में meaningful progress हासिल की” जैसा वर्णन किया, जिससे वास्तविक performance verification के बिना सफलता का आभास मिलता है

Cursor के ब्लॉग प्रयोग का सार

  • 14 जनवरी 2026 को Cursor ने Scaling long-running autonomous coding शीर्षक से एक ब्लॉग post प्रकाशित की
    • लक्ष्य था यह समझना कि “इंसानी टीमों को महीनों लगने वाले प्रोजेक्ट्स को autonomous coding agents के साथ कितनी दूर तक scale किया जा सकता है”
  • कई approaches आज़माने के बाद, Cursor ने कहा कि वह ऐसे सिस्टम तक पहुंचा जो “coordination problem को हल कर सकता है और single agent के बिना बड़े प्रोजेक्ट्स तक scale कर सकता है”
  • सत्यापन के लिए ‘शुरू से web browser बनाने’ का प्रयोग किया गया, और कहा गया कि agents ने लगभग एक हफ्ते में 1,000 files में 10 लाख से अधिक lines of code लिखीं

प्रयोग के नतीजों की अस्पष्टता

  • Cursor ने दावा किया कि “नए agents ने codebase को समझा और meaningful progress हासिल की”, और “सैकड़ों workers ने एक ही branch पर एक साथ push किया”
    • लेकिन browser वास्तव में काम करता है या नहीं, यह स्पष्ट रूप से नहीं बताया गया
  • post में screenshot video शामिल है, लेकिन runnable demo या ठोस परिणामों का विवरण नहीं है
  • “शुरू से browser बनाना बहुत कठिन है” इस कथन के अलावा काम करने का कोई सबूत नहीं दिया गया

codebase सत्यापन के नतीजे

  • repository को सीधे build करने पर ‘fastrender’ library compile नहीं होती (34 errors, 94 warnings)
  • हाल की GitHub Actions runs में भी workflow errors और कई compile failures दिखाई देते हैं
    • हाल के 100 commits में एक भी commit सफलतापूर्वक build नहीं हुआ
  • code के अंदरूनी हिस्से को इरादे या संरचना के बिना ‘AI slop’ स्तर का output बताया गया
    • ऐसा लगता है कि cargo build या cargo check command तक नहीं चलाए गए
    • संबंधित issue #98 अभी भी खुला है

reproducibility और reliability की समस्या

  • Cursor के ब्लॉग में कैसे चलाना है, अपेक्षित परिणाम क्या हैं, और यह कैसे काम करता है — इसका कोई विवरण नहीं है
  • reproducible demo, build instructions, या verified commit(tag/release/commit) उपलब्ध नहीं कराए गए
  • इसके बावजूद लेख की संरचना और भाषा इसे “काम करने वाला prototype” जैसा दिखाती है
  • Cursor ने स्पष्ट रूप से “यह काम करता है” नहीं कहा, इसलिए यह झूठा बयान नहीं है, लेकिन यह सफलता का संकेत देने वाला impression छोड़ता है

निष्कर्ष और मूल्यांकन

  • Cursor ने इसे “production-level browser” नहीं कहा, लेकिन ‘meaningful progress’ और ‘browser बनाना’ जैसी अभिव्यक्तियों से इसे सफल प्रयोग जैसा दिखाया गया
  • लेकिन काम करने के सबूत, build होने वाला code, और reproducible results बिल्कुल नहीं हैं
  • “सैकड़ों agents ने मिलकर बड़े प्रोजेक्ट में प्रगति हासिल की” यह दावा बिना किसी सबूत का दावा है
    • यह न्यूनतम मानदंड “compile हो सके और एक साधारण HTML file render कर सके” तक भी पूरा नहीं करता
  • नतीजतन, Cursor का यह प्रयोग autonomous coding scaling की संभावना से अधिक, बड़े पैमाने पर code generation की सीमाओं को दिखाने वाला उदाहरण बनकर रह जाता है

5 टिप्पणियां

 
sinbumu 2026-01-19

असल में इसने बस यह सफलतापूर्वक दिखाया है कि डेवलपर्स को अभी तक हटाया नहीं जा सका है~

 
jjw9512151 2026-01-18

सफल नतीजे = ए मैनेजमेंट वालों, इसका मतलब अभी भी हम लोगों को निकाला नहीं जा सकता

 
kimjoin2 2026-01-18

हाहा

 
laeyoung 2026-01-17

संबंधित लेख - https://hi.news.hada.io/topic?id=25859

 
GN⁺ 2026-01-17
Hacker News की राय
  • इस हफ्ते के प्रयोग को आखिरकार Servo (Rust-आधारित ब्राउज़र) के एक गैर-कार्यशील wrapper के स्तर का बताया गया; यह बात सबसे ऊपर आनी चाहिए
    संबंधित टिप्पणी यहाँ है

    • जिज्ञासा है कि क्या किसी ने कभी किसी लोकप्रिय open source प्रोजेक्ट को AI से rewrite करके देखा है
      नवीनतम LLMs शायद license laundering या dependency plagiarism में भी काफ़ी प्रभावी हो सकते हैं। नए benchmark के रूप में यह दिलचस्प हो सकता है
    • मैंने एक ट्वीट देखा कि किसी ने वास्तव में compile करने में सफलता पाई
    • नकारात्मक परिणाम भी मूल्यवान होते हैं। जानबूझकर सार्वजनिक किए जाएँ तो सम्मानजनक, और गलती से सामने आएँ तो मज़ेदार
      आज का मनोरंजन देने के लिए Cursor के नाम जाम
    • शुरू में screenshot देखकर मुझे एक पल के लिए लगा कि मेरी नौकरी ख़तरे में है
      लेकिन न engine है और सब कुछ पूरी तरह टूटा हुआ है, तो Cursor सचमुच शर्मनाक है
  • Cursor की आधिकारिक ब्लॉग पोस्ट काफ़ी संयमित लहजे में लिखी गई थी, लेकिन
    Twitter पर ऐसा बढ़ा-चढ़ाकर प्रभाव दिया गया जैसे “GPT-5.2 से ब्राउज़र बना दिया”
    असल में हज़ारों agents को अलग करके कई हफ्तों तक commits जमा कराए गए, लेकिन परिणाम अभी भी काम नहीं करता

    • “merge conflicts को resolve किया” कहना ज़्यादा मायने नहीं रखता। सिर्फ ‘ours’ या ‘theirs’ strategy इस्तेमाल करके भी हमेशा resolve किया जा सकता है
    • तो क्या किसी ने सच में इसे चलाने में सफलता पाई? screenshots कहाँ से आए? code में बहुत ज़्यादा errors हैं
    • लिंक की सामग्री देखने पर ब्राउज़र काम करता हुआ लगता है, तो इसे “संयमित” कैसे कहा जा रहा है, यह समझ नहीं आता
  • मैंने खुद जाँचने के लिए आख़िरी 100 commits पर cargo check चलाया
    नतीजा: सब fail हुए। result log देखें

    • अब एक नई टिप्पणी है कि यह compile हो रहा है
    • सच तो यह भी हो सकता है कि screenshots forged हों। Occam’s razor से देखें तो वही सबसे सरल व्याख्या है
  • ऐसी प्रचारबाज़ी आख़िरकार fundraising strategy का हिस्सा लगती है
    पहले भी इस तरह की कई अस्पष्ट posts डाली गईं कि internal models ने कितना code लिखा
    इसका मतलब यह नहीं कि इनमें कोई वास्तविक सामग्री नहीं है, लेकिन परिणामों को सार्वजनिक रूप से साझा न करना निराशाजनक है

    • दूसरे model providers के विपरीत benchmarks सार्वजनिक न करना हमेशा से शिकायत का कारण रहा है
      Cursor कभी चर्चा का केंद्र था, लेकिन अब terminal-आधारित agents का दौर है
      हमारी कंपनी भी Cursor contract ख़त्म करके Claude Code पर जाने की तैयारी कर रही है
      शायद यह ब्राउज़र प्रोजेक्ट फिर से ध्यान खींचने की कोशिश है
    • इस तरह की अतिशयोक्ति आख़िरकार सिर्फ market value बढ़ाने का तरीका है। इसे सही नहीं ठहराया जा सकता
    • आजकल हर LLM कंपनी सच से ज़्यादा ‘vibe-coded’ marketing पर निर्भर है
      GPT-5 घोषणा के समय भी ऐसा ही था। वास्तविक प्रगति धीमी पड़ रही है
    • पहले मुझे इस तरह की अतिशयोक्ति से नफ़रत थी, लेकिन अब इसे दुनिया की हक़ीक़त मानने लगा हूँ
      आख़िरकार भरोसे से ज़्यादा सत्यापन ही जवाब है
  • Cursor एक similar experiment के तहत Excel clone भी बना रहा है
    GitHub repository के अनुसार
    1.6 लाख workflows में सिर्फ 247 बार सफलता मिली, और अधिकांश budget पार होने के कारण fail हुए
    agents को ऐसी सीमाओं की बिल्कुल परवाह नहीं होती

  • नवीनतम commit अब build और run हो सकता है (कम से कम Mac पर)
    लेकिन फिर भी यह 30 लाख लाइनों का बेतरतीब कोड है
    Cursor के promotional video में दिखाया गया page render नहीं होता। शायद कोई दूसरा build इस्तेमाल किया गया था

    • cargo check pass हो जाता है, लेकिन git log देखने पर कुछ संदिग्ध लगता है
      agents नहीं, बल्कि किसी इंसान द्वारा सीधे fixes किए जाने के निशान हैं
      commit log analysis देखें
  • मुझे लगता है मूल पोस्ट बस clickbait headline थी
    “हज़ारों AI agents ने ब्राउज़र बनाया” जैसी पंक्ति बहुत उकसाऊ है

    • अब जब भी कोई कहेगा “AI ने ब्राउज़र बना दिया,” इस उदाहरण का link दिया जा सकेगा
    • जो projects वास्तव में काम नहीं करते, वे भी तेज़ी से news cycle में घूम रहे हैं
      “fake news” शब्द का राजनीतिक रूप से दूषित हो जाना अफ़सोसजनक है। इस क्षेत्र के लिए यह बिलकुल सटीक अभिव्यक्ति होती
  • Cursor के CEO ने दावा किया कि “Rust में rendering engine और JS VM को scratch से बनाया,” लेकिन
    वास्तविक dependency list देखने पर
    html5ever, cssparser, rquickjs जैसी Servo-आधारित libraries को ज्यों का त्यों इस्तेमाल किया गया
    अंततः यह Servo को wrap करने भर का काम निकला, और compile भी नहीं होता था

    • समझ नहीं आता कि CSS और JS को खुद implement करने का दावा क्यों किया गया
      ज़्यादातर लोग code देखते ही समझ जाते, लेकिन शायद सोचा गया कि जनता जाँच नहीं करेगी
      इसी तरह ग़लत धारणाएँ फैलती हैं, और बाद में correction आने पर भी कोई ध्यान नहीं देता
    • वास्तव में यह Servo के HTML/CSS parser, QuickJS, resvg, egui, wgpu आदि
      मौजूदा libraries से बना है। फिर भी इसे 3M lines कहना हास्यास्पद है
    • इसमें selectors, taffy भी शामिल हैं, और कुछ जगह पुरानी dependencies इस्तेमाल हो रही हैं
    • JS engine बस एक निजी प्रोजेक्ट को vendor folder में copy करने जैसा है
      संबंधित विवरण यहाँ देखें
    • जिज्ञासा है कि layout code Servo का इस्तेमाल करता है या Cursor ने खुद लिखा
      वही ब्राउज़र का सबसे कठिन हिस्सा होता है
  • मुझे लगता है यह marketing approach उल्टा नुकसानदायक है
    Cursor का design और UX शानदार है, लेकिन गहरे काम में bugs बहुत ज़्यादा हैं
    Claude model जुड़ने से कुछ सुधार हुआ, लेकिन फिर भी Antigravity से कमतर है
    ऊपर से $20 subscription limit भी बहुत जल्दी खत्म हो जाती है। models के 10 गुना बेहतर और 10 गुना सस्ते होने की संभावना कम है

    • कई AI कंपनियों के bug-भरे apps इस्तेमाल करके लगता है कि असली काम के लिए अभी भी मानवीय कौशल ज़रूरी है
      OpenAI के business model को ads-केंद्रित होते देखकर,
      लगता है Google इस तकनीक को ज़्यादा यथार्थवादी ढंग से समझ रहा था
  • ऐसी कहानियाँ आख़िरकार ‘फावड़े बेचने वालों’ के लिए ही हैं
    कम समझ रखने वाला कोई CEO ऐसी ख़बरों में फँसकर असली कर्मचारियों को निकाल भी सकता है