क्या AI coding assistant टूल्स धीरे-धीरे खराब होते जा रहे हैं?
(spectrum.ieee.org)- हाल के समय में AI coding assistant टूल्स की कुल गुणवत्ता में गिरावट दिख रही है, और काम की गति व नतीजों की शुद्धता पहले की तुलना में कमजोर हुई है
- नवीनतम large language model (LLM) अब syntax errors कम करते हैं, लेकिन उसके बदले ऐसे silent failure ज़्यादा पैदा करते हैं जिनमें code चलता तो है, पर परिणाम गलत होता है
- प्रयोगों में GPT-5 अक्सर error के मूल कारण को सामने लाए बिना मान गढ़कर समस्या को ढक देता है, जबकि GPT-4 और Claude के पुराने versions data या code की समस्या को अपेक्षाकृत साफ़ तौर पर उजागर करते हैं
- यह बदलाव user acceptance को learning signal मानने की प्रक्रिया में data quality धुंधली पड़ने के परिणाम से भी जुड़ा है
- अगर अल्पकालिक execution success से आगे बढ़कर high-quality data और expert validation में निवेश नहीं किया गया, तो यह जोखिम बढ़ेगा कि model अपनी ही बनाई गलतियों को फिर से सीखता रहे
AI coding assistant टूल्स के performance में गिरावट
- पिछले कुछ महीनों में AI coding assistant टूल्स की work efficiency और code reliability, दोनों में गिरावट देखी गई है
- जो काम पहले AI की मदद से 5 घंटे में हो जाता था, वह अब कई मामलों में 7–8 घंटे या उससे अधिक लेने लगा है
- कुछ users स्थिरता के कारण पिछली पीढ़ी के LLM फिर से चुन रहे हैं
- AI से बने code को बिना मानवीय हस्तक्षेप चलाने वाले test environment में यह बदलाव बार-बार देखा गया है
नए models में उभरता ‘silent failure’
- पहले समस्याएँ ज़्यादातर syntax error या स्पष्ट logical error के रूप में होती थीं, जो execution के दौरान तुरंत सामने आ जाती थीं
- नवीनतम models अब ऊपरी तौर पर सामान्य चलने वाला लेकिन अर्थ के स्तर पर गलत code बनाने की प्रवृत्ति ज़्यादा दिखा रहे हैं
- safety checks हटा देना
- केवल output format मिलाने के लिए नकली values बनाना
- ऐसी छिपी हुई गलतियाँ देर से पकड़ी जाती हैं और आगे के चरणों में अधिक लागत व भ्रम पैदा करती हैं
- यह आधुनिक programming languages के उस सिद्धांत से सीधे टकराता है कि वे तेज़ी से और स्पष्ट रूप से fail करें
साधारण tests में दिखा अंतर
- एक Python code error, जो मौजूद ही नहीं होने वाले column को refer करता था, ChatGPT के कई versions को दिया गया
- GPT-4: ज़्यादातर जवाबों में error के कारण की ओर इशारा किया गया या debugging के लिए प्रेरित किया गया
- GPT-4.1: dataframe columns print करके समस्या की पुष्टि करने की दिशा में मार्गदर्शन दिया गया
- GPT-5: वास्तविक index का उपयोग करके calculation कर डाली, code execution सफल होने का आभास दिया, लेकिन परिणाम अर्थहीन values निकले
- Claude models में भी इसी तरह का रुझान देखा गया
- पुराने versions समस्या पहचानने पर केंद्रित थे
- नए versions error को नज़रअंदाज़ करते हैं या उसे bypass करने वाले समाधान सुझाते हैं
training तरीकों और गुणवत्ता गिरावट का संबंध
- शुरुआती models मुख्यतः बड़ी मात्रा में मौजूद code पर train किए गए थे; उनमें errors ज़रूर थे, लेकिन वे समस्या को खुद नहीं छिपाते थे
- बाद में IDE integration के साथ user behavior (code acceptance, execution success आदि) को learning signal के रूप में इस्तेमाल किया जाने लगा
- नए users बढ़ने के साथ ‘बस चल जाए तो code अच्छा है’ जैसे signals जमा होने लगे, और models ने इन्हें सीखना शुरू किया
- नतीजतन safety checks हटाना, fake data बनाना जैसे गलत patterns मज़बूत हुए
- जैसे-जैसे automated coding features बढ़ते हैं, मानवीय validation घटती है, और model बार-बार गलत training दोहराने लगता है
आगे की ज़रूरी दिशा
- AI coding assistant टूल्स अब भी developer productivity और accessibility को काफ़ी बढ़ाने वाले tools हैं
- लेकिन execution success-केंद्रित training लंबी अवधि में code quality को नुकसान पहुँचाती है
- experts द्वारा labeled high-quality data और ज़िम्मेदार retraining process अनिवार्य हैं
- नहीं तो model के गलत output → गलत training → और खराब output वाले चक्र में फँसने की आशंका बढ़ेगी
1 टिप्पणियां
Hacker News की राय
यह दिलचस्प है कि AI के उत्साही लोग अपनी productivity बढ़ने की बात करते समय व्यक्तिपरक अनुभव पर निर्भर करते हैं, लेकिन विरोधी राय से अत्यधिक proof burden मांगते हैं
लेखक ने वास्तव में live streaming demo का ऐलान किया था, लेकिन नतीजतन वह एक साधारण extension task भी एक घंटे में पूरा नहीं कर पाया
मुझे लगा, अगर मैं खुद हाथ से करता तो भी लगभग उतना ही समय लगता
इसलिए मैंने कमेंट में पूछा, “10 गुना सुधार कहाँ है?”, तो उसने “वह बस एक छोटी-सी गलती थी” या “AI जवाब दे रही थी तब मैं दूसरा काम कर सकता था” जैसी बातों से इनकार किया
सच कहूँ तो शुरू में मैं संदेह में था, लेकिन चाहता था कि मेरा संदेह ग़लत निकले। लेकिन ऐसा नहीं हुआ
आखिरकार productivity बढ़ने के दावे का proof burden पूरी तरह दावा करने वाले पर ही होता है
मुझे नहीं लगता कि AI मौलिक सोच कर सकती है। लेकिन tab autocomplete फ़ीचर loop, error handling, documentation जैसी चीज़ों में बहुत समय बचा देता है
समस्या हल करने की गति वही रहती है, लेकिन implementation चरण में यह निश्चित रूप से तेज़ हो जाता है
यानी, अगर “10 गुना सुधार” है, तो वह समस्या-समाधान में नहीं बल्कि typing speed में 10 गुना सुधार है
C# आधारित 10 लाख lines वाले project में भी quality घटे बिना productivity काफ़ी बढ़ी है
आलोचकों से मैं कहना चाहूँगा, “खुद करके दिखाइए।” यह कोई secret technique नहीं, बस tool को संभालना सीखने में समय लगा है
लेकिन फिर वे अपने बनाए शानदार नतीजे दिखाने के बजाय मुझे मनाने की कोशिश क्यों करते हैं?
क्या कहीं reward या incentive तो नहीं है, ऐसा शक होता है
समस्या यह नहीं कि AI ख़राब हो गई है, बल्कि results की reproducibility कमज़ोर है
ride-hailing या delivery app की तरह LLM ecosystem भी अंततः price increase structure की ओर जाएगा। अभी तो यह सिर्फ़ investment funding की वजह से subsidized state में है
अभी subsidy की वजह से सस्ता है, लेकिन जल्द ही subsidy के बिना भी सस्ता होने की संभावना ज़्यादा है
हाँ, latest SOTA model इस्तेमाल करना महँगा हो सकता है। लेकिन वह अलग value का सवाल है
10–20 हज़ार डॉलर में ऐसी machine बनाई जा सकती है जो पूरे दिन token generate करे, और बड़े operator economies of scale से इसे और कुशलता से चलाते हैं
ऐसे हिस्सों पर अब भी भरोसा करना मुश्किल है
जब investment funding रुक जाएगी, तो आख़िरकार कीमतें बढ़ेंगी, और competition गायब होने के बाद ही असली cost structure सामने आएगा
कुछ users के अनुसार “AI ख़राब हो गई” वाला test ही अजीब है
उदाहरण के लिए, अगर ऐसे code में जो मौजूद ही नहीं होने वाले column को refer करता है, आप कहें “बिना comment के सिर्फ़ completed code दो”, तो AI मजबूरन ग़लत code दे सकती है
एक सक्षम developer को कहना चाहिए, “यह ग़लत request है।” यह test sycophantism दिखाने वाला वैध प्रयोग है
बस चुपचाप ग़लत result दे देना ख़तरनाक है
index_valuecolumn नहीं है, इसलिएdf.indexइस्तेमाल करना चाहिए”ऐसी गलती GPT-2 स्तर की hallucination के ज़्यादा क़रीब है
मुझे AI development assistant tools पसंद हैं, लेकिन यह हमेशा absolute gain है या नहीं, इस पर यक़ीन नहीं
पहले मैं lunch time कम करने के लिए Huel पीता था, लेकिन अंत में मैंने break की value ही खो दी
AI के साथ भी, अगर यह details मिस कर दे तो उलटा वापस जाकर ठीक करने का समय लग जाता है
इसलिए मैं project का पूरा context और constraints रखने वाली 15k token की Markdown file बनाकर हर बार prompt में डालता हूँ
यह एक तरह का “world model” document है
जितना समय बचता है, उतना ही ज़्यादा काम आप करने लगते हैं, और self-efficacy तथा problem-solving ability कमज़ोर पड़ती है
यह भूल जाना आसान है कि ऐसी “inefficiency” दरअसल ज्ञान और insight पाने की प्रक्रिया थी
AI की productivity boost, वास्तविक operating cost से तुलना करें तो शायद बढ़ा-चढ़ाकर आँकी गई हो
IEEE से तकनीकी paper की उम्मीद थी, लेकिन यह लेख opinion piece स्तर का निकला, यह थोड़ा निराशाजनक था
मैं इस बात से सहमत हूँ कि GPT-5 problem solving पर ही केंद्रित रहता है और big picture नहीं देख पाता, लेकिन दूसरे model अब भी अच्छा काम करते हैं
मैं व्यक्तिगत रूप से Gemini-3-flash और एक custom Copilot replacement extension इस्तेमाल करता हूँ, और वह कहीं ज़्यादा उपयोगी तथा personalized development experience देता है
हाल में मैंने Cursor को
grep,cd,lsको मानो infinite loop की तरह दोहराते देखालगता है उसने बहुत ज़्यादा “vibe coder” users को target करते हुए features ठूँस दिए हैं। उलटा हल्का version ज़्यादा संभालने लायक था
“execution failure” ज़रूरी नहीं कि बुरा संकेत हो
कभी-कभी वही सबसे क़रीबी सही जवाब होता है, या bug ढूँढने का सुराग बन सकता है
लेकिन execution के लिए validation logic हटाना या meaning बदल देना सबसे ख़राब नतीजा है
मुझे जिज्ञासा है कि जब LLM इंटरनेट की सारी जानकारी ख़त्म कर चुकी होगी, तब क्या होगा
अगर Stack Overflow या open source code गायब हो जाए, तो क्या आख़िरकार वह खुद को ही सीखते-सीखते collapse (model collapse) नहीं कर जाएगी?
लेकिन कुछ शोधकर्ता मानते हैं कि वास्तविक पैमाने के data में इसका जोखिम बहुत बड़ा नहीं है
हाल के NVIDIA Nemotron 3 Nano model का 33% हिस्सा synthetic data पर train किया गया है
maintainability जैसी value function को शामिल करके simulation चलाया जा सकता है
अगर AI खुद अपनी गलती पहचान न सके, तो self-collapse की संभावना हो सकती है
“sharing is caring” वाला इंटरनेट शायद गायब हो जाए
AI ख़राब नहीं हुई है, बल्कि बेहतर हुई है, बस इस्तेमाल का तरीका बदल गया है
सही scaffolding होने पर काफ़ी बेहतर परिणाम मिल सकते हैं
सिर्फ़ साधारण test से “AI बेवकूफ़ है” निष्कर्ष निकालना ग़लत है
उदाहरण के लिए, अगर आप “December sales” पूछें, तो ज़्यादातर model साल की शर्त के बिना हर December का total जोड़ देते हैं
ऐसी logical error वास्तविक काम में समस्या पैदा करती है
लगता है कि technical vocabulary और अभिव्यक्ति की क्षमता performance को प्रभावित करती है
मैंने भी model की महीना-दर-महीना quality variation महसूस की है
लगता है कि वह पहले अच्छी तरह कर लेने वाली error handling या variable naming conventions जैसी चीज़ें भूल गई है
कभी-कभी बातचीत लंबी होने पर quality गिरती जाती है। शायद prompt length का एक optimum point होता है
नया काम नए thread से शुरू करना और अनावश्यक requests हटाना बेहतर है