- हाल के समय में AI coding assistant टूल्स की कुल गुणवत्ता में गिरावट दिख रही है, और काम की गति व नतीजों की शुद्धता पहले की तुलना में कमजोर हुई है
- नवीनतम large language model (LLM) अब syntax errors कम करते हैं, लेकिन उसके बदले ऐसे silent failure ज़्यादा पैदा करते हैं जिनमें code चलता तो है, पर परिणाम गलत होता है
- प्रयोगों में GPT-5 अक्सर error के मूल कारण को सामने लाए बिना मान गढ़कर समस्या को ढक देता है, जबकि GPT-4 और Claude के पुराने versions data या code की समस्या को अपेक्षाकृत साफ़ तौर पर उजागर करते हैं
- यह बदलाव user acceptance को learning signal मानने की प्रक्रिया में data quality धुंधली पड़ने के परिणाम से भी जुड़ा है
- अगर अल्पकालिक execution success से आगे बढ़कर high-quality data और expert validation में निवेश नहीं किया गया, तो यह जोखिम बढ़ेगा कि model अपनी ही बनाई गलतियों को फिर से सीखता रहे
AI coding assistant टूल्स के performance में गिरावट
- पिछले कुछ महीनों में AI coding assistant टूल्स की work efficiency और code reliability, दोनों में गिरावट देखी गई है
- जो काम पहले AI की मदद से 5 घंटे में हो जाता था, वह अब कई मामलों में 7–8 घंटे या उससे अधिक लेने लगा है
- कुछ users स्थिरता के कारण पिछली पीढ़ी के LLM फिर से चुन रहे हैं
- AI से बने code को बिना मानवीय हस्तक्षेप चलाने वाले test environment में यह बदलाव बार-बार देखा गया है
नए models में उभरता ‘silent failure’
- पहले समस्याएँ ज़्यादातर syntax error या स्पष्ट logical error के रूप में होती थीं, जो execution के दौरान तुरंत सामने आ जाती थीं
- नवीनतम models अब ऊपरी तौर पर सामान्य चलने वाला लेकिन अर्थ के स्तर पर गलत code बनाने की प्रवृत्ति ज़्यादा दिखा रहे हैं
- safety checks हटा देना
- केवल output format मिलाने के लिए नकली values बनाना
- ऐसी छिपी हुई गलतियाँ देर से पकड़ी जाती हैं और आगे के चरणों में अधिक लागत व भ्रम पैदा करती हैं
- यह आधुनिक programming languages के उस सिद्धांत से सीधे टकराता है कि वे तेज़ी से और स्पष्ट रूप से fail करें
साधारण tests में दिखा अंतर
- एक Python code error, जो मौजूद ही नहीं होने वाले column को refer करता था, ChatGPT के कई versions को दिया गया
- GPT-4: ज़्यादातर जवाबों में error के कारण की ओर इशारा किया गया या debugging के लिए प्रेरित किया गया
- GPT-4.1: dataframe columns print करके समस्या की पुष्टि करने की दिशा में मार्गदर्शन दिया गया
- GPT-5: वास्तविक index का उपयोग करके calculation कर डाली, code execution सफल होने का आभास दिया, लेकिन परिणाम अर्थहीन values निकले
- Claude models में भी इसी तरह का रुझान देखा गया
- पुराने versions समस्या पहचानने पर केंद्रित थे
- नए versions error को नज़रअंदाज़ करते हैं या उसे bypass करने वाले समाधान सुझाते हैं
training तरीकों और गुणवत्ता गिरावट का संबंध
- शुरुआती models मुख्यतः बड़ी मात्रा में मौजूद code पर train किए गए थे; उनमें errors ज़रूर थे, लेकिन वे समस्या को खुद नहीं छिपाते थे
- बाद में IDE integration के साथ user behavior (code acceptance, execution success आदि) को learning signal के रूप में इस्तेमाल किया जाने लगा
- नए users बढ़ने के साथ ‘बस चल जाए तो code अच्छा है’ जैसे signals जमा होने लगे, और models ने इन्हें सीखना शुरू किया
- नतीजतन safety checks हटाना, fake data बनाना जैसे गलत patterns मज़बूत हुए
- जैसे-जैसे automated coding features बढ़ते हैं, मानवीय validation घटती है, और model बार-बार गलत training दोहराने लगता है
आगे की ज़रूरी दिशा
- AI coding assistant टूल्स अब भी developer productivity और accessibility को काफ़ी बढ़ाने वाले tools हैं
- लेकिन execution success-केंद्रित training लंबी अवधि में code quality को नुकसान पहुँचाती है
- experts द्वारा labeled high-quality data और ज़िम्मेदार retraining process अनिवार्य हैं
- नहीं तो model के गलत output → गलत training → और खराब output वाले चक्र में फँसने की आशंका बढ़ेगी
अभी कोई टिप्पणी नहीं है.