GPT-5: देर से लॉन्च, ज्यादा आंका गया, अपेक्षा से कम—और उससे भी बड़ी चिंता
(garymarcus.substack.com)- GPT-5 के सार्वजनिक होने के बाद अपेक्षा के विपरीत समुदाय की निराशा काफी बढ़ गई
- GPT-5 पूर्व मॉडल के मुकाबले वास्तविक रूप से उल्लेखनीय रूप से अलग नहीं है, बल्कि कुछ benchmark में प्रदर्शन में गिरावट भी देखी गई
- हालिया शोध से यह स्पष्ट हुआ कि बड़े भाषा मॉडल (LLM) की generalization सीमा और distribution shift समस्या अभी भी गंभीर है
- OpenAI में तकनीकी नेतृत्व के क्षरण, प्रमुख प्रतिभाओं के पलायन और प्रतिस्पर्धी कंपनियों की तेज़ रफ़्तार के कारण कंपनी का मूल्य बरकरार रहेगा या नहीं, यह अस्पष्ट हो गया है
- AGI के दावों पर भरोसा घटा है, और पूरी AI इंडस्ट्री में ‘सिर्फ स्केलिंग’ दृष्टिकोण की सीमा को लेकर जागरूकता बढ़ रही है
GPT-5 का लॉन्च और अपेक्षाएँ
- OpenAI की लंबे समय से दी गई घोषणाओं के बाद आखिरकार GPT-5 सार्वजनिक हुआ
- CEO Sam Altman ने लॉन्च के पहले और बाद में आत्मविश्वास भरे बयानों तथा आक्रामक मार्केटिंग इमेजरी का भरपूर उपयोग किया
- फिर भी GPT-5 के रिलीज़ के बाद, कुछ इन्फ्लुएंसरों को छोड़कर अधिकांश समुदाय में निराशा हावी रही
- नए मॉडल को लेकर उपयोगकर्ता काफी निराश हुए, और कई जगह पुराने वर्जन पर वापस लौटने की माँग वाली याचिकाएँ तक पास हुईं
- Altman के दावों और मार्केटिंग के उलट, वास्तविक उपयोग समीक्षा का रुझान स्पष्ट रूप से नकारात्मक रहा
समुदाय और मीडिया की प्रतिक्रिया
- OpenAI Reddit, Hacker News आदि कई समुदायों में errors, hallucination जैसे GPT-5 के मुद्दों पर तेज़ चर्चा हुई
- मुख्य performance benchmarks में Grok 4 जैसे प्रतिस्पर्धी मॉडलों से पीछे रहना भी देखा गया
- automatic routing जैसी नई सुविधाओं में भी अव्यवस्था और अधूरापन सामने आया
- जब समुदाय की अपेक्षा अचानक बहुत ऊँची थी, तब GPT-5 ने उल्टा बड़ा निराशाजनक अनुभव दिया
- लॉन्च के दिन Polymarket सर्वे में OpenAI AI leadership पर भरोसा 1 घंटे में 75% से घटकर 14% रह गया
संरचनात्मक सीमाएँ: शतरंज, विज़ुअल समझ और रीज़निंग समस्याएँ
- लेखकों और कई विशेषज्ञों ने पहले ही जिस मूलभूत reasoning errors और chess नियम पालन की विफलता की ओर इशारा किया था, वे अभी भी मौजूद हैं
- image generation जैसे क्षेत्रों में part-whole संबंध, दृश्यात्मक consistency में स्पष्ट सीमाएँ दिखीं
- ऐसा स्तर भी गलतियों से भर गया, जिसमें एक मशीन इंजीनियरिंग PhD और आम आदमी भी गलती नहीं करते
- summarization और reading comprehension जैसे बेसिक tasks में भी कई गलतियों की रिपोर्ट सामने आई
- GPT-5 एक क्रमिक सुधार वाला मॉडल तो है, पर पिछले साल के मुकाबले कोई बड़ा बदलाव दिखाई नहीं देता
OpenAI की वर्तमान स्थिति और भविष्य
- GPT-5 पूर्व संस्करणों की तुलना में केवल धीरे-धीरे सुधार के स्तर तक सीमित रहा, और गंभीर खामियाँ बार-बार दोहराईं
- बाजार और उद्योग में OpenAI के तकनीकी नेतृत्व पर भरोसा लगातार गिर रहा है
- कई मुख्य कर्मचारियों के बाहर जाने के बाद प्रतिस्पर्धी कंपनियाँ बनना या जॉइन करना, और Anthropic, Google, Elon Musk का तेज़ी से आगे आना
- price cuts का दबाव, profitability की चुनौती और Microsoft के साथ रिश्तों का बिगड़ना आदि संरचनात्मक जोखिम को बढ़ा रहे हैं
- LLM-आधारित AGI की वास्तविकता पर संशय और CEO Sam Altman पर भरोसे में कमी और गहरी हो रही है
LLM की मूलभूत सीमा: सामान्यीकरण और distribution shift समस्या
- Arizona State University की नई शोध रिपोर्ट से यह भी सामने आया कि Chain of Thought reasoning भी training distribution से बाहर होने पर टूट जाती है
- Apple जैसी अन्य कंपनियों द्वारा पहले ही बताई गई distribution shift से कमजोरी वही structure में नई models में भी पाया गया
- यह संकेत देता है कि LLM बार-बार qualitative सीमा से टकराते हैं, और सिर्फ भारी parameter count से इसे पार नहीं किया जा सकता
- अरबों डॉलर खर्च करने वाली scaling strategy भी मूल समस्या के समाधान में विफल रही
- नई paradigm खोजने की ज़रूरत अब व्यापक रूप से महसूस की जा रही है
AI उद्योग और ‘स्केलिंग’ की सीमा
- AGI, self-driving, और inflated timelines जैसी अतिरंजित मार्केटिंग व्यापक है
- distorted benchmarks, black-box evaluation और transparency की कमी गंभीर रूप से मौजूद हैं
- कई लोगों को महसूस होने लगा है कि ‘AGI’ शब्द निवेशकों और जनता को लुभाने का औजार बन चुका है
- AI के प्रति बढ़ती सकारात्मक उम्मीदों के साथ इसे जल्दी दिखाने का दबाव भी बढ़ा है
- सिर्फ स्केलिंग अप्रोच अब वास्तविकता में एक dead-end पर पहुँच चुकी है
विकल्प और निष्कर्ष
- GPT-5 शायद पहले की तुलना में सस्ता हुआ हो, लेकिन शतरंज, reasoning, visual और गणितीय क्षमता जैसे क्षेत्रों की गुणात्मक सीमाएँ अब भी कायम हैं
- Grok, Claude, Gemini जैसी प्रतिस्पर्धी मॉडल श्रृंखलाएँ भी समान समस्याएँ दोहरा रही हैं
- distribution shift की समस्या अभी भी अनसुलझी है
- अब यह तर्क मजबूत होता जा रहा है कि neurosymbolic AI और world-model आधारित approaches जैसी नई दिशाएँ जरूरी हैं
- AGI के लिए केवल स्केलिंग नहीं, बल्कि complex algorithmic innovation अनिवार्य तत्व है
आगे के मुद्दे की झलक और PS
- सिर्फ इस सप्ताह सामने आई LLM सीमाओं के अलावा, एक और गंभीर वैज्ञानिक मुद्दे के उजागर होने की संभावना बताई गई
- अगली follow-up पोस्ट में अलग अपडेट साझा करने की घोषणा
सारांश
- GPT-5 के लॉन्च और बाद की industry/community अपेक्षा व प्रतिक्रियाओं, LLM की संरचनात्मक सीमाओं, OpenAI के भविष्य और AGI फ्रेमवर्क की वास्तविकता पर व्यापक विमर्श हुआ
- कुल मिलाकर सामग्री startup और IT professionals के लिए LLM, GPT-5 की वास्तविक सीमाएँ, AI निवेश/आशा/निराशा, innovation और research trend जैसे बिंदुओं पर महत्त्वपूर्ण संकेत देती है
5 टिप्पणियां
लगता है यह अति-निराशावादी नज़रिया है।
चिंताओं को समझा जा सकता है, लेकिन तकनीकी विकास की प्रक्रिया हमेशा सिर्फ ऊपर की ओर ही नहीं बढ़ती।
और ऊपर से पोस्ट लिखने वाला आदमी ही Gary Marcus था, जो हमेशा ऊल‑जलूल बातें करता रहता है, इसलिए...
गूगल की तरह अगर बस चुपचाप show&prove किया होता, तो शायद यह इतना आगे नहीं बढ़ता। पिछले दिनों ‘बहुत डरावना है’, ‘डैथ स्टार क्या करेगा’, ‘न्यूक्लियर बम बना दिया’ जैसी हाइप पर हाइप जमाकर छोड़ दी थी—अब लगता है कि वही सब अपने ही किए का फल है।
और ऐलान/लॉन्च के दौरान जब उन्होंने बेंचमार्क दिखाया, तब जो बहुत ही बेसिर-पैर की गलती की, उसने भी शायद कुल मिलाकर पड़े इम्प्रेशन को खराब करने में योगदान दिया।
Hacker News टिप्पणी
मैं अभी भी मानता हूँ कि GPT‑5 असल में एक practical cost-saving strategy है, क्योंकि OpenAI जैसी growth-oriented कंपनी GPU-आधारित उत्पादों में 1 अरब users पाने के लक्ष्य के साथ काम कर रही है।
GPT‑5 Pro पर कोई खास चर्चा नहीं कर रहा, लेकिन मैंने खुद टेस्ट किया और यह Grok 4 Heavy तथा Opus 4.1 से काफ़ी बेहतर लगा।
यह पूरी तरह नई टेक्नोलॉजी पर है, और अगर मॉडल को पूरी क्षमता पर चलाएँ तो प्रति व्यक्ति प्रति महीने हज़ारों डॉलर खर्च हो सकते हैं।
इसलिए इसे वास्तविकता में सीमित स्तर पर ही उपलब्ध कराया जा रहा है; OpenAI का focus उस छोटे सेगमेंट पर नहीं बल्कि growth लेकर Google से सीधी भिड़ंत पर है।
Pro मॉडल का जिक्र कहीं नहीं दिखा, इसलिए मैं इस राय पर भरोसा नहीं कर पाता।
मेरे हिसाब से GPT‑5 Pro को o3-pro से कहीं बेहतर मानने का महसूस नहीं होता (शायद बिल्कुल नहीं), यह काफी धीमा है और आउटपुट क्वालिटी लगभग वही है।
मैंने अपना network check किया, GPT‑5 Pro इस्तेमाल करने वाला कोई व्यक्ति नहीं मिला।
मैं इस राय से सहमत हूँ, पर मेरा मानना है कि बेहतर मॉडल को public में छोड़ने का उद्देश्य भी है।
Pro मॉडल API से शायद इस्तेमाल नहीं हो सकता, सही?
सहमत।
मुझे इस तरह की टिप्पणियाँ अक्सर काफ़ी चिढ़ाती हैं।
सीधे खुद analyze करके यह नहीं लिखना कि क्यों GPT‑5 खराब लगा, बल्कि सोशल मीडिया रिएक्शन स्क्रैप करके हर criticism को “shocking” या “harsh criticism” बना देना—बस इसलिए कि अपनी राय मनवा सके।
यह बहुत biased है; न journalism है, न original analysis।
AI से जुड़ी खबरों में अक्सर basic curiosity की कमी लगती है, और अधिकतर मज़ाक या तंज़ पर जोर रहता है।
Gary Marcus की analysis अक्सर बहुत उथली होती है।
Gary Marcus अक्सर ये दावा करते हैं कि AI वास्तविक दुनिया में काम ही नहीं करती—उनकी सही बातें लगभग chance level पर आती हैं।
यह पोस्ट इस पर है कि GPT‑5 ने क्या ओवरहाइप को justify किया और लोगों की प्रतिक्रिया क्या रही।
मुझे लग रहा है कि वास्तविक राय खोजना धीरे-धीरे कठिन होता जा रहा है।
मेरे अनुभव में यह “upgrade” Plus users के लिए बड़े पैमाने पर downgrade है।
GPT‑5, O3 के मुकाबले response quality में कमजोर है; पर्याप्त सोच नहीं दिखती और O3 की तरह web search भी नहीं करता।
मैंने खुद ‘thinking’ चुना और clear निर्देश दिए, फिर भी issue solve नहीं होता।
अभी लगभग वही quality पाने के लिए Gemini पर जाना पड़ता है।
और custom GPTs (संबंधित जानकारी) भी खराब लग रहे हैं; मेरा custom grammar-checker GPT, मॉडल कुछ भी हो, निर्देश ignore कर देता है।
Deep research option भी अजीब है; चुनने पर भी वही जवाब देता है, निर्देश देने पर भी खास बदलाव नहीं।
Projects भी लगभग टूटे हुए लगते हैं।
शायद जानबूझकर free plan की तरफ push किया जा रहा है, या अगले साल शुरुआत से ads डालने की कोशिश होगी, या users को $200 वाले plan की तरफ ले जाने की चाल।
hallucinations (गलत जानकारी) वास्तव में बहुत ज़्यादा हैं।
AI community को Gary Marcus जैसे independent experts की ज़रूरत है।
उद्योग से जुड़ी अतिशयोक्तियों या internal benchmark बदलावों (जैसे “हमने अंदर ही अंदर AGI पा लिया”) के पीछे भी सत्यता और transparency बनी रहनी चाहिए।
उनके style से अलग, Marcus ने scaling laws की सीमाओं या LLM प्रकार की AI में वास्तविक reasoning gap (distributional generalization) जैसी कई समस्याओं पर सही बिंदु पहले भी उठाए हैं।
इंडस्ट्री अक्सर शुरुआत में नकारती है, फिर समय के बाद नया concept (Prompt Chain, RL-based LLM आदि) बेचते हुए उसे खुद की खोज बताती है।
ओवरहाइप किए हुए narrative के बीच critical आवाज़ की ज़रूरत है।
मैं इससे strongly oppose करता हूँ।
AI की अधिकतर सीमाओं या गलत समझ को Marcus से जोड़ना ठीक नहीं।
अभी GPT को सच में जिस सबसे बड़े सुधार की जरूरत है, वह है “जब न पता हो तो साफ़ कह दो कि नहीं पता।”
आज मैंने Cyberpunk 2077 के एक mode में redscript से NPC auto-generate करने का तरीका खोजा; सच में कठिनाई से पता चला।
ChatGPT 5 ‘research’ कहता है लेकिन API गढ़ देता है, और कई बार तथ्य गलत है यह बताने पर भी सिर्फ hallucination दोहराता है।
30 मिनट सिर्फ मेरा समय खराब हुआ; अगर वह सीधे कह देता कि उसे नहीं पता, तो 1 मिनट में हो जाता।
ChatGPT के बारे में ये assumption नहीं करनी चाहिए कि उसे सच में पता है।
सही कहा।
वास्तव में कुछ भी “जानता” नहीं।
“जब नहीं पता हो तो न जानते हुए कहना” सबसे ज़रूरी है—इससे सहमत।
ये सुधार वास्तव में चल रहे हैं; OpenAI की official जानकारी में इसका उल्लेख है।
मुझे लगता है कि उसकी “perfect-match obsession” वास्तविक fact को ही धुंधला कर देती है।
hybrid symbolic/transformer सिस्टम पर discussion रोचक है।
linked post में दिखाया कि गणित को Python को delegate करके Grok 4 गणित में सफल हो सका।
personally मैं symbolic-first approach देखना चाहूँगा: वास्तविक hard math के लिए symbolic तरीका, और सिर्फ reasoning-requiring areas को monad से handle करना।
Aloe की neuro-symbolic system ने OpenAI के deep research GAIA benchmark में लगभग 20 points का अंतर बनाते हुए आगे जगह बनाई।
GPT‑5 में एक अलग समस्या दिखी जो GPT‑4 में नहीं थी।
चैट थ्रेड में context अचानक टूट जाता है और अगला जवाब ठीक से समझ नहीं पाता।
लगता है जैसे किसी context-cleanup process का हस्तक्षेप हो रहा है—जबकि अब तक की बातचीत का summary नहीं करके आगे बढ़ जाता है।
शायद वास्तविक usable context बहुत छोटा हो गया है; यह स्थिति बार-बार हो रही है।
अगर कहूँ कि “हाल की बातचीत review करो” तो थोड़ा बेहतर लगता है।
मेरे केस में जवाब काफी छोटे हो गए हैं।
“लोग चमत्कार की उम्मीद कर बैठे थे, लेकिन GPT‑5 सिर्फ नया incremental upgrade है।”
अब training data लगभग खत्म होने वाली चीज़ है।
AI में आगे के सारे सुधार अब structural/architectural बदलाव पर निर्भर होंगे।
सभी नए मॉडल नए information पर local maxima पर टिक जाते हैं।
पहले के शोध बताते हैं कि deliberately collected वास्तविक data और मुख्यतः synthetic data को मिलाकर frontier LLM training करना सबसे प्रभावी है।
मैंने यही बात दो साल पहले भी इसी context में कही थी।
क्या सच में GPT‑5 पहले ही दुनिया का सारा वीडियो डेटा सीख चुका है?
नया training data रोज़ नहीं बनता क्या?
OpenAI चाहे best model बना दे, ‘GPT‑5’ नाम पर community और OpenAI ने पहले ही hype चढ़ा दिया है, जिससे failure जैसे पहले ही तय हो गया है।
शायद OpenAI को memes और ओवरहाइप से बचते हुए gradual सुधार चुनना चाहिए था, पर उससे investors, narrative और AI ecosystem टिकाना कठिन होता।
हमें शायद पहले ही peak पर पहुँच चुके हैं।
यह भी सच है कि Sam Altman ने सीधे वही अपेक्षा create की और उसे push किया।
अगर वास्तविक AGI आ भी जाए तो यह देखने में दिलचस्प होगा कि लोग कैसे “फेल हो गया, अपेक्षा के नीचे रहा” वाली logic चलाएँगे।