GPT‑5.2 का लॉन्च
(openai.com)- GPT‑5.2 विशेषज्ञ ज्ञान-आधारित कार्यों के लिए सबसे मजबूत AI मॉडल श्रृंखला है, जिसमें कोड लिखना, इमेज पहचान और जटिल परियोजनाएँ करने की क्षमता बेहतर हुई है।
- GDPval मूल्यांकन में 44 ज्ञान-कार्य टास्क्स में से 70.9% पर यह उद्योग विशेषज्ञों से बेहतर या बराबर रहा; गति 11x और लागत 1% से कम रही।
- SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% जैसे प्रमुख बेंचमार्क पर सर्वोच्च प्रदर्शन हासिल किया।
- लंबा कॉन्टेक्स्ट समझ (256k टोकन), विज़ुअल जानकारी प्रसंस्करण, टूल उपयोग (98.7%) में GPT‑5.1 की तुलना में बड़ा सुधार दिखा।
- यह ChatGPT और API में चरणबद्ध तरीके से रोलआउट किया जाएगा और विशेषज्ञों के लिए उत्पादकता और विश्वसनीयता बढ़ाने को लक्ष्य बनाता है।
GPT‑5.2 का अवलोकन
- GPT‑5.2 एक विशेषज्ञ ज्ञान-आधारित कामों के लिए AI मॉडल श्रृंखला है, जो स्प्रेडशीट निर्माण, प्रस्तुतीकरण बनाना, कोड लेखन, इमेज पहचान, लंबा टेक्स्ट समझना, टूल उपयोग और जटिल परियोजनाएँ संभालने की क्षमता को मजबूत करता है।
- ChatGPT Enterprise उपयोगकर्ता पहले से ही औसतन प्रति दिन 40–60 मिनट और प्रति सप्ताह 10 घंटे से अधिक समय बचा रहे हैं; GPT‑5.2 इस दक्षता को और बढ़ाने का दावा करता है।
- ChatGPT में इसे Instant, Thinking, Pro के तीन वर्ज़न में उपलब्ध कराया गया है, जबकि API में डेवलपर्स के लिए तुरंत रिलीज़ किया गया है।
मॉडल प्रदर्शन
- GPT‑5.2 Thinking ने GDPval मूल्यांकन में पहली बार विशेषज्ञ-स्तर से ऊपर का प्रदर्शन हासिल किया।
- 44 ज्ञान-कार्य टास्क्स में से 70.9% में विशेषज्ञों को पार करने या बराबरी करने का परिणाम मिला।
- विशेषज्ञों की तुलना में 11x तेज़ और लागत में 1% से कम।
- आंतरिक परीक्षण में निवेश बैंक विश्लेषण के लिए स्प्रेडशीट मॉडलिंग कार्य का स्कोर GPT‑5.1 की तुलना में 9.3% बढ़ा (59.1% → 68.4%)।
- SWE‑Bench Pro 55.6%, SWE‑Bench Verified 80% के साथ सॉफ़्टवेयर इंजीनियरिंग प्रदर्शन में सुधार दिखा।
- वास्तविक code debugging, feature implementation, refactoring और deployment में अधिक स्थिर निष्पादन।
- फ्रंटएंड डेवलपमेंट और 3D UI कार्यों में भी GPT‑5.1 की तुलना में सुधार।
- त्रुटिपूर्ण उत्तर दर 30% घटी, जिससे हैलुसिनेशन (hallucination) की आवृत्ति कम हुई।
लंबा कॉन्टेक्स्ट समझ और विज़ुअल पहचान
- OpenAI MRCRv2 मूल्यांकन में लंबी दस्तावेज़-समझ को एकीकृत करने की क्षमता में शीर्ष परिणाम।
- 256k टोकन तक लगभग 100% सटीकता हासिल की।
- रिपोर्ट, कॉन्ट्रैक्ट और रिसर्च पेपर जैसे लंबी लंबाई के दस्तावेज़ विश्लेषण के लिए अनुकूल।
/compactendpoint के साथ संगत होने के कारण context-extending workflow का समर्थन।- विज़ुअल पहचान बेहतर होने से चार्ट, डैशबोर्ड और UI स्क्रीनशॉट जैसे मामलों में त्रुटि दर लगभग आधी रह गई।
- इमेज के भीतर घटकों की spatial arrangement समझने की क्षमता मजबूत हुई।
टूल उपयोग और मिश्रित कार्य
- Tau2‑bench Telecom 98.7% के साथ टूल उपयोग क्षमता में शीर्ष रिकॉर्ड।
- मल्टी-स्टेप ग्राहक सहायता, डेटा संग्रह, विश्लेषण और परिणाम निर्माण जैसी एंड‑टू‑एंड वर्कफ्लो क्षमताएँ मजबूत हुईं।
- उदाहरण: उड़ान देरी, कनेक्टिंग फ्लाइट और मुआवज़ा अनुरोध जैसी जटिल ग्राहक सेवा प्रक्रियाओं को पूरी तरह से संभालना।
वैज्ञानिक, गणितीय और तर्क क्षमता
- GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% के साथ प्रमुख शोध-उन्मुख बेंचमार्क में शीर्ष परिणाम।
- GPT‑5.2 Pro ने ARC‑AGI‑1 में 90% पार किया, और cost efficiency में 390x सुधार दिखाया।
- GPT‑5.2 Pro और Thinking को scientific research acceleration के लिए उपयोगी माना गया।
- वास्तविक शोध में सांख्यिकी के सैद्धांतिक प्रमाण का प्रस्ताव और सत्यापन करवाने का उदाहरण दिया गया।
ChatGPT के अंदर उपयोग अनुभव
- GPT‑5.2 Instant: तेज़ उत्तर और साफ़ व्याख्या देता है, रोज़मर्रा के अध्ययन और काम के लिए उपयुक्त।
- GPT‑5.2 Thinking: कोड लेखन, लंबा सारांश बनाना, गणित/तर्क समस्याएँ हल करना और प्लानिंग जैसे जटिल कार्यों के लिए उपयुक्त।
- GPT‑5.2 Pro: कठिन प्रश्नों पर अधिक भरोसेमंद उत्तर देता है और गलतियों की दर घटती है।
सुरक्षा में सुधार
- GPT‑5.2, GPT‑5 के Safe Completion research पर आधारित है और आत्महत्या, मानसिक स्वास्थ्य तथा भावनात्मक निर्भरता से जुड़ी बातचीतों में जवाबों को बेहतर बनाने पर केंद्रित है।
- GPT‑5.1 की तुलना में अनुपयुक्त प्रतिक्रियाओं का अनुपात कम हुआ।
- age prediction model लागू कर 18 वर्ष से कम उम्र के उपयोगकर्ताओं के लिए संवेदनशील कंटेंट तक पहुँच सीमित की गई।
- ChatGPT में excessive refusal (over‑refusal) समस्या को सुधारने का काम चल रहा है।
कीमत और उपलब्धता
- ChatGPT के पेड प्लान (Plus, Pro, Business, Enterprise) से चरणबद्ध रिलीज़ शुरू।
- API में
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑proके नाम से उपलब्ध। - मूल्य: प्रति 1 मिलियन इनपुट टोकन $1.75, प्रति 1 मिलियन आउटपुट टोकन $14, कैश इनपुट पर 90% डिस्काउंट।
- GPT‑5.1 से प्रति यूनिट महँगा होने के बावजूद बेहतर token efficiency के कारण कुल लागत घट सकती है।
- GPT‑5.1 को तीन महीने तक जारी रखकर चरणबद्ध रूप से बंद करने की योजना है।
- Codex optimized संस्करण बाद में जारी किया जाएगा।
तकनीकी साझेदारी
- NVIDIA और Microsoft के साथ मिलकर GPT‑5.2 विकसित किया गया।
- Azure डेटा सेंटर और H100, H200, GB200‑NVL72 GPU इंफ्रास्ट्रक्चर का उपयोग किया गया।
- यह बड़े पैमाने पर प्रशिक्षण दक्षता और मॉडल की बुद्धिमत्ता सुधारने में मददगार रहा।
प्रमुख बेंचमार्क सारांश
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k): 77.0%
- CharXiv Reasoning (w/ Python): 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified): 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 बुद्धिमत्ता, विश्वसनीयता और उत्पादकता में पिछली पीढ़ी के मॉडलों पर स्पष्ट बढ़त दिखाता है और एक विशेषज्ञ-स्तरीय व्यावहारिक AI सहायक के रूप में स्थापित होने का प्रयास करता है।
1 टिप्पणियां
Hacker News की राय
पिछले कुछ महीनों से मैं ChatGPT का पेड यूज़र रहा हूँ और कोडिंग, न्यूज़, स्टॉक विश्लेषण, रोज़मर्रा की समस्याओं के समाधान आदि लगभग हर काम में इसका इस्तेमाल करता आया हूँ
लेकिन Gemini 3 रिलीज़ होने के बाद जब मैंने उसे आज़माया, तो उसने हर use case में कहीं बेहतर नतीजे दिए
खास तौर पर जहाँ web search integration के साथ ताज़ा जानकारी खोजनी हो, वहाँ वह मज़बूत लगा। OCR भी शानदार है, मेरे खराब हैंडराइटिंग को भी अच्छी तरह पहचान लेता है
हालांकि, ऐप में बहुत bugs हैं, sessions अक्सर टूट जाते हैं, और फ़ोटो अपलोड में भी errors आते हैं।
सबसे बड़ी शिकायत यह है कि हर लिंक Google search के रास्ते से खुलता है, इसलिए सीधे साइट पर जाने के लिए उसे बदलना पड़ता है।
कुल मिलाकर निष्कर्ष यही है कि search integration में ChatGPT पीछे है और उसके लिए इसकी बराबरी करना मुश्किल लग रहा है
हालत यह है कि बीच में रोक देने पर भी डेटा गायब हो जाता है, यानी एकदम Google-स्टाइल अधूरा प्रोडक्ट जैसा एहसास
voice mode का आइडिया अच्छा है, लेकिन वह अक्सर टूट जाता है और अपनी मर्ज़ी से सवाल दोहराता रहता है
ChatGPT PDF या screenshot खोलकर उन्हें OCR input की तरह इस्तेमाल करता है, लेकिन Gemini उन्हें नज़रअंदाज़ कर देता है
लेकिन आजकल browser यह काम खुद कर लेते हैं, इसलिए click जानकारी Google को भेजने की कोई खास ज़रूरत नहीं है
सीधे लिंक में बदलने पर भी कोई दिक्कत नहीं होती
Opus 4.5 की quality बेहतर है, लेकिन उसकी usage limits कड़ी हैं, इसलिए मैं कई subscriptions साथ रखने पर सोच रहा हूँ
मैं OCR से ज़्यादा voice features का इस्तेमाल करता हूँ, इसलिए यह मेरे लिए घातक कमी है
“search integration इसकी ताकत है” यह दावा भी समझ नहीं आता। ताज़ा जानकारी खोजने में ChatGPT वास्तव में कहाँ ज़्यादा खराब था, उसका उदाहरण जानना चाहूँगा
ब्लॉग announcement में नहीं है, लेकिन असली context window size 400,000 tokens है
official docs में यह साफ लिखा है
पूरे context का उपयोग करने की क्षमता भी बेहतर हुई है, इसलिए उम्मीद बढ़ी है
मैं Rust/CUDA प्रोजेक्ट में Codex 5.1 इस्तेमाल कर रहा था, फिर Gemini 3 पर गया। शुरुआत में उसने bugs अच्छी तरह पकड़े तो मैं प्रभावित हुआ, लेकिन जल्द ही commands को नज़रअंदाज़ करना, output टूटना, और opaque reasoning process की वजह से पागल होने की नौबत आ गई
Codex पर वापस आया तो वह stable था और feedback भी अच्छी तरह लागू करता था। अब GPT‑5.2 xhigh mode भी आ गया है, तो ऐसा लग रहा है जैसे Christmas gift मिल गया हो
पुराने forum culture की याद आती है, जहाँ लोग ईमानदारी से समस्याएँ और समाधान पर चर्चा करते थे
मैंने बहुत से developers को एक ही session में cooking, gifts, coding जैसे हर तरह के topics मिलाकर इस्तेमाल करते देखा है, और फिर अजीब जवाब मिलते हैं
LLM पूरी conversation context बार-बार भेजते हैं, इसलिए topic के हिसाब से नई chat शुरू करनी चाहिए
नहीं तो “मेरी पत्नी global variables के बारे में क्या सोचती है” जैसे अजीब जवाब सुनने पड़ेंगे
Cursor या ChatGPT जैसी apps शायद उनके लिए समझना मुश्किल होंगी
अगर context window की अवधारणा ही न पता हो, तो AI बेवकूफ़ लग सकता है। शायद इसी वजह से लोग AI को कम आँकते हैं
ऊपर से यह भी पता नहीं चलता कि model A/B testing में है या reasoning tokens सीमित कर रहा है, इसलिए भरोसा करना मुश्किल लगता है
पूरी तरह अलग रखना हो तो यह option बंद करना पड़ता है
motherboard इमेज में RAM, PCIe slot, DisplayPort की जगह सब गलत दी गई है
image link
समझ नहीं आता कि इसे promotional image के तौर पर क्यों इस्तेमाल किया गया
Extended NYT Connections benchmark में GPT‑5.2 के high-reasoning version का स्कोर 69.9→77.9 तक बेहतर हुआ है
benchmark link
medium और low-reasoning versions भी सभी बेहतर हुए हैं, लेकिन Gemini 3 Pro और Grok 4.1 Fast Reasoning अब भी ऊपर हैं
“साइकिल चलाता pelican” test दिलचस्प है
image example
ARC‑AGI‑2 score improvement चौंकाने वाली है। लगता है generalization ability काफ़ी बेहतर हुई है
पहले के models कुछ overfit लगे थे, लेकिन अब self-correction अच्छी दिख रही है
अगर नए data center या बड़े पैमाने के model scaling के बिना भी इतना improvement संभव है, तो भविष्य को लेकर उम्मीद बढ़ती है
अब benchmarks से ज़्यादा user experience अहम लगने लगा है
मैं ChatGPT का subscription इसलिए जारी रखता हूँ क्योंकि उसकी project-wise chat organization feature काम की है
लेकिन सभी platforms में आम तौर पर
जैसी बुनियादी usability समस्याएँ हैं, जिन्हें हल करना चाहिए
इसलिए benchmarks एक तरह का cat-and-mouse game बन जाते हैं
r/Codex पर शिकायत वाले posts शायद censor किए जा रहे हैं, इसलिए यहाँ खुलकर कह रहा हूँ
speed ज़रूर बढ़ी है, लेकिन यह Opus 4.5 से धीमा है, और 5.1 के मुक़ाबले महसूस होने वाला improvement लगभग नहीं है
token cost 40% बढ़ गई है, लेकिन उसके लायक value महसूस नहीं होती
Gemini 3 मुफ़्त में ChatGPT Pro के स्तर का है, और Claude Code $100/माह भी काफ़ी ताकतवर है
लगता है OpenAI किसी existential crisis से गुज़र रहा है
“knowledge cutoff August 2025” और कीमत बढ़ना इस बात का संकेत लगता है कि यह नया pretraining model है
कहा जाता था कि GPT‑5.1 ने GPT‑4o वाला ही pretraining इस्तेमाल किया था