GPT‑5.2 का लॉन्च

(openai.com)

5 पॉइंट द्वारा GN⁺ 2025-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GPT‑5.2 विशेषज्ञ ज्ञान-आधारित कार्यों के लिए सबसे मजबूत AI मॉडल श्रृंखला है, जिसमें कोड लिखना, इमेज पहचान और जटिल परियोजनाएँ करने की क्षमता बेहतर हुई है।
GDPval मूल्यांकन में 44 ज्ञान-कार्य टास्क्स में से 70.9% पर यह उद्योग विशेषज्ञों से बेहतर या बराबर रहा; गति 11x और लागत 1% से कम रही।
SWE‑Bench Pro 55.6%, GPQA Diamond 92.4%, ARC‑AGI‑1 86.2% जैसे प्रमुख बेंचमार्क पर सर्वोच्च प्रदर्शन हासिल किया।
लंबा कॉन्टेक्स्ट समझ (256k टोकन), विज़ुअल जानकारी प्रसंस्करण, टूल उपयोग (98.7%) में GPT‑5.1 की तुलना में बड़ा सुधार दिखा।
यह ChatGPT और API में चरणबद्ध तरीके से रोलआउट किया जाएगा और विशेषज्ञों के लिए उत्पादकता और विश्वसनीयता बढ़ाने को लक्ष्य बनाता है।

GPT‑5.2 का अवलोकन

GPT‑5.2 एक विशेषज्ञ ज्ञान-आधारित कामों के लिए AI मॉडल श्रृंखला है, जो स्प्रेडशीट निर्माण, प्रस्तुतीकरण बनाना, कोड लेखन, इमेज पहचान, लंबा टेक्स्ट समझना, टूल उपयोग और जटिल परियोजनाएँ संभालने की क्षमता को मजबूत करता है।
ChatGPT Enterprise उपयोगकर्ता पहले से ही औसतन प्रति दिन 40–60 मिनट और प्रति सप्ताह 10 घंटे से अधिक समय बचा रहे हैं; GPT‑5.2 इस दक्षता को और बढ़ाने का दावा करता है।
ChatGPT में इसे Instant, Thinking, Pro के तीन वर्ज़न में उपलब्ध कराया गया है, जबकि API में डेवलपर्स के लिए तुरंत रिलीज़ किया गया है।

मॉडल प्रदर्शन

GPT‑5.2 Thinking ने GDPval मूल्यांकन में पहली बार विशेषज्ञ-स्तर से ऊपर का प्रदर्शन हासिल किया।
- 44 ज्ञान-कार्य टास्क्स में से 70.9% में विशेषज्ञों को पार करने या बराबरी करने का परिणाम मिला।
- विशेषज्ञों की तुलना में 11x तेज़ और लागत में 1% से कम।
आंतरिक परीक्षण में निवेश बैंक विश्लेषण के लिए स्प्रेडशीट मॉडलिंग कार्य का स्कोर GPT‑5.1 की तुलना में 9.3% बढ़ा (59.1% → 68.4%)।
SWE‑Bench Pro 55.6%, SWE‑Bench Verified 80% के साथ सॉफ़्टवेयर इंजीनियरिंग प्रदर्शन में सुधार दिखा।
- वास्तविक code debugging, feature implementation, refactoring और deployment में अधिक स्थिर निष्पादन।
फ्रंटएंड डेवलपमेंट और 3D UI कार्यों में भी GPT‑5.1 की तुलना में सुधार।
त्रुटिपूर्ण उत्तर दर 30% घटी, जिससे हैलुसिनेशन (hallucination) की आवृत्ति कम हुई।

लंबा कॉन्टेक्स्ट समझ और विज़ुअल पहचान

OpenAI MRCRv2 मूल्यांकन में लंबी दस्तावेज़-समझ को एकीकृत करने की क्षमता में शीर्ष परिणाम।
- 256k टोकन तक लगभग 100% सटीकता हासिल की।
- रिपोर्ट, कॉन्ट्रैक्ट और रिसर्च पेपर जैसे लंबी लंबाई के दस्तावेज़ विश्लेषण के लिए अनुकूल।
/compact endpoint के साथ संगत होने के कारण context-extending workflow का समर्थन।
विज़ुअल पहचान बेहतर होने से चार्ट, डैशबोर्ड और UI स्क्रीनशॉट जैसे मामलों में त्रुटि दर लगभग आधी रह गई।
- इमेज के भीतर घटकों की spatial arrangement समझने की क्षमता मजबूत हुई।

टूल उपयोग और मिश्रित कार्य

Tau2‑bench Telecom 98.7% के साथ टूल उपयोग क्षमता में शीर्ष रिकॉर्ड।
मल्टी-स्टेप ग्राहक सहायता, डेटा संग्रह, विश्लेषण और परिणाम निर्माण जैसी एंड‑टू‑एंड वर्कफ्लो क्षमताएँ मजबूत हुईं।
- उदाहरण: उड़ान देरी, कनेक्टिंग फ्लाइट और मुआवज़ा अनुरोध जैसी जटिल ग्राहक सेवा प्रक्रियाओं को पूरी तरह से संभालना।

वैज्ञानिक, गणितीय और तर्क क्षमता

GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2%, ARC‑AGI‑2 52.9% के साथ प्रमुख शोध-उन्मुख बेंचमार्क में शीर्ष परिणाम।
GPT‑5.2 Pro ने ARC‑AGI‑1 में 90% पार किया, और cost efficiency में 390x सुधार दिखाया।
GPT‑5.2 Pro और Thinking को scientific research acceleration के लिए उपयोगी माना गया।
- वास्तविक शोध में सांख्यिकी के सैद्धांतिक प्रमाण का प्रस्ताव और सत्यापन करवाने का उदाहरण दिया गया।

ChatGPT के अंदर उपयोग अनुभव

GPT‑5.2 Instant: तेज़ उत्तर और साफ़ व्याख्या देता है, रोज़मर्रा के अध्ययन और काम के लिए उपयुक्त।
GPT‑5.2 Thinking: कोड लेखन, लंबा सारांश बनाना, गणित/तर्क समस्याएँ हल करना और प्लानिंग जैसे जटिल कार्यों के लिए उपयुक्त।
GPT‑5.2 Pro: कठिन प्रश्नों पर अधिक भरोसेमंद उत्तर देता है और गलतियों की दर घटती है।

सुरक्षा में सुधार

GPT‑5.2, GPT‑5 के Safe Completion research पर आधारित है और आत्महत्या, मानसिक स्वास्थ्य तथा भावनात्मक निर्भरता से जुड़ी बातचीतों में जवाबों को बेहतर बनाने पर केंद्रित है।
- GPT‑5.1 की तुलना में अनुपयुक्त प्रतिक्रियाओं का अनुपात कम हुआ।
age prediction model लागू कर 18 वर्ष से कम उम्र के उपयोगकर्ताओं के लिए संवेदनशील कंटेंट तक पहुँच सीमित की गई।
ChatGPT में excessive refusal (over‑refusal) समस्या को सुधारने का काम चल रहा है।

कीमत और उपलब्धता

ChatGPT के पेड प्लान (Plus, Pro, Business, Enterprise) से चरणबद्ध रिलीज़ शुरू।
API में gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro के नाम से उपलब्ध।
मूल्य: प्रति 1 मिलियन इनपुट टोकन $1.75, प्रति 1 मिलियन आउटपुट टोकन $14, कैश इनपुट पर 90% डिस्काउंट।
- GPT‑5.1 से प्रति यूनिट महँगा होने के बावजूद बेहतर token efficiency के कारण कुल लागत घट सकती है।
GPT‑5.1 को तीन महीने तक जारी रखकर चरणबद्ध रूप से बंद करने की योजना है।
Codex optimized संस्करण बाद में जारी किया जाएगा।

तकनीकी साझेदारी

NVIDIA और Microsoft के साथ मिलकर GPT‑5.2 विकसित किया गया।
- Azure डेटा सेंटर और H100, H200, GB200‑NVL72 GPU इंफ्रास्ट्रक्चर का उपयोग किया गया।
- यह बड़े पैमाने पर प्रशिक्षण दक्षता और मॉडल की बुद्धिमत्ता सुधारने में मददगार रहा।

प्रमुख बेंचमार्क सारांश

GDPval: 70.9% (GPT‑5.1 38.8%)
SWE‑Bench Verified: 80.0%
OpenAI MRCRv2 (256k): 77.0%
CharXiv Reasoning (w/ Python): 88.7%
Tau2‑bench Telecom: 98.7%
ARC‑AGI‑1 (Verified): 86.2%
AIME 2025: 100%
FrontierMath Tier 1–3: 40.3%

GPT‑5.2 बुद्धिमत्ता, विश्वसनीयता और उत्पादकता में पिछली पीढ़ी के मॉडलों पर स्पष्ट बढ़त दिखाता है और एक विशेषज्ञ-स्तरीय व्यावहारिक AI सहायक के रूप में स्थापित होने का प्रयास करता है।

1 टिप्पणियां

GN⁺ 2025-12-12

Hacker News की राय

पिछले कुछ महीनों से मैं ChatGPT का पेड यूज़र रहा हूँ और कोडिंग, न्यूज़, स्टॉक विश्लेषण, रोज़मर्रा की समस्याओं के समाधान आदि लगभग हर काम में इसका इस्तेमाल करता आया हूँ
लेकिन Gemini 3 रिलीज़ होने के बाद जब मैंने उसे आज़माया, तो उसने हर use case में कहीं बेहतर नतीजे दिए
खास तौर पर जहाँ web search integration के साथ ताज़ा जानकारी खोजनी हो, वहाँ वह मज़बूत लगा। OCR भी शानदार है, मेरे खराब हैंडराइटिंग को भी अच्छी तरह पहचान लेता है
हालांकि, ऐप में बहुत bugs हैं, sessions अक्सर टूट जाते हैं, और फ़ोटो अपलोड में भी errors आते हैं।
सबसे बड़ी शिकायत यह है कि हर लिंक Google search के रास्ते से खुलता है, इसलिए सीधे साइट पर जाने के लिए उसे बदलना पड़ता है।
कुल मिलाकर निष्कर्ष यही है कि search integration में ChatGPT पीछे है और उसके लिए इसकी बराबरी करना मुश्किल लग रहा है
- “सिर्फ policy की समस्या है” कहना बहुत हल्का बयान है। दिन में कई बार पूरा thread उड़ जाने वाला bug आता है, इतना कि गाली निकल जाए
  हालत यह है कि बीच में रोक देने पर भी डेटा गायब हो जाता है, यानी एकदम Google-स्टाइल अधूरा प्रोडक्ट जैसा एहसास
  voice mode का आइडिया अच्छा है, लेकिन वह अक्सर टूट जाता है और अपनी मर्ज़ी से सवाल दोहराता रहता है
- मेरा अनुभव बिल्कुल उल्टा रहा। ChatGPT कई बार search करता है, नतीजों का विश्लेषण करता है, फिर आगे की search भी करता है, जबकि Gemini लगभग search ही नहीं करता
  ChatGPT PDF या screenshot खोलकर उन्हें OCR input की तरह इस्तेमाल करता है, लेकिन Gemini उन्हें नज़रअंदाज़ कर देता है
- लिंक Google search से होकर जाने की वजह अंदरूनी तौर पर malware·phishing scan करना है
  लेकिन आजकल browser यह काम खुद कर लेते हैं, इसलिए click जानकारी Google को भेजने की कोई खास ज़रूरत नहीं है
  सीधे लिंक में बदलने पर भी कोई दिक्कत नहीं होती
- मेरे मामले में Gemini 3 Pro में उल्टा hallucination ज़्यादा था। वह ऐसे sources भी गढ़ देता था जो मौजूद ही नहीं हैं
  Opus 4.5 की quality बेहतर है, लेकिन उसकी usage limits कड़ी हैं, इसलिए मैं कई subscriptions साथ रखने पर सोच रहा हूँ
- Gemini की speech recognition quality इतनी खराब थी कि मैं उसका इस्तेमाल ही नहीं कर सका
  मैं OCR से ज़्यादा voice features का इस्तेमाल करता हूँ, इसलिए यह मेरे लिए घातक कमी है
  “search integration इसकी ताकत है” यह दावा भी समझ नहीं आता। ताज़ा जानकारी खोजने में ChatGPT वास्तव में कहाँ ज़्यादा खराब था, उसका उदाहरण जानना चाहूँगा
ब्लॉग announcement में नहीं है, लेकिन असली context window size 400,000 tokens है
official docs में यह साफ लिखा है
पूरे context का उपयोग करने की क्षमता भी बेहतर हुई है, इसलिए उम्मीद बढ़ी है
मैं Rust/CUDA प्रोजेक्ट में Codex 5.1 इस्तेमाल कर रहा था, फिर Gemini 3 पर गया। शुरुआत में उसने bugs अच्छी तरह पकड़े तो मैं प्रभावित हुआ, लेकिन जल्द ही commands को नज़रअंदाज़ करना, output टूटना, और opaque reasoning process की वजह से पागल होने की नौबत आ गई
Codex पर वापस आया तो वह stable था और feedback भी अच्छी तरह लागू करता था। अब GPT‑5.2 xhigh mode भी आ गया है, तो ऐसा लग रहा है जैसे Christmas gift मिल गया हो
- 400,000 tokens तो पहले से GPT‑5, 5.1, 5‑mini वगैरह में भी थे। लेकिन अगर long-context handling performance बेहतर हुई है, तो यह बहुत मायने रखता है
- मुझे तो xhigh mode के नतीजे high से भी खराब लगे, तो लगा शायद PEBKAC(यूज़र की गलती) ही है। क्या किसी ने दोनों की तुलना की है?
- आजकल comments देखकर समझ नहीं आता कि यह सचमुच का review है या sponsored प्रचार
  पुराने forum culture की याद आती है, जहाँ लोग ईमानदारी से समस्याएँ और समाधान पर चर्चा करते थे
मैंने बहुत से developers को एक ही session में cooking, gifts, coding जैसे हर तरह के topics मिलाकर इस्तेमाल करते देखा है, और फिर अजीब जवाब मिलते हैं
LLM पूरी conversation context बार-बार भेजते हैं, इसलिए topic के हिसाब से नई chat शुरू करनी चाहिए
नहीं तो “मेरी पत्नी global variables के बारे में क्या सोचती है” जैसे अजीब जवाब सुनने पड़ेंगे
- कभी-कभी सोचता हूँ, जिन लोगों को LLM के अंदरूनी काम करने का तरीका नहीं पता, उन्हें ये tools कितने अजीब लगते होंगे?
  Cursor या ChatGPT जैसी apps शायद उनके लिए समझना मुश्किल होंगी
- मुझे भी fast.ai course सुनने और VLLM समेत कई models को खुद चलाकर देखने का बहुत फ़ायदा हुआ
  अगर context window की अवधारणा ही न पता हो, तो AI बेवकूफ़ लग सकता है। शायद इसी वजह से लोग AI को कम आँकते हैं
- कौन-सा context छोड़ना चाहिए, यह भी साफ नहीं है। मैंने समान style के texts डाले, तो उल्टा performance गिर गया
  ऊपर से यह भी पता नहीं चलता कि model A/B testing में है या reasoning tokens सीमित कर रहा है, इसलिए भरोसा करना मुश्किल लगता है
- ChatGPT में “Reference chat history” option डिफ़ॉल्ट रूप से on होता है, इसलिए नई conversation बनाने पर भी पुरानी बातें मिल जाती हैं
  पूरी तरह अलग रखना हो तो यह option बंद करना पड़ता है
- मैंने उन लोगों पर एक podcast सुना जो LLM के साथ “romantic relationship” में पड़ गए थे, और लगता है उन्हें यह पता ही नहीं था कि सिर्फ context reset करते ही वह पूरी तरह अजनबी इकाई बन जाता है
motherboard इमेज में RAM, PCIe slot, DisplayPort की जगह सब गलत दी गई है
image link
समझ नहीं आता कि इसे promotional image के तौर पर क्यों इस्तेमाल किया गया
- शायद इरादा यह दिखाना था कि GPT‑5.2 की vision performance बेहतर हुई है, लेकिन वह परफ़ेक्ट नहीं है। अगर सिर्फ perfect results चुने जाते, तो उल्टा गलतफ़हमी पैदा हो सकती थी
- USB Type‑A ports भी 2-2 के जोड़े में stacked नहीं हैं, बल्कि 4 हैं
- लेख के मुख्य भाग में भी साफ लिखा है कि “दोनों models में errors हैं, लेकिन GPT‑5.2 ने बेहतर understanding दिखाई”
- आजकल AI community culture में verification के बिना generated outputs की भरमार का रुझान है, इसलिए ऐसी गलतियाँ होती हैं
- फिर भी image resolution 2003 के folder phone जैसी है, तो errors आना स्वाभाविक है
Extended NYT Connections benchmark में GPT‑5.2 के high-reasoning version का स्कोर 69.9→77.9 तक बेहतर हुआ है
benchmark link
medium और low-reasoning versions भी सभी बेहतर हुए हैं, लेकिन Gemini 3 Pro और Grok 4.1 Fast Reasoning अब भी ऊपर हैं
- Gemini 3 Pro Preview का उसी test में 96.8% होना काफ़ी प्रभावशाली है
- किसी और ने Clues by Sam puzzles से test किया था, और वहाँ GPT‑5 Pro पहले ही पहला स्थान ले चुका था
- समझ नहीं आता कि Grok 4.1 reasoning का result क्यों छोड़ा गया
“साइकिल चलाता pelican” test दिलचस्प है
image example
- variation इतना ज़्यादा है कि test value कम हो जाती है। मैंने 10 बार चलाया, जिनमें आधे results बिल्कुल perfect थे
- शायद 5.1 version के बहुत monotone होने वाली feedback को ध्यान में रखा गया है। POV‑Ray version में भी मेरा ऐसा ही अनुभव था
- इसे धीरे-धीरे aerodynamically evolve होते देख लगता है कि AI सचमुच ज़्यादा स्मार्ट हो रहा है
- इस पर इतना मज़ाक चलता है कि लोग कहते हैं, “यही एक benchmark है जिस पर मुझे भरोसा है”
- लेकिन एक ही benchmark को बहुत लंबे समय तक इस्तेमाल करते रहना भी ठीक नहीं है
ARC‑AGI‑2 score improvement चौंकाने वाली है। लगता है generalization ability काफ़ी बेहतर हुई है
पहले के models कुछ overfit लगे थे, लेकिन अब self-correction अच्छी दिख रही है
अगर नए data center या बड़े पैमाने के model scaling के बिना भी इतना improvement संभव है, तो भविष्य को लेकर उम्मीद बढ़ती है
- मैंने भी ARC‑AGI‑2 results पर ध्यान दिया। यह वाकई बड़ी छलांग है
अब benchmarks से ज़्यादा user experience अहम लगने लगा है
मैं ChatGPT का subscription इसलिए जारी रखता हूँ क्योंकि उसकी project-wise chat organization feature काम की है
लेकिन सभी platforms में आम तौर पर
- पूरे आत्मविश्वास से झूठ बोलना
- prompt को ठीक से follow न करना
- uncertainty व्यक्त न करना
- बेवजह तारीफ़ और लंबी-चौड़ी बात बंद न करना
- source citation में consistency न होना
- यह साफ न बताना कि original text देखा गया है या summary
  जैसी बुनियादी usability समस्याएँ हैं, जिन्हें हल करना चाहिए
- objective metrics से बाहर निकलते ही measurement validity समझाना मुश्किल हो जाता है, लेकिन measurable metrics को आसानी से manipulate भी किया जा सकता है
  इसलिए benchmarks एक तरह का cat-and-mouse game बन जाते हैं
r/Codex पर शिकायत वाले posts शायद censor किए जा रहे हैं, इसलिए यहाँ खुलकर कह रहा हूँ
speed ज़रूर बढ़ी है, लेकिन यह Opus 4.5 से धीमा है, और 5.1 के मुक़ाबले महसूस होने वाला improvement लगभग नहीं है
token cost 40% बढ़ गई है, लेकिन उसके लायक value महसूस नहीं होती
Gemini 3 मुफ़्त में ChatGPT Pro के स्तर का है, और Claude Code $100/माह भी काफ़ी ताकतवर है
लगता है OpenAI किसी existential crisis से गुज़र रहा है
- Gemini 2.5 से 3 पर जाने में भी बड़ा improvement नहीं था। कुल मिलाकर वास्तविक प्रगति ठहरी हुई-सी लगती है
“knowledge cutoff August 2025” और कीमत बढ़ना इस बात का संकेत लगता है कि यह नया pretraining model है
कहा जाता था कि GPT‑5.1 ने GPT‑4o वाला ही pretraining इस्तेमाल किया था
- नया pretrain बेहद महँगा होता है, इसलिए बात सिर्फ 0.1 version bump पर खत्म नहीं होगी
- या फिर 5.1 कोई पुराना checkpoint रहा हो, या उसमें quantization ज़्यादा किया गया हो
- या फिर बस उसी model को एक बार और low-quality data (slop) खिला दिया गया हो