OpenAI ने API में GPT-5.5 और GPT-5.5 Pro लॉन्च किए
(developers.openai.com)- GPT-5.5 को Chat Completions API और Responses API में लॉन्च किया गया है, और अधिक compute से लाभ पाने वाली कठिन समस्याओं के लिए GPT-5.5 pro को भी Responses API requests में जोड़ा गया है
- GPT-5.5 10 लाख token context window, image input, structured output, function calling, prompt caching, Batch, tool search, built-in computer use, hosted shell, apply patch, Skills, MCP, web search को support करता है
- डिफ़ॉल्ट reasoning effort value
mediumपर सेट की गई है, और जबimage_detailunset हो याautoपर हो, तब मौजूदा behavior बनाए रखा जाता है - GPT-5.5 की caching केवल extended prompt caching में काम करती है और in-memory prompt caching को support नहीं करती: behavioral changes
- 21 अप्रैल के बदलाव
- GPT Image 2 को image generation और editing के लिए नवीनतम image generation model के रूप में लॉन्च किया गया
- GPT Image 2 में flexible image sizes, high-fidelity image input, token-based image billing, और 50% discount वाले Batch API support शामिल हैं
2 टिप्पणियां
अब 5.4 से pro के लिए Chat Completions API अब उपलब्ध नहीं है।
Hacker News की राय
प्रोडक्शन issue की वजह से मैंने इसे तुरंत आज़माया, और Claude ऐसा नहीं करता था लेकिन GPT-5.5 ने किया
troubleshooting के बाद इसने
updatestatement लिखवाया, और जब मैंने कहा, "ठीक है, इसेtransactionमें wrap करते हैं औरrollbackभी जोड़ते हैं," तो इसने पुराने अंदाज़ में बसBEGIN TRAN;-- put the query herecommit;इतना ही दे दिया
काफ़ी समय से मुझे मॉडल को यह कहकर दोबारा धक्का नहीं देना पड़ा था कि जो काम कहा है वह सच में करे, इसलिए यह काफ़ी चौंकाने वाला था
मैं समझता हूँ कि यह कम tokens इस्तेमाल करना चाहता होगा, लेकिन state-of-the-art model के लिए पैसे दे रहा हूँ और अगर यह ऐसे आलसीपन से जवाब दे तो चिढ़ होती है
Cursor में model selector में दिखा तो बस टेस्ट करके देखा
अगर समस्या यह थी कि जवाब में सिर्फ
-- put the query hereथा और query दोबारा नहीं दोहराई गई, तो मैं उसे ज़रूरी तौर पर समस्या नहीं मानूँगाअगर असली लक्ष्य चलाने वाली query मिलना था और आपने कहा "इसे transaction में करते हैं," तो बस यह बताना कि
beginपहले लगा दो, काफ़ी तर्कसंगत हैअगर query लंबी थी तो tokens भी कम लगेंगे, और यह उसी तरह है जैसे
permission deniedआने पर पूरा command फिर से लिखने के बजाय बस आगेsudoजोड़ने को कहनाउल्टा अगर आप उम्मीद कर रहे थे कि मॉडल सच में query चला दे, लेकिन उसने "यह रही, अब तुम खुद चलाओ" वाले अंदाज़ में जवाब दिया, तो वह निश्चित ही आलसीपन है और हैरान होना स्वाभाविक है
लगता है emergent behavior कुछ ऐसा भी हो सकता है
मज़ाक अलग, OpenAI का यह लगभग जुनूनी token-per intelligence-केंद्रित optimization मुझे M1 से पहले वाले Apple की याद दिलाता है, जब MacBook को ज़रूरत से ज़्यादा पतला बनाने पर ज़ोर था
जैसे एक ही metric का अंत तक पीछा करते हुए बाकी सब चीज़ें क़ुर्बान कर दी जाएँ
GPT-5.3+ निश्चित ही सबसे बुद्धिमान मॉडलों में है, लेकिन कई बार इतना आलसी लगता है कि उसके साथ काम करना मुश्किल हो जाता है
मैंने अभी अपने Wordpress+GravityForms benchmark पर इसे चलाया, और performance के हिसाब से भी यह leaderboard के सबसे निचले हिस्से में था, और value-for-money तो सबसे खराब थी: https://github.com/guilamu/llms-wordpress-plugin-benchmark
मानता हूँ कि यह सिर्फ एक benchmark है, लेकिन यह इतना खराब कैसे हो सकता है समझ से बाहर है
आजकल शब्दों का मतलब बहुत आसानी से बिखर जाता है, इसलिए ऐसी चीज़ें आम होती जा रही हैं
जो forums पहले असली तकनीकी काम करने वालों से भरे होते थे, अब वहाँ vibe researcher जैसी भीड़ बढ़ती दिखती है; लोकप्रियता एक सीमा पार करे तो आमतौर पर यही होता है
HN अभी भी शायद गंभीर खोजबीन का आख़िरी गढ़ है, लेकिन मूल टिप्पणी देखकर लगता है कि वह भी पूरी तरह अछूता नहीं है
इस तरह का benchmarking काफ़ी पसंद आया
judge benchmark कैसे evaluate किया गया, यह जानने की जिज्ञासा है, और मैं भी कुछ ऐसा benchmark खुद बनाना चाहूँगा
prompt बेहद पतला है, लेकिन scoring criteria बहुत ज़्यादा हैं
context length के हिसाब से pricing कुछ ऐसी है
input 272K तक $5/M, उसके ऊपर $10/M
output 272K तक $30/M, उसके ऊपर $45/M
cache read 272K तक $0.50/M, उसके ऊपर $1/M
272K पार करते ही यह Opus 4.7 से साफ़ तौर पर ज़्यादा महँगा हो जाता है, और कम से कम मेरे काम में यह token efficiency में उतना बेहतर नहीं लगा
इतना नहीं कि कीमत का फ़र्क़ justify कर सके
GPT-5.4 की ताकत 400k context और भरोसेमंद compaction थी, लेकिन दोनों में कुछ पीछे हटना सा लगता है
हालाँकि compaction की reliability सचमुच कम हुई है या नहीं, यह अभी कहना जल्दबाज़ी होगी
frontend output भी अब तक उसी बहुत नज़र खींचने वाले, cards से भरे नीले-toned template की तरफ झुका रहता है
GPT-5 रिलीज़ से पहले के Horizon Alpha/Beta समय से ही यह स्टाइल कुछ संदिग्ध लगती थी, लेकिन तब task adherence इतनी अच्छी थी कि उस एक बड़ी कमी के बावजूद यह उपयोगी था
लेकिन GPT-5.5 को अगर पूरी तरह नया foundation कहा जा रहा है, तो इस हिस्से का अब भी इतना सीमित रहना थोड़ा अजीब है
GPT 5.5 के समग्र coding reasoning benchmark नतीजे https://gertlabs.com/ पर आ गए हैं
live decision और भारी agentic eval भी अगले 24 घंटों तक लगातार जुड़ते रहेंगे, लेकिन अब leaderboard ranking बदलने की संभावना कम लगती है
GPT 5.5 सार्वजनिक मॉडलों में सबसे बुद्धिमान है, और अपने पिछले version से स्पष्ट रूप से तेज़ है
कल तो यह कहा गया था
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
इसलिए लगता है कि उसी तथ्य ने शायद इस release को जल्दी ला दिया हो
इसका एक पुराना उदाहरण भी है
शायद सिर्फ मुझे ऐसा लगता हो, लेकिन OpenAI की हर ऐसी ख़बर पर ऐसा महसूस होता है जैसे paid commenters या bots चलाए जा रहे हों जो Claude को नीचा दिखाएँ और Codex को बहुत बेहतर बताकर push करें
उनकी संख्या बहुत ज़्यादा लगती है, और अगर आप Claude को रोज़ इस्तेमाल करते हैं तो इनमें कई दावे समझ से बाहर लगते हैं
यह वैसा ही लगता है जैसे सब लोग यह भूल गए हों कि OpenAI ने बिना निगरानी वाले autonomous weapons और देश के भीतर बड़े पैमाने की surveillance में सहयोग करने का फ़ैसला करके लोकतंत्र से गद्दारी की है
कम से कम सतह पर दिखना तो Opus 4.6 hype के ठीक बाद शुरू हुआ था
आजकल अपनी product marketing करने वाली ज़्यादातर कंपनियाँ यही करती हैं
मैं Enterprise user हूँ, लेकिन अभी भी सिर्फ 5.4 ही दिख रहा है
कल की announcement में कहा गया था कि सभी तक rollout में कुछ घंटे लगेंगे, लेकिन OpenAI को expectation management के लिए GTM बेहतर करना चाहिए
जल्दी rollout होना अच्छा है
अगली बार शायद मुझे और जल्दी शिकायत करनी चाहिए
मेरे benchmark में 25/25 पाने वाला यह दूसरा मॉडल है
पहला Opus 4.7 था, और नतीजे यहाँ हैं: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Opus से सस्ता है और धीमा है
API page पर knowledge cutoff 2025-12-01 लिखा है, लेकिन मॉडल से सीधे पूछने पर वह 2024 जून कहता है
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.cutoff date पता करने के लिए मॉडल से खुद पूछना शुरू से ही सबसे कम भरोसेमंद तरीक़ों में रहा है
यह ऐसे comments जैसी चीज़ें भी train कर चुका हो सकता है
बस 2025-12-01 से ठीक पहले हुई किसी घटना के बारे में पूछ लो
संभव हो तो sports match बेहतर रहेगा
पुराने model API pages पर भी 2024 जून cutoff बहुत जगह लिखा था, तो शायद वही उठाकर बोल रहा हो
असली cutoff जाँचने का सही तरीका है ऐसी चीज़ के बारे में पूछना जो उस तारीख़ से पहले मौजूद नहीं थी या हुई नहीं थी
मैंने यूँ ही कुछ बार टेस्ट किया, तो 5.5 का general knowledge cutoff अब भी 2025 की शुरुआत के आसपास लगता है
GPT 5.5 + Codex का combination वाकई बहुत अच्छा है
चाहे सवाल पूछना हो, plan बनाना हो, या code implement करना हो, अब मैं लगभग बिना शक के इसे सौंप देता हूँ
Opus 4.7 के साथ मुझे बार-बार double-check करना पड़ता है
यह
CLAUDE.mdinstructions अच्छी तरह follow नहीं करता, hallucination भी ज़्यादा हैं, और जवाब न मिलने पर मूल रूप से बातें गढ़ देता है, इसलिए वह फ़र्क़ काफ़ी बड़ा हैपिछले साल जब लोग कह रहे थे कि OpenAI पीछे छूट गया है, code red है, तब सब कुछ बहुत जल्दी बदलता दिख रहा था; अब पीछे मुड़कर देखें तो तस्वीर पूरी तरह बदल चुकी है