11 पॉइंट द्वारा GN⁺ 2026-03-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • ChatGPT, API और Codex में लागू किया गया नवीनतम frontier model, जो reasoning, coding और agent workflow performance को एकीकृत करता है
  • native computer-use फ़ीचर बिल्ट-इन है, जिससे agent वेबसाइट और software को सीधे ऑपरेट कर जटिल workflow पूरे कर सकता है
  • अधिकतम 1M token context window का समर्थन, और tool search व efficient token usage के ज़रिये speed और cost में कमी
  • ChatGPT के Thinking mode में जवाब के बीच सोचने की प्रक्रिया को समायोजित किया जा सकता है, और deep web researchcontext retention बेहतर हुए हैं
  • GPT-5.3-Codex की coding performance को समाहित करते हुए spreadsheet, presentation और document work की accuracy और efficiency में बड़ा सुधार

GPT‑5.4 का अवलोकन

  • GPT‑5.4 ChatGPT (Thinking mode), API और Codex में एक साथ डिप्लॉय किया गया सबसे शक्तिशाली और कुशल मॉडल है
    • GPT‑5.4 Pro वर्ज़न जटिल कार्यों में अधिकतम performance देता है
  • GPT‑5.3‑Codex की coding क्षमताओं को एकीकृत किया गया है, और spreadsheet, presentation और document work जैसे प्रोफेशनल कार्य-परिवेश में accuracy और efficiency को मजबूत किया गया है
  • tools और software environments के बीच interoperability बेहतर हुई है, जिससे वास्तविक काम करते समय बार-बार संवाद की ज़रूरत घटती है

ChatGPT के Thinking mode में सुधार

  • GPT-5.4 Thinking काम शुरू करते समय thinking process का pre-planning (preamble) दिखाता है, जिससे उपयोगकर्ता response generation के बीच में दिशा समायोजित कर सकता है
  • इसे इस तरह डिज़ाइन किया गया है कि अतिरिक्त turn के बिना final output उपयोगकर्ता के इरादे से अधिक सटीक मेल खाए
  • deep web research performance में सुधार, खासकर बहुत विशिष्ट query पर प्रभावी
  • जिन सवालों में लंबी सोच की ज़रूरत होती है, उनमें पिछले context को बनाए रखने की क्षमता बेहतर हुई है, जिससे तेज़ी से उच्च-गुणवत्ता वाले जवाब मिलते हैं
  • chatgpt.com और Android app पर तुरंत उपलब्ध, iOS app के लिए बाद में समर्थन आएगा

computer use और vision फ़ीचर

  • GPT-5.4 सामान्य-उद्देश्य वाले मॉडलों में पहला है जिसमें native computer-use फ़ीचर शामिल है
  • Playwright जैसी libraries के ज़रिये code-based computer control और screenshot-based mouse/keyboard commands — दोनों का समर्थन
  • developer messages के माध्यम से behavior समायोजित किया जा सकता है, और custom confirmation policy से risk tolerance को अलग-अलग सेट किया जा सकता है
  • OSWorld-Verified में 75.0% हासिल, जो मानव प्रदर्शन 72.4% से अधिक है और GPT-5.2 के 47.3% की तुलना में बड़ा सुधार है
  • WebArena-Verified में DOM + screenshot आधारित interaction के साथ 67.3% हासिल (GPT-5.2: 65.4%)
  • Online-Mind2Web में केवल screenshot-based observation से 92.8% हासिल (ChatGPT Atlas Agent Mode: 70.9%)

visual recognition और document parsing में सुधार

  • बेहतर general visual recognition capability ही computer-use फ़ीचर की नींव है
  • MMMU-Pro में बिना tools के 81.2% (GPT-5.2: 79.5%), tools के साथ 82.1% (GPT-5.2: 80.4%)
  • OmniDocBench में बिना reasoning के average error (normalized edit distance) 0.109 हासिल (GPT-5.2: 0.140)
  • नया original image input detail level पेश: अधिकतम 10.24M pixels या 6000px max dimension तक full-fidelity recognition support
    • high level को अधिकतम 2.56M pixels या 2048px max dimension तक बढ़ाया गया
    • शुरुआती API user tests में localization ability, image understanding और click accuracy में मज़बूत सुधार देखा गया
    विज्ञापन

coding performance

  • GPT-5.3-Codex की coding strengths को professional work और computer-use capabilities के साथ जोड़ा गया है
  • SWE-Bench Pro में 57.7% हासिल (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • सभी reasoning levels पर GPT-5.3-Codex की तुलना में कम latency
  • Codex में /fast mode सक्षम करने पर अधिकतम 1.5x तेज token speed, वही model और वही intelligence level बरकरार
    • API में Priority Processing के ज़रिये वही high-speed performance उपलब्ध
  • जटिल frontend कार्यों में पिछले मॉडलों की तुलना में स्पष्ट रूप से अधिक सुंदर और functional output तैयार करता है
  • experimental Codex skill "Playwright (Interactive)" जारी: web और Electron apps की visual debugging का समर्थन, build हो रहे app को real time में test किया जा सकता है

Tool Search फ़ीचर

  • पहले सभी tool definitions prompt में पहले से शामिल करनी पड़ती थीं, जिससे हज़ारों से लेकर दसियों हज़ार tokens खर्च होते थे; अब Tool Search के साथ केवल हल्की tool list दी जाती है और ज़रूरत पड़ने पर definition dynamically fetch की जाती है
  • tool-intensive workflows में token usage नाटकीय रूप से घटता है और cache सुरक्षित रहती है, जिससे speed और cost दोनों बेहतर होते हैं
  • दसियों हज़ार tokens आकार वाली MCP server tool definitions में यह efficiency gain खास तौर पर बड़ा है
  • Scale के MCP Atlas benchmark के 250 tasks के आधार पर, 36 MCP servers को पूरी तरह Tool Search पर स्विच करने से कुल token usage 47% कम हुआ, जबकि accuracy समान रही

tool calling और agent performance

  • GPT-5.4 reasoning के दौरान tools कब और कैसे इस्तेमाल करने हैं, इसमें accuracy और efficiency बेहतर करता है
  • Toolathlon में 54.6% हासिल (GPT-5.2: 45.7%), कम turns में अधिक accuracy
    • email पढ़ना, assignment attachment निकालना, upload करना, grading करना, और result spreadsheet में दर्ज करना जैसी multi-step real-world tool tasks का मूल्यांकन
  • बिना reasoning वाले low-latency scenarios में भी τ2-bench Telecom पर 64.3% हासिल (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • BrowseComp में 82.7%, और GPT-5.4 Pro ने 89.3% के साथ नया सर्वोच्च प्रदर्शन हासिल किया (GPT-5.2: 65.8%)
    • “haystack में needle खोजने” जैसे कठिन information retrieval में कई rounds तक लगातार search करने की क्षमता बेहतर हुई
    विज्ञापन

professional work और knowledge work performance

  • GDPval में अमेरिका की GDP के शीर्ष 9 industries और 44 occupations के वास्तविक कार्य-आउटपुट (sales presentation, accounting spreadsheet, emergency care schedule, manufacturing diagram, short video आदि) का मूल्यांकन
    • GPT-5.4: 83.0% मामलों में expert level के बराबर या उससे बेहतर (GPT-5.2: 70.9%)
  • internal investment banking spreadsheet modeling benchmark में औसत 87.3% (GPT-5.2: 68.4%)
  • presentation evaluation में मानव evaluators ने GPT-5.4 output को 68.0% मामलों में प्राथमिकता दी (aesthetic quality, visual diversity, image generation utilization बेहतर)
  • hallucination और errors में कमी: जिन prompts पर उपयोगकर्ताओं ने factual error report किया, उनमें individual claims के false होने की संभावना 33% कम, और पूरे response में error होने की संभावना 18% कम हुई (GPT-5.2 की तुलना में)

1M context window और long-context performance

  • अधिकतम 1M token context का समर्थन, जिससे agent लंबे दायरे वाले कार्यों की planning, execution और verification कर सकता है
  • Codex में experimental रूप से 1M context window support, जिसे model_context_window और model_auto_compact_token_limit settings से configure किया जा सकता है
    • standard 272K context window से अधिक requests पर 2x pricing लागू होगी
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 4K–8K पर 97.3%, 128K–256K पर 79.3%, 512K–1M पर 36.6%

abstract reasoning और academic benchmarks

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro ने ARC-AGI-2 में 83.3% हासिल किया
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ने 38.0% हासिल किया
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: बिना tools के 39.8%, tools के साथ 52.1% (GPT-5.2: क्रमशः 34.5%, 45.5%)
    • GPT-5.4 Pro ने tools के साथ 58.7% हासिल किया
    विज्ञापन

safety और security

  • GPT-5.3-Codex में पेश किए गए safeguards को लगातार बेहतर किया जा रहा है, और Preparedness Framework में इसे High cyber capability के रूप में वर्गीकृत किया गया है
  • विस्तारित cyber safety stack: monitoring systems, trust-based access control, और Zero Data Retention (ZDR) surfaces पर asynchronous blocking शामिल
  • cyber security capability की dual-use प्रकृति को ध्यान में रखते हुए proactive deployment approach अपनाई गई है; classifier accuracy में सुधार जारी है, इसलिए कुछ false positives संभव हैं
  • लक्ष्य यह है कि misuse prevention safeguards बनाए रखते हुए अनावश्यक refusals और अत्यधिक hint-like responses कम किए जाएँ
  • Chain-of-Thought (CoT) monitoring पर शोध जारी: नया open source evaluation tool CoT controllability जारी
    • GPT-5.4 Thinking में CoT control क्षमता कम है, जिससे model के लिए reasoning छिपाना कठिन होता है और यह safety के लिहाज़ से सकारात्मक माना गया है

pricing और release जानकारी

  • API model name: gpt-5.4, Pro version: gpt-5.4-pro
  • API pricing (प्रति M tokens):
    • gpt-5.4: input $2.50, cached input $0.25, output $15
    • gpt-5.4-pro: input $30, output $180
    • gpt-5.2: input $1.75, cached input $0.175, output $14
  • GPT-5.2 की तुलना में token के हिसाब से कीमत अधिक है, लेकिन बेहतर token efficiency के कारण प्रति task कुल token usage घटता है
  • Batch और Flex pricing standard की आधी, Priority Processing standard की 2x
  • ChatGPT में GPT-5.4 Thinking Plus, Team, Pro उपयोगकर्ताओं के लिए तुरंत उपलब्ध है, और GPT-5.2 Thinking की जगह लेता है
    • GPT-5.2 Thinking paid users के लिए Legacy Models सेक्शन में 3 महीने तक रहेगा, उसके बाद 5 जून 2026 को समाप्त होगा
    • Enterprise और Edu plans में admin settings के ज़रिये early access सक्षम किया जा सकता है
    • GPT-5.4 Pro Pro और Enterprise plans में उपलब्ध है
  • GPT-5.4, GPT-5.3-Codex की frontier coding capabilities को एकीकृत करने वाला पहला mainline reasoning model है, और Instant model व Thinking model आगे चलकर अलग-अलग गति से विकसित होंगे

2 टिप्पणियां

 
helio 2026-03-06

Codex में /fast मोड सक्रिय करने पर अधिकतम 1.5 गुना तेज़ token speed, वही model और वही intelligence level बना रहता है. API में Priority Processing.
Priority Processing की कीमत standard की 2 गुना है
standard 272K context window से अधिक requests पर 2 गुना शुल्क लगेगा

 
GN⁺ 2026-03-06
Hacker News की राय
  • ब्लॉग पोस्ट के नीचे वाला “Ask ChatGPT” बॉक्स मज़ेदार लगा
    अगर आप उससे पोस्ट का सारांश माँगते हैं तो एक नई विंडो खुलती है, लेकिन जवाब सिर्फ इतना आता है कि “बाहरी URL तक पहुँच नहीं हो सकती”
    सोच रहा हूँ कि क्या OpenAI को पता है कि यह फीचर वास्तव में काम नहीं कर रहा

    • लगता है कि यह सिर्फ लॉग-इन न किए हुए यूज़र्स के लिए काम नहीं करता
      लॉग-इन रहने पर यह ठीक से चला, और मैंने टीम को bug report भेज दी
    • जब मैंने कोशिश की, तब सारांश सही बना
      शेयर किया गया उदाहरण लिंक देखें
      मैं भी लॉग-इन था
    • मेरे लिए भी लॉग-इन रहने पर सारांश ठीक से काम किया
      शायद लॉग-इन स्टेटस के हिसाब से बाहरी URL एक्सेस की अनुमति बदलती है
    • मैंने काफ़ी समय बाद Claude फिर से इस्तेमाल किया, और उसका UX काफ़ी बेहतर लगा
      लगता है Anthropic इस तरह की बारीक UX डिटेल्स पर ज़्यादा ध्यान देता है
    • सोच रहा हूँ कि कहीं वह संदेश copyright issue की वजह से तो नहीं था
  • लगता है OpenAI की मॉडल लाइनअप बहुत ज़्यादा जटिल हो गई है
    GPT‑5.1, 5.2, 5.4 के साथ Codex 5.3 और Instant 5.3 भी मिले हुए हैं
    दूसरी ओर Anthropic सिर्फ तीन मॉडलों को साफ़ तौर पर अलग करता है, और Google के पास अब भी सिर्फ Preview मॉडल हैं
    डेवलपर के तौर पर स्थिर वर्ज़न इस्तेमाल करना मुश्किल लगता है

    • Google के पुराने टूल बनाम नए beta टूल वाले meme की याद आती है
      हर बार लगता है कि दोनों में से सिर्फ एक ही चुन सकते हैं
    • यह कहना कि version numbering उलझाऊ है, थोड़ा ज़्यादा बाल की खाल निकालना लगता है
      अगर आप engineer हैं, तो 5.4 > 5.2 > 5.1 समझना मुश्किल नहीं होना चाहिए
    • Google ने बताया है कि वह 2.5 मॉडल को जल्द deprecate करने वाला है
      3.x अब भी Preview में है, इसलिए और भ्रम होता है
    • Anthropic की version scheme भी बेतरतीब है
      Opus, Sonnet, और Haiku के versions एक-दूसरे से अलग-अलग हैं, और pricing structure भी जटिल है
      आख़िर में सभी कंपनियाँ लगभग वही समस्याएँ झेल रही हैं
    • हर महीने बेहतर मॉडल आ रहे हैं, इसलिए किसी एक ही मॉडल पर अड़े रहने की खास वजह नहीं है
      अब ऐसा दौर है जहाँ सिर्फ API बदलकर आसानी से switch किया जा सकता है
  • GPT‑5.4 की सबसे बड़ी बात 1M token context window है
    आधिकारिक price sheet के हिसाब से 200k से ऊपर भी कोई अतिरिक्त शुल्क नहीं दिखता
    यह Opus 4.6 से काफ़ी सस्ता है, लेकिन 1M context से वास्तव में कितना फ़ायदा होगा, इस पर संदेह है
    अपडेटेड docs के अनुसार यह GPT‑5.3‑Codex की जगह लेता है

    • model docs के अनुसार
      272K tokens से ऊपर इनपुट पर 2x और आउटपुट पर 1.5x शुल्क लगता है
    • long context vs compaction हमेशा एक दुविधा रहती है
      token बढ़ने के साथ cost और latency दोनों बढ़ते हैं
      OpenAI की internal testing में ज़्यादातर मामलों में छोटा context ज़्यादा efficient था
      (कर्मचारी की टिप्पणी)
    • Claude को वही काम करने के लिए कम tokens चाहिए होते हैं
      इसलिए तुलना per-task cost के आधार पर करनी चाहिए
      व्यवहार में GPT‑5.x और Opus की लागत लगभग एक जैसी पड़ती है
      benchmark से ज़्यादा असली काम के नतीजे मायने रखते हैं
    • ज़्यादातर लोग सिर्फ आधिकारिक price sheet देखते हैं
      लेकिन वास्तव में developer docs ज़्यादा सटीक हैं
      बेसिक दरें सिर्फ 272k तक ही लागू होती हैं
    • context rot की समस्या अब भी बनी हुई है, लेकिन
      Anthropic के पास लंबे कार्यों के लिए RL के ज़रिए इसे कम करने की योजना है
  • मैंने GPT‑5.4 को कुछ बार इस्तेमाल किया, और लेखन की स्पष्टता और विश्लेषण क्षमता प्रभावशाली लगी
    यह 5.3‑Codex की तुलना में कहीं ज़्यादा स्वाभाविक और मानवीय शैली में लिखता है
    हो सकता है इसकी वजह मेरा AGENTS.md हो, जो सरल भाषा की मांग करता है

    • लेकिन इसने मेरे codebase में एक महत्वपूर्ण data loss bug पकड़ने से चूक की
    • हर बार नया मॉडल आने पर “पिछला मॉडल तो काफ़ी आदिम था” जैसी पोस्ट आ जाती है
      लगता है वही पैटर्न फिर दोहर रहा है
    • मैं भी Opus से Codex पर गया, और reasoning धीमी लेकिन accuracy बेहतर लगी
      Claude तुलनात्मक रूप से थोड़ा ढीला-ढाला लगता है
    • सोच रहा हूँ कि क्या वही AGENTS.md फ़ाइल इस्तेमाल करने पर एक जैसा नतीजा मिलेगा
    • हालिया रिसर्च के अनुसार AGENTS.md शामिल करने से उल्टा performance गिर सकती है
  • OpenAI ने 8 महीनों तक version numbering confusion से बचाव किया, लेकिन आखिरकार फिर वही जटिलता लौट आई
    GPT‑5.3 Instant, GPT‑5.4 Thinking जैसे नाम फिर मिल रहे हैं

    • GPT‑5.3 Instant और gpt‑5.3‑chat के बीच का अंतर उलझाता है
    • असल में 5.3 Codex भी था
    • Instant मॉडल summary या search के लिए अच्छे हैं, लेकिन complex conversation में context जल्दी खो सकते हैं
      इन्हें सही use case के लिए इस्तेमाल करना चाहिए
  • ब्लॉग का RPG game demo प्रभावशाली लगा
    यह “Battle Brothers” जैसी गुणवत्ता का लगा, और autonomous engineering का अच्छा उदाहरण था

    • यह देखकर हैरानी हुई कि AI ने एक ही बार में RollerCoaster Tycoon clone बना दिया
      अगर यही गति रही, तो low-code tool market को खतरा हो सकता है
    • लेकिन असल में यह सिर्फ एक साधारण demo जैसा लगा
    • शायद इसकी वजह Playwright integration है
      इससे Codex web app को विज़ुअली debug और test कर सका
  • लगता है इस मॉडल का उपयोग सैन्य और सुरक्षा क्षेत्रों में भी होगा

    • कहा गया कि violence-related safety score 91% से गिरकर 83% हो गया
    • जिज्ञासा है कि क्या उन्होंने military benchmarks (ArtificialSuperSoldier आदि) के नतीजे भी जारी किए हैं
    • यह भी सोच रहा हूँ कि क्या इसे Claude मॉडल की तरह Anthropic-style में भी इस्तेमाल किया जा सकता है
    • ad industry भी शायद इस तकनीक पर नज़र गड़ाएगी
    • सेना अब भी 4.1 version इस्तेमाल कर रही है, इसलिए upgrade में समय लग सकता है
  • GPT‑5.4 ने browser screenshot को समझकर Gmail UI पर क्लिक करते हुए ईमेल भेजने की क्षमता दिखाई
    लेकिन मुझे लगता है कि इस तरीके की बजाय Gmail API इस्तेमाल करना ज़्यादा efficient होगा

    • ज़्यादातर websites में API नहीं होती या documentation कमजोर होती है
      screenshot एक साथ docs, API, और navigation का काम कर देता है
    • यह कुछ वैसा है जैसे इंसानों के लिए बने tools इस्तेमाल करने के लिए humanoid robot बनाया जाए
      अगर यह सफल होता है, तो इसकी generality बहुत बढ़ जाती है, लेकिन API-आधारित तरीका भी अब भी उपयोगी है
    • कई services API सार्वजनिक करने के इच्छुक नहीं होते
      यह तरीका उन सीमाओं को bypass कर सकता है
    • computer use capability सीख चुका मॉडल कहीं भी काम आ सकता है,
      जबकि सिर्फ API सँभालने वाला मॉडल ऐसा नहीं कर सकता
      आर्थिक प्रसार के लिहाज़ से पहला ज़्यादा मूल्यवान है
    • यह कुछ वैसा ही है जैसे Wikipedia पर API से ज़्यादा web scraping होता है
      आखिर में सुविधा ही सबसे ऊपर रहती है
  • मेरी रोज़मर्रा की coding में ऊपर के 3 coding agents ही काफ़ी हैं
    SWE‑bench Verified के हिसाब से GPT‑5.2 Codex को 72.8 अंक मिले थे, और GPT‑5.4 लगभग 2 अंक ऊपर है
    यह कोई बड़ा jump नहीं है, लेकिन सुधार ज़रूर है
    SWE‑bench में Claude 4.6 Opus अब भी 75.6 अंक के साथ आगे है
    हालांकि Codex CLI की agent capabilities बहुत बेहतर हुई हैं और अब Claude Code के क़रीब पहुँचती दिखती हैं

  • OpenAI पहले मॉडलों को एकीकृत करता है और फिर दोबारा सूक्ष्म versioning लेकर आता है, यह काफ़ी उलझाने वाला है
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro — बहुत ज़्यादा हैं
    फिर भी 1M context window का समर्थन स्वागतयोग्य है

    • मुझे ऐसे विकल्प अच्छे लगते हैं
      ज़रूरत के हिसाब से चुना जा सकता है, और आम यूज़र अब भी Auto mode इस्तेमाल कर सकते हैं
    • Auto विकल्प अब भी मौजूद है, इसलिए यह बहुत बड़ी समस्या नहीं है
    • शायद backend में GPT‑5 कई मॉडलों के बीच automatic routing करता हो