• ChatGPT, API और Codex में लागू किया गया नवीनतम frontier model, जो reasoning, coding और agent workflow performance को एकीकृत करता है
  • native computer-use फ़ीचर बिल्ट-इन है, जिससे agent वेबसाइट और software को सीधे ऑपरेट कर जटिल workflow पूरे कर सकता है
  • अधिकतम 1M token context window का समर्थन, और tool search व efficient token usage के ज़रिये speed और cost में कमी
  • ChatGPT के Thinking mode में जवाब के बीच सोचने की प्रक्रिया को समायोजित किया जा सकता है, और deep web researchcontext retention बेहतर हुए हैं
  • GPT-5.3-Codex की coding performance को समाहित करते हुए spreadsheet, presentation और document work की accuracy और efficiency में बड़ा सुधार

GPT‑5.4 का अवलोकन

  • GPT‑5.4 ChatGPT (Thinking mode), API और Codex में एक साथ डिप्लॉय किया गया सबसे शक्तिशाली और कुशल मॉडल है
    • GPT‑5.4 Pro वर्ज़न जटिल कार्यों में अधिकतम performance देता है
  • GPT‑5.3‑Codex की coding क्षमताओं को एकीकृत किया गया है, और spreadsheet, presentation और document work जैसे प्रोफेशनल कार्य-परिवेश में accuracy और efficiency को मजबूत किया गया है
  • tools और software environments के बीच interoperability बेहतर हुई है, जिससे वास्तविक काम करते समय बार-बार संवाद की ज़रूरत घटती है

ChatGPT के Thinking mode में सुधार

  • GPT-5.4 Thinking काम शुरू करते समय thinking process का pre-planning (preamble) दिखाता है, जिससे उपयोगकर्ता response generation के बीच में दिशा समायोजित कर सकता है
  • इसे इस तरह डिज़ाइन किया गया है कि अतिरिक्त turn के बिना final output उपयोगकर्ता के इरादे से अधिक सटीक मेल खाए
  • deep web research performance में सुधार, खासकर बहुत विशिष्ट query पर प्रभावी
  • जिन सवालों में लंबी सोच की ज़रूरत होती है, उनमें पिछले context को बनाए रखने की क्षमता बेहतर हुई है, जिससे तेज़ी से उच्च-गुणवत्ता वाले जवाब मिलते हैं
  • chatgpt.com और Android app पर तुरंत उपलब्ध, iOS app के लिए बाद में समर्थन आएगा

computer use और vision फ़ीचर

  • GPT-5.4 सामान्य-उद्देश्य वाले मॉडलों में पहला है जिसमें native computer-use फ़ीचर शामिल है
  • Playwright जैसी libraries के ज़रिये code-based computer control और screenshot-based mouse/keyboard commands — दोनों का समर्थन
  • developer messages के माध्यम से behavior समायोजित किया जा सकता है, और custom confirmation policy से risk tolerance को अलग-अलग सेट किया जा सकता है
  • OSWorld-Verified में 75.0% हासिल, जो मानव प्रदर्शन 72.4% से अधिक है और GPT-5.2 के 47.3% की तुलना में बड़ा सुधार है
  • WebArena-Verified में DOM + screenshot आधारित interaction के साथ 67.3% हासिल (GPT-5.2: 65.4%)
  • Online-Mind2Web में केवल screenshot-based observation से 92.8% हासिल (ChatGPT Atlas Agent Mode: 70.9%)

visual recognition और document parsing में सुधार

  • बेहतर general visual recognition capability ही computer-use फ़ीचर की नींव है
  • MMMU-Pro में बिना tools के 81.2% (GPT-5.2: 79.5%), tools के साथ 82.1% (GPT-5.2: 80.4%)
  • OmniDocBench में बिना reasoning के average error (normalized edit distance) 0.109 हासिल (GPT-5.2: 0.140)
  • नया original image input detail level पेश: अधिकतम 10.24M pixels या 6000px max dimension तक full-fidelity recognition support
    • high level को अधिकतम 2.56M pixels या 2048px max dimension तक बढ़ाया गया
    • शुरुआती API user tests में localization ability, image understanding और click accuracy में मज़बूत सुधार देखा गया

coding performance

  • GPT-5.3-Codex की coding strengths को professional work और computer-use capabilities के साथ जोड़ा गया है
  • SWE-Bench Pro में 57.7% हासिल (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • सभी reasoning levels पर GPT-5.3-Codex की तुलना में कम latency
  • Codex में /fast mode सक्षम करने पर अधिकतम 1.5x तेज token speed, वही model और वही intelligence level बरकरार
    • API में Priority Processing के ज़रिये वही high-speed performance उपलब्ध
  • जटिल frontend कार्यों में पिछले मॉडलों की तुलना में स्पष्ट रूप से अधिक सुंदर और functional output तैयार करता है
  • experimental Codex skill "Playwright (Interactive)" जारी: web और Electron apps की visual debugging का समर्थन, build हो रहे app को real time में test किया जा सकता है

Tool Search फ़ीचर

  • पहले सभी tool definitions prompt में पहले से शामिल करनी पड़ती थीं, जिससे हज़ारों से लेकर दसियों हज़ार tokens खर्च होते थे; अब Tool Search के साथ केवल हल्की tool list दी जाती है और ज़रूरत पड़ने पर definition dynamically fetch की जाती है
  • tool-intensive workflows में token usage नाटकीय रूप से घटता है और cache सुरक्षित रहती है, जिससे speed और cost दोनों बेहतर होते हैं
  • दसियों हज़ार tokens आकार वाली MCP server tool definitions में यह efficiency gain खास तौर पर बड़ा है
  • Scale के MCP Atlas benchmark के 250 tasks के आधार पर, 36 MCP servers को पूरी तरह Tool Search पर स्विच करने से कुल token usage 47% कम हुआ, जबकि accuracy समान रही

tool calling और agent performance

  • GPT-5.4 reasoning के दौरान tools कब और कैसे इस्तेमाल करने हैं, इसमें accuracy और efficiency बेहतर करता है
  • Toolathlon में 54.6% हासिल (GPT-5.2: 45.7%), कम turns में अधिक accuracy
    • email पढ़ना, assignment attachment निकालना, upload करना, grading करना, और result spreadsheet में दर्ज करना जैसी multi-step real-world tool tasks का मूल्यांकन
  • बिना reasoning वाले low-latency scenarios में भी τ2-bench Telecom पर 64.3% हासिल (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • BrowseComp में 82.7%, और GPT-5.4 Pro ने 89.3% के साथ नया सर्वोच्च प्रदर्शन हासिल किया (GPT-5.2: 65.8%)
    • “haystack में needle खोजने” जैसे कठिन information retrieval में कई rounds तक लगातार search करने की क्षमता बेहतर हुई

professional work और knowledge work performance

  • GDPval में अमेरिका की GDP के शीर्ष 9 industries और 44 occupations के वास्तविक कार्य-आउटपुट (sales presentation, accounting spreadsheet, emergency care schedule, manufacturing diagram, short video आदि) का मूल्यांकन
    • GPT-5.4: 83.0% मामलों में expert level के बराबर या उससे बेहतर (GPT-5.2: 70.9%)
  • internal investment banking spreadsheet modeling benchmark में औसत 87.3% (GPT-5.2: 68.4%)
  • presentation evaluation में मानव evaluators ने GPT-5.4 output को 68.0% मामलों में प्राथमिकता दी (aesthetic quality, visual diversity, image generation utilization बेहतर)
  • hallucination और errors में कमी: जिन prompts पर उपयोगकर्ताओं ने factual error report किया, उनमें individual claims के false होने की संभावना 33% कम, और पूरे response में error होने की संभावना 18% कम हुई (GPT-5.2 की तुलना में)

1M context window और long-context performance

  • अधिकतम 1M token context का समर्थन, जिससे agent लंबे दायरे वाले कार्यों की planning, execution और verification कर सकता है
  • Codex में experimental रूप से 1M context window support, जिसे model_context_window और model_auto_compact_token_limit settings से configure किया जा सकता है
    • standard 272K context window से अधिक requests पर 2x pricing लागू होगी
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 4K–8K पर 97.3%, 128K–256K पर 79.3%, 512K–1M पर 36.6%

abstract reasoning और academic benchmarks

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro ने ARC-AGI-2 में 83.3% हासिल किया
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), GPT-5.4 Pro ने 38.0% हासिल किया
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: बिना tools के 39.8%, tools के साथ 52.1% (GPT-5.2: क्रमशः 34.5%, 45.5%)
    • GPT-5.4 Pro ने tools के साथ 58.7% हासिल किया

safety और security

  • GPT-5.3-Codex में पेश किए गए safeguards को लगातार बेहतर किया जा रहा है, और Preparedness Framework में इसे High cyber capability के रूप में वर्गीकृत किया गया है
  • विस्तारित cyber safety stack: monitoring systems, trust-based access control, और Zero Data Retention (ZDR) surfaces पर asynchronous blocking शामिल
  • cyber security capability की dual-use प्रकृति को ध्यान में रखते हुए proactive deployment approach अपनाई गई है; classifier accuracy में सुधार जारी है, इसलिए कुछ false positives संभव हैं
  • लक्ष्य यह है कि misuse prevention safeguards बनाए रखते हुए अनावश्यक refusals और अत्यधिक hint-like responses कम किए जाएँ
  • Chain-of-Thought (CoT) monitoring पर शोध जारी: नया open source evaluation tool CoT controllability जारी
    • GPT-5.4 Thinking में CoT control क्षमता कम है, जिससे model के लिए reasoning छिपाना कठिन होता है और यह safety के लिहाज़ से सकारात्मक माना गया है

pricing और release जानकारी

  • API model name: gpt-5.4, Pro version: gpt-5.4-pro
  • API pricing (प्रति M tokens):
    • gpt-5.4: input $2.50, cached input $0.25, output $15
    • gpt-5.4-pro: input $30, output $180
    • gpt-5.2: input $1.75, cached input $0.175, output $14
  • GPT-5.2 की तुलना में token के हिसाब से कीमत अधिक है, लेकिन बेहतर token efficiency के कारण प्रति task कुल token usage घटता है
  • Batch और Flex pricing standard की आधी, Priority Processing standard की 2x
  • ChatGPT में GPT-5.4 Thinking Plus, Team, Pro उपयोगकर्ताओं के लिए तुरंत उपलब्ध है, और GPT-5.2 Thinking की जगह लेता है
    • GPT-5.2 Thinking paid users के लिए Legacy Models सेक्शन में 3 महीने तक रहेगा, उसके बाद 5 जून 2026 को समाप्त होगा
    • Enterprise और Edu plans में admin settings के ज़रिये early access सक्षम किया जा सकता है
    • GPT-5.4 Pro Pro और Enterprise plans में उपलब्ध है
  • GPT-5.4, GPT-5.3-Codex की frontier coding capabilities को एकीकृत करने वाला पहला mainline reasoning model है, और Instant model व Thinking model आगे चलकर अलग-अलग गति से विकसित होंगे

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.