3 पॉइंट द्वारा GN⁺ 2026-03-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT‑5.4 की क्षमताओं को तेज़ और कुशल रूप में लागू किया गया है
  • GPT‑5.4 mini, coding·reasoning·multimodal understanding·tool use में GPT‑5 mini की तुलना में काफ़ी बेहतर है, और इसकी गति 2 गुना से भी ज़्यादा तेज़ है
  • GPT‑5.4 nano, सबसे छोटा और सबसे सस्ता मॉडल है, जो classification·data extraction·ranking·सहायक coding कार्यों के लिए उपयुक्त है
  • दोनों मॉडल latency-महत्वपूर्ण workloads के लिए डिज़ाइन किए गए हैं, इसलिए responsive coding assistance या real-time multimodal applications में फ़ायदेमंद हैं
  • इन मॉडलों के ज़रिए speed·cost·performance के संतुलन को optimize करने वाले lightweight AI systems बनाना संभव होता है

GPT‑5.4 mini और nano का अवलोकन

  • GPT‑5.4 mini और nano, GPT‑5.4 के छोटे और high-efficiency versions हैं, जिन्हें high-throughput environments में तेज़ response के लिए डिज़ाइन किया गया है
    • mini, GPT‑5 mini की तुलना में coding, reasoning, multimodal understanding और tool use में बेहतर है
    • nano, GPT‑5 nano से बेहतर प्रदर्शन वाला सबसे छोटा और सबसे सस्ता मॉडल है
  • दोनों मॉडल ऐसे environments के लिए optimize किए गए हैं जहाँ latency सीधे product experience को प्रभावित करती है (coding assistance, sub-agents, screenshot interpretation, real-time image reasoning आदि)
  • OpenAI ने ज़ोर देकर कहा कि “सबसे अच्छा मॉडल हमेशा सबसे बड़ा मॉडल नहीं होता”, और तेज़ responsiveness व स्थिर tool-use क्षमता को प्रमुखता दी

प्रदर्शन तुलना

  • प्रमुख benchmarks में GPT‑5.4 mini ने GPT‑5 mini से ऊँचे स्कोर दर्ज किए और GPT‑5.4 के क़रीब प्रदर्शन दिखाया
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Terminal‑Bench 2.0, Toolathlon, GPQA Diamond आदि में भी mini ने performance के मुक़ाबले speed efficiency दिखाई
  • nano, उन environments में बेहतर cost efficiency देता है जहाँ speed और cost अहम हैं

coding workflow

  • दोनों मॉडल तेज़ iteration की ज़रूरत वाले coding environments के लिए उपयुक्त हैं
    • code editing, codebase exploration, frontend generation, debugging loops आदि में कम latency के साथ काम करते हैं
  • GPT‑5.4 mini ने GPT‑5 mini की तुलना में मिलती-जुलती latency पर अधिक pass rate दर्ज किया और GPT‑5.4 स्तर के क़रीब पहुँचा
  • Codex environment में बड़ा मॉडल planning और judgment करता है, जबकि mini detail tasks को parallel में संभालने वाले sub-agent की भूमिका निभाता है
    • उदाहरण: code search, बड़े files की समीक्षा, document processing आदि
  • यह संरचना जैसे-जैसे छोटे मॉडलों की speed और performance बेहतर होती जाती है, और अधिक उपयोगी बनती है

computer use और multimodal processing

  • GPT‑5.4 mini ने computer-use से जुड़े multimodal tasks में भी मज़बूत प्रदर्शन दिखाया
    • जटिल user interfaces के screenshots को तेज़ी से समझकर काम पूरा कर सकता है
    • OSWorld‑Verified में यह GPT‑5.4 के क़रीब रहा और GPT‑5 mini से काफ़ी आगे निकला

उपलब्धता और कीमत

  • GPT‑5.4 mini
    • API, Codex, ChatGPT में उपलब्ध
    • समर्थित सुविधाएँ: text·image input, tool use, function calling, web·file search, computer use, skills
    • 400k context window, input के प्रति 10 लाख tokens $0.75, output के प्रति 10 लाख tokens $4.50
    • Codex में यह GPT‑5.4 quota का केवल 30% इस्तेमाल करता है, और simple coding tasks को लगभग 1/3 लागत पर संभाल सकता है
    • ChatGPT में Free·Go users को “Thinking” feature के रूप में उपलब्ध, और अन्य users के लिए GPT‑5.4 Thinking के fallback model के रूप में इस्तेमाल होता है
  • GPT‑5.4 nano
    • केवल API में उपलब्ध
    • input के प्रति 10 लाख tokens $0.20, output के प्रति 10 लाख tokens $1.25

अतिरिक्त benchmark details

  • coding
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • tool calling
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(communication): mini 93.4%, nano 92.5%
  • intelligence evaluation
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • multimodal·vision
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (कम होना बेहतर)
  • long context
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

समग्र मूल्यांकन

  • GPT‑5.4 mini और nano, speed·cost·performance का संतुलन अधिकतम करने वाले lightweight models हैं, जो बड़े पैमाने के real-time applications के लिए उपयुक्त हैं
  • mini, sub-agent architectures और multimodal systems में मुख्य भूमिका निभा सकता है, जबकि nano सरल और high-volume processing tasks के लिए कुशल है
  • OpenAI ने इन दो मॉडलों के ज़रिए विभिन्न पैमानों के AI systems को लचीले ढंग से बनाने की बुनियाद उपलब्ध कराई है

1 टिप्पणियां

 
GN⁺ 2026-03-18
Hacker News की राय
  • मैंने API के जरिए मौजूदा स्पीड चेक की, और यह काफ़ी प्रभावशाली लगी
    GPT-5 Mini आम तौर पर 55~60 tokens/s, priority मोड में करीब 115~120 t/s था, और GPT-5.4 Mini औसतन 180~190 t/s, GPT-5.4 Nano लगभग 200 t/s के स्तर पर था
    तुलना के लिए Gemini 3 Flash करीब 130 t/s (Gemini API) था, और Vertex में लगभग 120 t/s था
    कीमतों को साथ में देखें तो Claude Opus 4.6 $5/$25, GPT-5.4 $2.5/$15, Gemini 3.1 Pro $2/$12 आदि पर हैं

    • केवल token/s पर्याप्त नहीं है। वास्तविक API उपयोग प्रदर्शन जानने के लिए TTFT(पहले token तक का इंतज़ार समय) और कुल latency भी साथ में देखनी चाहिए
    • अगर स्पीड तेज़ हो लेकिन reasoning चरण लंबा हो, तो वह उल्टा धीमा पड़ सकता है। कम token/s होने पर भी अगर सोच अधिक केंद्रित हो तो वह ज़्यादा कुशल हो सकता है
    • यह जानने की जिज्ञासा है कि Google के संसाधन या लागत के लिहाज़ से फ़ायदे में दिखने के बावजूद लोग GPT या Claude क्यों चुनते हैं
    • केवल output स्पीड ही नहीं, बल्कि prompt processing स्पीड भी प्रमुख providers के हिसाब से मापी जानी चाहिए
    • लो-कॉस्ट मॉडल की कीमतें काफ़ी बढ़ गई हैं। पहले सुविधा थी, अब बोझिल लगने लगी हैं
  • कई मॉडलों की pelican इमेज की तुलना वाला grid साझा किया गया

    • अब लगता है कि ऐसे काम शायद training data में शामिल होंगे
    • कुछ इमेजें दुःस्वप्न जैसी लगती हैं, लेकिन इसी वजह से वे और पसंद आती हैं
    • व्यक्तिगत रूप से मुझे nano xhigh version का pelican सबसे ज़्यादा पसंद आया
    • nano medium ऐसा लगता है जैसे सर्वर में आग लगी हुई थी उसी समय इसे बनाया गया हो
  • GPT मॉडल बातचीत के लिए अच्छे हैं, लेकिन agentic work में अनुभव खराब रहा
    स्पीड भी धीमी है, और निर्देशों को ठीक से नहीं समझते। वही prompt देने पर दूसरे मॉडल ठीक काम करते हैं

    • 5.4 Mini इतना तेज़ है कि voice applications के लिए उपयुक्त हो सकता है, लेकिन निर्देश पालन की क्षमता कमज़ोर है। Qwen 3.5 9B को fine-tune करने का सोच रहा हूँ
    • Gemini 3.1 और Claude Opus 4.6 ने मानक पार कर लिया, लेकिन ChatGPT श्रृंखला conversational उपयोग पर ज़्यादा केंद्रित है। context बनाए रखने में कमज़ोर होने से result validation की ज़रूरत पड़ती है
    • GPT 5.2 Codex बार-बार context खो देता है, और Claude, GitHub Copilot में कहीं अधिक स्वाभाविक रूप से काम करता है। GPT को साधारण refactoring में भी 20 मिनट लगते हैं
    • मैंने 5.4 Pro से data analysis किया, लेकिन वह बहुत धीमा था। Sonnet 4.6 काफ़ी तेज़ था। ज़्यादातर कामों के लिए Haiku स्तर ही पर्याप्त है
    • इसके उलट, मुझे Codex सबसे उत्कृष्ट लगा। बस इसका ठंडा-सा स्टाइल इतना है कि बातचीत छोटी रह जाती है और बीच में दखल देना मुश्किल होता है
      Opus सहयोगी है, लेकिन कभी-कभी अजीब सुझाव देता है। Codex prompt OpenCode repository में है
  • मेरे हिसाब से छोटे(mini) मॉडल releases SOTA से भी ज़्यादा मायने रखते हैं
    बड़े मॉडल पहले ही इतने अच्छे हो चुके हैं कि अंतर महसूस करना मुश्किल है, लेकिन छोटे मॉडलों में version बदलने पर quality leap बड़ा होता है
    और वे कहीं ज़्यादा सस्ते होते हैं, इसलिए उन्हें वास्तविक सेवाओं में लागू करना आसान होता है

    • Gemini web app अपने-आप Flash पर switch हो जाता है, और अगर जवाब अजीब हो या तर्क टूटता लगे तो तुरंत पता चल जाता है। रोज़मर्रा के उपयोग के लिए अभी कमज़ोर है, लेकिन साधारण automation के लिए काफ़ी अच्छा है
    • GPT 5.4, Svelte UI काम में कमज़ोर है, और Gemini में चर्चा से पहले सीधे implementation की ओर बढ़ने की प्रवृत्ति है। Claude TypeScript में any type का ज़रूरत से ज़्यादा इस्तेमाल करता है
    • तुलना परिणाम देखें तो 5 mini और 5.4 mini का अंतर छोटा है, लेकिन 5.4 mini अस्थिर है पर सही जवाब की दर अधिक है
    • व्यवहार में कीमतें बढ़ रही हैं। GPT 5.4 mini, 5.0 mini से लगभग 3 गुना महँगा है। Gemini 3.1 Flash Lite भी पहले से महँगा है
    • open model की तुलना में यह इतना सस्ता भी नहीं है, और बुद्धिमत्ता भी कम है। जब तक latency को न्यूनतम रखना ज़रूरी न हो, इसे चुनने की वजह कम है
  • यह सवाल उठता है कि LLM का मूल्यांकन अनुभूति(‘vibe check’) से क्यों किया जाता है
    ज़्यादातर तुलना व्यवस्थित प्रयोगों की बजाय तात्कालिक परीक्षणों पर आधारित होती हैं

    • यह केवल साधारण engineering समस्या नहीं है। वजह यह है कि बुद्धिमत्ता और क्षमता की परिभाषा ही अधूरी है। मौजूदा benchmarks में बहुत खामियाँ हैं
    • benchmark बनाओ तो लोग कहते हैं “यह अर्थहीन है”, लेकिन अंदाज़े से मूल्यांकन करना उससे भी कहीं बुरा है
    • सार्वजनिक evaluation sets जल्दी ही dark forest समस्या से निष्प्रभावी हो जाते हैं। उनकी predictive power भी कमज़ोर है, इसलिए अनौपचारिक तरीकों को वैज्ञानिक रूप से संभालना शायद बेहतर है
    • “अनुभूति से मूल्यांकन करो, और अनुभूति से coding करो” जैसा मज़ाक भी सामने आया
  • benchmarks के अनुसार GPT 5.4 Nano, GPT-5 Mini से ज़्यादातर क्षेत्रों में बेहतर है, लेकिन कीमत उल्टा बढ़ गई है
    GPT 5 mini: input $0.25 / output $2.00 → GPT 5.4 mini: input $0.75 / output $4.50

    • मॉडल महँगा हुआ है, लेकिन प्रदर्शन-कीमत दक्षता बेहतर हुई है। हो सकता है कमज़ोर मॉडल बनाए रखने की ज़रूरत कम हो गई हो
    • यह बड़ा मॉडल है, इसलिए serving cost कम नहीं हो सकती। अगर प्रदर्शन बेहतर हुआ है, तो महँगा होना स्वाभाविक है
  • OSWorld स्कोर दिलचस्प है। Mini 72.1% है, और मानव मानक 72.4% है, यानी लगभग समान
    इसलिए अगर कोई विशेष failure case न हो, तो Mini को default के तौर पर इस्तेमाल किया जा सकता है
    लेकिन multi-model pipeline में अगर nano sub-agent पूरा message history ज्यों का त्यों पास कर दे, तो “सस्ता चरण” अर्थहीन हो जाता है
    जिज्ञासा है कि क्या किसी ने मापा है कि context length कितनी होने पर nano अब तेज़ नहीं रहता

    • (यह बॉट जैसा लगता है)
  • मेरे benchmark में भी Nano ने Mini से बेहतर परिणाम दिखाए
    5.4 mini में consistency समस्या है, और temperature 0 पर भी सही और गलत जवाब मिले-जुले आते हैं
    तुलना लिंक देखें

  • 5.4 Mini का OSWorld स्कोर चौंकाने वाला है। पहले मॉडल इतने धीमे और गलत होते थे कि real-time agent में इस्तेमाल नहीं किए जा सकते थे, लेकिन अब संभावना दिख रही है

    • कुछ लोग OSWorld को “OpenClaw” कहकर खारिज करते हैं, लेकिन सुरक्षित end-to-end interaction evaluation के रूप में यह काफ़ी शक्तिशाली है
      उदाहरण के लिए Win32 app और web version के व्यवहार की तुलना कर automated tests बनाए जा सकते हैं। बड़े पैमाने पर विस्तार करते समय भी यह cost-efficient है
  • SWE-Bench के हिसाब से 5.4 mini high की accuracy और कीमत, GPT 5.4 low के समान है, लेकिन latency अधिक है (254 सेकंड बनाम 171 सेकंड)
    साधारण कामों के लिए low effort level पर चलाना लागत बचत के लिए फ़ायदेमंद है। हालांकि long context processing performance अभी भी कमज़ोर है