- GPT‑5.4 की क्षमताओं को तेज़ और कुशल रूप में लागू किया गया है
- GPT‑5.4 mini, coding·reasoning·multimodal understanding·tool use में GPT‑5 mini की तुलना में काफ़ी बेहतर है, और इसकी गति 2 गुना से भी ज़्यादा तेज़ है
- GPT‑5.4 nano, सबसे छोटा और सबसे सस्ता मॉडल है, जो classification·data extraction·ranking·सहायक coding कार्यों के लिए उपयुक्त है
- दोनों मॉडल latency-महत्वपूर्ण workloads के लिए डिज़ाइन किए गए हैं, इसलिए responsive coding assistance या real-time multimodal applications में फ़ायदेमंद हैं
- इन मॉडलों के ज़रिए speed·cost·performance के संतुलन को optimize करने वाले lightweight AI systems बनाना संभव होता है
GPT‑5.4 mini और nano का अवलोकन
- GPT‑5.4 mini और nano, GPT‑5.4 के छोटे और high-efficiency versions हैं, जिन्हें high-throughput environments में तेज़ response के लिए डिज़ाइन किया गया है
- mini, GPT‑5 mini की तुलना में coding, reasoning, multimodal understanding और tool use में बेहतर है
- nano, GPT‑5 nano से बेहतर प्रदर्शन वाला सबसे छोटा और सबसे सस्ता मॉडल है
- दोनों मॉडल ऐसे environments के लिए optimize किए गए हैं जहाँ latency सीधे product experience को प्रभावित करती है (coding assistance, sub-agents, screenshot interpretation, real-time image reasoning आदि)
- OpenAI ने ज़ोर देकर कहा कि “सबसे अच्छा मॉडल हमेशा सबसे बड़ा मॉडल नहीं होता”, और तेज़ responsiveness व स्थिर tool-use क्षमता को प्रमुखता दी
प्रदर्शन तुलना
- प्रमुख benchmarks में GPT‑5.4 mini ने GPT‑5 mini से ऊँचे स्कोर दर्ज किए और GPT‑5.4 के क़रीब प्रदर्शन दिखाया
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Terminal‑Bench 2.0, Toolathlon, GPQA Diamond आदि में भी mini ने performance के मुक़ाबले speed efficiency दिखाई
- nano, उन environments में बेहतर cost efficiency देता है जहाँ speed और cost अहम हैं
coding workflow
- दोनों मॉडल तेज़ iteration की ज़रूरत वाले coding environments के लिए उपयुक्त हैं
- code editing, codebase exploration, frontend generation, debugging loops आदि में कम latency के साथ काम करते हैं
- GPT‑5.4 mini ने GPT‑5 mini की तुलना में मिलती-जुलती latency पर अधिक pass rate दर्ज किया और GPT‑5.4 स्तर के क़रीब पहुँचा
- Codex environment में बड़ा मॉडल planning और judgment करता है, जबकि mini detail tasks को parallel में संभालने वाले sub-agent की भूमिका निभाता है
- उदाहरण: code search, बड़े files की समीक्षा, document processing आदि
- यह संरचना जैसे-जैसे छोटे मॉडलों की speed और performance बेहतर होती जाती है, और अधिक उपयोगी बनती है
computer use और multimodal processing
- GPT‑5.4 mini ने computer-use से जुड़े multimodal tasks में भी मज़बूत प्रदर्शन दिखाया
- जटिल user interfaces के screenshots को तेज़ी से समझकर काम पूरा कर सकता है
- OSWorld‑Verified में यह GPT‑5.4 के क़रीब रहा और GPT‑5 mini से काफ़ी आगे निकला
उपलब्धता और कीमत
- GPT‑5.4 mini
- API, Codex, ChatGPT में उपलब्ध
- समर्थित सुविधाएँ: text·image input, tool use, function calling, web·file search, computer use, skills
- 400k context window, input के प्रति 10 लाख tokens $0.75, output के प्रति 10 लाख tokens $4.50
- Codex में यह GPT‑5.4 quota का केवल 30% इस्तेमाल करता है, और simple coding tasks को लगभग 1/3 लागत पर संभाल सकता है
- ChatGPT में Free·Go users को “Thinking” feature के रूप में उपलब्ध, और अन्य users के लिए GPT‑5.4 Thinking के fallback model के रूप में इस्तेमाल होता है
- GPT‑5.4 nano
- केवल API में उपलब्ध
- input के प्रति 10 लाख tokens $0.20, output के प्रति 10 लाख tokens $1.25
अतिरिक्त benchmark details
- coding
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- tool calling
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(communication): mini 93.4%, nano 92.5%
- intelligence evaluation
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- multimodal·vision
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (कम होना बेहतर)
- long context
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
समग्र मूल्यांकन
- GPT‑5.4 mini और nano, speed·cost·performance का संतुलन अधिकतम करने वाले lightweight models हैं, जो बड़े पैमाने के real-time applications के लिए उपयुक्त हैं
- mini, sub-agent architectures और multimodal systems में मुख्य भूमिका निभा सकता है, जबकि nano सरल और high-volume processing tasks के लिए कुशल है
- OpenAI ने इन दो मॉडलों के ज़रिए विभिन्न पैमानों के AI systems को लचीले ढंग से बनाने की बुनियाद उपलब्ध कराई है
1 टिप्पणियां
Hacker News की राय
मैंने API के जरिए मौजूदा स्पीड चेक की, और यह काफ़ी प्रभावशाली लगी
GPT-5 Mini आम तौर पर 55~60 tokens/s, priority मोड में करीब 115~120 t/s था, और GPT-5.4 Mini औसतन 180~190 t/s, GPT-5.4 Nano लगभग 200 t/s के स्तर पर था
तुलना के लिए Gemini 3 Flash करीब 130 t/s (Gemini API) था, और Vertex में लगभग 120 t/s था
कीमतों को साथ में देखें तो Claude Opus 4.6 $5/$25, GPT-5.4 $2.5/$15, Gemini 3.1 Pro $2/$12 आदि पर हैं
कई मॉडलों की pelican इमेज की तुलना वाला grid साझा किया गया
GPT मॉडल बातचीत के लिए अच्छे हैं, लेकिन agentic work में अनुभव खराब रहा
स्पीड भी धीमी है, और निर्देशों को ठीक से नहीं समझते। वही prompt देने पर दूसरे मॉडल ठीक काम करते हैं
Opus सहयोगी है, लेकिन कभी-कभी अजीब सुझाव देता है। Codex prompt OpenCode repository में है
मेरे हिसाब से छोटे(mini) मॉडल releases SOTA से भी ज़्यादा मायने रखते हैं
बड़े मॉडल पहले ही इतने अच्छे हो चुके हैं कि अंतर महसूस करना मुश्किल है, लेकिन छोटे मॉडलों में version बदलने पर quality leap बड़ा होता है
और वे कहीं ज़्यादा सस्ते होते हैं, इसलिए उन्हें वास्तविक सेवाओं में लागू करना आसान होता है
anytype का ज़रूरत से ज़्यादा इस्तेमाल करता हैयह सवाल उठता है कि LLM का मूल्यांकन अनुभूति(‘vibe check’) से क्यों किया जाता है
ज़्यादातर तुलना व्यवस्थित प्रयोगों की बजाय तात्कालिक परीक्षणों पर आधारित होती हैं
benchmarks के अनुसार GPT 5.4 Nano, GPT-5 Mini से ज़्यादातर क्षेत्रों में बेहतर है, लेकिन कीमत उल्टा बढ़ गई है
GPT 5 mini: input $0.25 / output $2.00 → GPT 5.4 mini: input $0.75 / output $4.50
OSWorld स्कोर दिलचस्प है। Mini 72.1% है, और मानव मानक 72.4% है, यानी लगभग समान
इसलिए अगर कोई विशेष failure case न हो, तो Mini को default के तौर पर इस्तेमाल किया जा सकता है
लेकिन multi-model pipeline में अगर nano sub-agent पूरा message history ज्यों का त्यों पास कर दे, तो “सस्ता चरण” अर्थहीन हो जाता है
जिज्ञासा है कि क्या किसी ने मापा है कि context length कितनी होने पर nano अब तेज़ नहीं रहता
मेरे benchmark में भी Nano ने Mini से बेहतर परिणाम दिखाए
5.4 mini में consistency समस्या है, और temperature 0 पर भी सही और गलत जवाब मिले-जुले आते हैं
तुलना लिंक देखें
5.4 Mini का OSWorld स्कोर चौंकाने वाला है। पहले मॉडल इतने धीमे और गलत होते थे कि real-time agent में इस्तेमाल नहीं किए जा सकते थे, लेकिन अब संभावना दिख रही है
उदाहरण के लिए Win32 app और web version के व्यवहार की तुलना कर automated tests बनाए जा सकते हैं। बड़े पैमाने पर विस्तार करते समय भी यह cost-efficient है
SWE-Bench के हिसाब से 5.4 mini high की accuracy और कीमत, GPT 5.4 low के समान है, लेकिन latency अधिक है (254 सेकंड बनाम 171 सेकंड)
साधारण कामों के लिए low effort level पर चलाना लागत बचत के लिए फ़ायदेमंद है। हालांकि long context processing performance अभी भी कमज़ोर है