- रियल-टाइम कोडिंग के लिए डिज़ाइन किया गया GPT‑5.3‑Codex का छोटा संस्करण, जो 1000 टोकन/सेकंड से अधिक की गति प्रदान करता है
- 128k context window पर आधारित केवल टेक्स्ट मॉडल, जो तुरंत कोड संशोधन और दोहराए जाने वाले कामों के लिए विशेष रूप से अनुकूलित है
- WebSocket-आधारित response path की शुरुआत से response latency में 80% कमी, प्रति टोकन overhead में 30% कमी, पहला टोकन आउटपुट समय 50% कम
- Cerebras के साथ सहयोग में विकसित, और Wafer Scale Engine 3 का उपयोग करने वाले हाई-स्पीड inference environment पर चलता है
- दीर्घकालिक autonomous work और रियल-टाइम collaboration को जोड़ने वाली dual-mode Codex strategy का पहला चरण मॉडल
GPT‑5.3‑Codex‑Spark अवलोकन
- GPT‑5.3‑Codex‑Spark, GPT‑5.3‑Codex का छोटा संस्करण है, और रियल-टाइम कोडिंग कार्यों के लिए डिज़ाइन किया गया पहला मॉडल है
- अल्ट्रा-लो-लेटेंसी हार्डवेयर पर 1000 टोकन/सेकंड से अधिक की generation speed हासिल करता है
- वास्तविक कोडिंग कार्यों में तुरंत responsiveness देता है
- Cerebras के साथ सहयोग से विकसित पहला मॉडल, और OpenAI तथा Cerebras की साझेदारी का पहला milestone
- ChatGPT Pro users के लिए research preview के रूप में उपलब्ध, जिसका उद्देश्य शुरुआती प्रयोग और feedback एकत्र करना है
प्रमुख फीचर और प्रदर्शन
- 128k context window को सपोर्ट करता है, और फिलहाल केवल टेक्स्ट मॉडल के रूप में उपलब्ध है
- SWE‑Bench Pro और Terminal‑Bench 2.0 benchmarks में GPT‑5.3‑Codex की तुलना में कम समय में बेहतर प्रदर्शन दिखाता है
- स्पीड-केंद्रित optimization के कारण इसका डिफॉल्ट workflow हल्का और goal-oriented है, और अनुरोध न होने पर यह अपने-आप tests नहीं चलाता
- रियल-टाइम collaboration संभव है, जिससे उपयोगकर्ता मॉडल की प्रगति को रोककर या फिर से निर्देश देकर तुरंत परिणाम देख सकते हैं
लेटेंसी और इन्फ्रास्ट्रक्चर optimization
- मॉडल की गति के अलावा पूरी request-response pipeline की latency कम करने के लिए भी सुधार किए गए हैं
- क्लाइंट-सर्वर round-trip overhead में 80% कमी
- प्रति टोकन overhead में 30% कमी, पहला टोकन आउटपुट समय 50% कम
- इसके लिए WebSocket-आधारित persistent connection और Responses API की आंतरिक optimization लागू की गई
- ये सुधार सिर्फ Codex‑Spark ही नहीं बल्कि सभी मॉडलों पर लागू किए जाएंगे
Cerebras हार्डवेयर integration
- Codex‑Spark Cerebras Wafer Scale Engine 3 पर चलता है, जो लेटेंसी-केंद्रित inference layer प्रदान करता है
- OpenAI ने Cerebras के साथ मिलकर इस path को मौजूदा production serving stack में integrate किया, ताकि Codex में सुसंगत operating environment लागू किया जा सके
- GPU infrastructure अब भी training और inference की नींव बना रहेगा, जबकि Cerebras ultra-low-latency workloads के लिए विशेष रूप से अनुकूल है और पूरक भूमिका निभाता है
- GPU और Cerebras को एक ही workload में जोड़कर सर्वोत्तम प्रदर्शन हासिल किया जा सकता है
डिप्लॉयमेंट और एक्सेस
- Codex‑Spark ChatGPT Pro users के लिए Codex app, CLI, और VS Code extension में research preview के रूप में उपलब्ध होना शुरू हो गया है
- समर्पित usage limit (rate limit) लागू है, जिसे मांग के अनुसार समायोजित किया जा सकता है
- कुछ design partners को API access दिया गया है, ताकि product integration के तरीकों पर feedback एकत्र किया जा सके
- आने वाले कुछ हफ्तों में एक्सेस का दायरा बढ़ाया जाएगा और वास्तविक workloads के आधार पर integration को समायोजित किया जाएगा
सुरक्षा और आगे की दिशा
- Codex‑Spark में मौजूदा mainline models जैसी ही safety training शामिल है, और इसने cyber-संबंधित evaluations पास किए हैं
- मूल्यांकन से पुष्टि हुई कि यह cybersecurity और biology क्षेत्रों में high-risk capability threshold तक नहीं पहुंचता
- Codex का विकास long-running reasoning और रियल-टाइम collaborative iterative work — इन दो मोड्स को जोड़ने की दिशा में हो रहा है
- आगे चलकर multimodal input, बड़े मॉडल, लंबा context जैसी क्षमताओं का विस्तार किया जाएगा
- अल्ट्रा-फास्ट inference विचारों को तुरंत executable software में बदलने की प्रक्रिया को तेज करता है, और अधिक प्राकृतिक interaction experience प्रदान करता है
1 टिप्पणियां
Hacker News की राय
अच्छा होता अगर HN पर इमेज अपलोड की जा सकतीं। WSE-3 चिप सच में बहुत विशाल है
यह चिप 46,255mm² आकार की है, इसमें 4 ट्रिलियन ट्रांजिस्टर हैं, और 9 लाख AI-optimized cores के साथ 125 petaflops कंप्यूट देती है। यह NVIDIA B200 की तुलना में ट्रांजिस्टर में 19 गुना और कंप्यूट में 28 गुना अधिक है
अधिक जानकारी के लिए Cerebras की आधिकारिक पेज, इमेज1, और इमेज2 देखें
मैं coding agent का इस्तेमाल करके web-based slide deck अपने-आप बनाता हूँ। मैं “master slide” को component के रूप में define करता हूँ और company branding rules व assets लागू करता हूँ। फिर सिर्फ content और prompt डालने पर एक साफ-सुथरी presentation बन जाती है
मैं वास्तव में improv mode चाहता हूँ। यानी presentation के दौरान audience के सवालों या अचानक आए ideas के आधार पर अगले 3 slide candidates सुझाए जाएँ, उनमें से एक चुनें, और फिर मुख्य flow में वापस लौट आएँ।
उदाहरण के लिए, अगर किसी news article या paper का ज़िक्र हो तो अपने-आप screenshot और QR code वाली slide बन जाए, फिर presentation flow पर वापस आ जाए। अगर real-time voice + code generation जुड़ जाए तो presentation tools कहीं अधिक उपयोगी हो सकते हैं
मैंने Codex CLI में gpt-5.3-codex-spark इस्तेमाल किया, और यह बहुत तेज़ है लेकिन मॉडल का आकार छोटा लगता है।
मैंने अपने ‘bluey bench’ test (file system benchmark) में इसका प्रदर्शन मापा, और छोटे models में context efficiency कम होती है तथा compaction ज़्यादा बार होता है।
फिर भी speed के मामले में यह पिछली generation से कहीं तेज़ है
मुझे लगता है Cerebras अब भी एक कम आंका गया company है। प्लेट जितने आकार की चिप सच में काम करती है, और real-world use में भी बाकी सब से तेज़ है। कमाल की technology है
power infrastructure bottleneck बना हुआ है, और अमेरिका में कम समय में बड़े power plants बनाना संभव नहीं है। इसलिए TPUv8 के बाद शायद Google ही market lead करेगा
मेरा Pelican benchmark GPT-5.3-Codex-Spark और पूरे GPT-5.3-Codex के बीच quality का अंतर visually दिखाता है
अधिक जानकारी के लिए blog post देखें
coding agent के जरिए priority queue / tiered workload offload का idea दिलचस्प है।
अगर 60% काम साधारण edits या refactoring है, तो low-latency और high-token throughput महत्वपूर्ण हो जाते हैं।
हाल ही में Claude के लिए Batch API plugin आया है, और Nvidia व Google भी inference के लिए custom silicon तैयार कर रहे हैं (लेख)
इसे industry standard बने हुए अभी 20 मिनट ही हुए हैं, और फिर भी अभी तक GPT-5.3-Codex इस्तेमाल करने वाले लोग हैं, यह देखकर हैरानी होती है
संभव है कि OpenAI इसे Openrouter पर Aurora Alpha नाम से test कर रहा हो।
मैंने Aider के साथ एक छोटा project चलाया, और इसने 10,000 input tokens तथा 1,000 output tokens को 500 tokens प्रति सेकंड की speed से process किया
मैंने यह पंक्ति देखी कि “नवीनतम models कई घंटों से लेकर कई दिनों तक autonomously काम कर सकते हैं,” लेकिन अभी तक मैंने कोई सच में उपयोगी output नहीं देखा है
आखिरकार बड़ी 3 कंपनियों में से एक को Cerebras इस्तेमाल करते देख रहे हैं। मैं इस दिन का लंबे समय से इंतज़ार कर रहा था