3 पॉइंट द्वारा GN⁺ 2026-02-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • रियल-टाइम कोडिंग के लिए डिज़ाइन किया गया GPT‑5.3‑Codex का छोटा संस्करण, जो 1000 टोकन/सेकंड से अधिक की गति प्रदान करता है
  • 128k context window पर आधारित केवल टेक्स्ट मॉडल, जो तुरंत कोड संशोधन और दोहराए जाने वाले कामों के लिए विशेष रूप से अनुकूलित है
  • WebSocket-आधारित response path की शुरुआत से response latency में 80% कमी, प्रति टोकन overhead में 30% कमी, पहला टोकन आउटपुट समय 50% कम
  • Cerebras के साथ सहयोग में विकसित, और Wafer Scale Engine 3 का उपयोग करने वाले हाई-स्पीड inference environment पर चलता है
  • दीर्घकालिक autonomous work और रियल-टाइम collaboration को जोड़ने वाली dual-mode Codex strategy का पहला चरण मॉडल

GPT‑5.3‑Codex‑Spark अवलोकन

  • GPT‑5.3‑Codex‑Spark, GPT‑5.3‑Codex का छोटा संस्करण है, और रियल-टाइम कोडिंग कार्यों के लिए डिज़ाइन किया गया पहला मॉडल है
    • अल्ट्रा-लो-लेटेंसी हार्डवेयर पर 1000 टोकन/सेकंड से अधिक की generation speed हासिल करता है
    • वास्तविक कोडिंग कार्यों में तुरंत responsiveness देता है
  • Cerebras के साथ सहयोग से विकसित पहला मॉडल, और OpenAI तथा Cerebras की साझेदारी का पहला milestone
  • ChatGPT Pro users के लिए research preview के रूप में उपलब्ध, जिसका उद्देश्य शुरुआती प्रयोग और feedback एकत्र करना है

प्रमुख फीचर और प्रदर्शन

  • 128k context window को सपोर्ट करता है, और फिलहाल केवल टेक्स्ट मॉडल के रूप में उपलब्ध है
  • SWE‑Bench Pro और Terminal‑Bench 2.0 benchmarks में GPT‑5.3‑Codex की तुलना में कम समय में बेहतर प्रदर्शन दिखाता है
  • स्पीड-केंद्रित optimization के कारण इसका डिफॉल्ट workflow हल्का और goal-oriented है, और अनुरोध न होने पर यह अपने-आप tests नहीं चलाता
  • रियल-टाइम collaboration संभव है, जिससे उपयोगकर्ता मॉडल की प्रगति को रोककर या फिर से निर्देश देकर तुरंत परिणाम देख सकते हैं

लेटेंसी और इन्फ्रास्ट्रक्चर optimization

  • मॉडल की गति के अलावा पूरी request-response pipeline की latency कम करने के लिए भी सुधार किए गए हैं
    • क्लाइंट-सर्वर round-trip overhead में 80% कमी
    • प्रति टोकन overhead में 30% कमी, पहला टोकन आउटपुट समय 50% कम
  • इसके लिए WebSocket-आधारित persistent connection और Responses API की आंतरिक optimization लागू की गई
  • ये सुधार सिर्फ Codex‑Spark ही नहीं बल्कि सभी मॉडलों पर लागू किए जाएंगे

Cerebras हार्डवेयर integration

  • Codex‑Spark Cerebras Wafer Scale Engine 3 पर चलता है, जो लेटेंसी-केंद्रित inference layer प्रदान करता है
  • OpenAI ने Cerebras के साथ मिलकर इस path को मौजूदा production serving stack में integrate किया, ताकि Codex में सुसंगत operating environment लागू किया जा सके
  • GPU infrastructure अब भी training और inference की नींव बना रहेगा, जबकि Cerebras ultra-low-latency workloads के लिए विशेष रूप से अनुकूल है और पूरक भूमिका निभाता है
  • GPU और Cerebras को एक ही workload में जोड़कर सर्वोत्तम प्रदर्शन हासिल किया जा सकता है

डिप्लॉयमेंट और एक्सेस

  • Codex‑Spark ChatGPT Pro users के लिए Codex app, CLI, और VS Code extension में research preview के रूप में उपलब्ध होना शुरू हो गया है
  • समर्पित usage limit (rate limit) लागू है, जिसे मांग के अनुसार समायोजित किया जा सकता है
  • कुछ design partners को API access दिया गया है, ताकि product integration के तरीकों पर feedback एकत्र किया जा सके
  • आने वाले कुछ हफ्तों में एक्सेस का दायरा बढ़ाया जाएगा और वास्तविक workloads के आधार पर integration को समायोजित किया जाएगा

सुरक्षा और आगे की दिशा

  • Codex‑Spark में मौजूदा mainline models जैसी ही safety training शामिल है, और इसने cyber-संबंधित evaluations पास किए हैं
  • मूल्यांकन से पुष्टि हुई कि यह cybersecurity और biology क्षेत्रों में high-risk capability threshold तक नहीं पहुंचता
  • Codex का विकास long-running reasoning और रियल-टाइम collaborative iterative work — इन दो मोड्स को जोड़ने की दिशा में हो रहा है
    • आगे चलकर multimodal input, बड़े मॉडल, लंबा context जैसी क्षमताओं का विस्तार किया जाएगा
  • अल्ट्रा-फास्ट inference विचारों को तुरंत executable software में बदलने की प्रक्रिया को तेज करता है, और अधिक प्राकृतिक interaction experience प्रदान करता है

1 टिप्पणियां

 
GN⁺ 2026-02-13
Hacker News की राय
  • अच्छा होता अगर HN पर इमेज अपलोड की जा सकतीं। WSE-3 चिप सच में बहुत विशाल है
    यह चिप 46,255mm² आकार की है, इसमें 4 ट्रिलियन ट्रांजिस्टर हैं, और 9 लाख AI-optimized cores के साथ 125 petaflops कंप्यूट देती है। यह NVIDIA B200 की तुलना में ट्रांजिस्टर में 19 गुना और कंप्यूट में 28 गुना अधिक है
    अधिक जानकारी के लिए Cerebras की आधिकारिक पेज, इमेज1, और इमेज2 देखें

    • लगता है इसमें बहुत ज्यादा heat निकलेगी, इसलिए cooling system महत्वपूर्ण होगा। उम्मीद है इसे renewable energy से power मिले
  • मैं coding agent का इस्तेमाल करके web-based slide deck अपने-आप बनाता हूँ। मैं “master slide” को component के रूप में define करता हूँ और company branding rules व assets लागू करता हूँ। फिर सिर्फ content और prompt डालने पर एक साफ-सुथरी presentation बन जाती है
    मैं वास्तव में improv mode चाहता हूँ। यानी presentation के दौरान audience के सवालों या अचानक आए ideas के आधार पर अगले 3 slide candidates सुझाए जाएँ, उनमें से एक चुनें, और फिर मुख्य flow में वापस लौट आएँ।
    उदाहरण के लिए, अगर किसी news article या paper का ज़िक्र हो तो अपने-आप screenshot और QR code वाली slide बन जाए, फिर presentation flow पर वापस आ जाए। अगर real-time voice + code generation जुड़ जाए तो presentation tools कहीं अधिक उपयोगी हो सकते हैं

    • मुझे ऐसी probabilistic presentation बहुत शानदार लगती है। नतीजा हैरान करने वाला भी हो सकता है, या मज़ेदार भी
    • हम Octigen में लगभग यही चीज़ बना रहे हैं। डेमो या alpha version access दे सकता हूँ
    • मैंने hackathon में कुछ ऐसा ही बनाया था। वह एक ऐसा system था जो presenter के tone और बोलने की speed के अनुसार teleprompter की गति समायोजित करता था। इसे improv mode तक बढ़ाया जाए तो यह सच में दिलचस्प होगा
    • एक professor के रूप में, जो lecture preparation में बहुत ज़्यादा समय लगाता है, मैं ऐसा system कक्षा में लाना चाहूँगा
    • क्या आप इसका कोई वास्तविक example दिखा सकते हैं?
  • मैंने Codex CLI में gpt-5.3-codex-spark इस्तेमाल किया, और यह बहुत तेज़ है लेकिन मॉडल का आकार छोटा लगता है
    मैंने अपने ‘bluey bench’ test (file system benchmark) में इसका प्रदर्शन मापा, और छोटे models में context efficiency कम होती है तथा compaction ज़्यादा बार होता है।
    फिर भी speed के मामले में यह पिछली generation से कहीं तेज़ है

    • आगे से सभी models के लिए standard benchmark bluey bench होना चाहिए
    • क्या आपने इसकी तुलना Opus 4.6 (thinking feature disabled) से की है? वह model भी काफ़ी तेज़ है
    • नाम पुराने Codex जैसा है, लेकिन performance बहुत कम है, यह थोड़ा अजीब लगता है
  • मुझे लगता है Cerebras अब भी एक कम आंका गया company है। प्लेट जितने आकार की चिप सच में काम करती है, और real-world use में भी बाकी सब से तेज़ है। कमाल की technology है

    • अब लगता है Nvidia का दौर खत्म हो रहा है। Google TPUv9 के साथ inference efficiency को 4 गुना बढ़ाने वाला है, और Cerebras agent workloads में कहीं तेज़ है। power efficiency और cost के मामले में भी Google आगे है।
      power infrastructure bottleneck बना हुआ है, और अमेरिका में कम समय में बड़े power plants बनाना संभव नहीं है। इसलिए TPUv8 के बाद शायद Google ही market lead करेगा
    • दरअसल यह चिप ‘प्लेट के आकार’ की इसलिए है क्योंकि पूरा wafer ही एक single chip के रूप में इस्तेमाल होता है। wafer-scale integration पर दशकों से research होती रही है
    • नुकसान यह है कि कीमत बहुत ज़्यादा है
    • फिर भी investors अभी भी Nvidia में पैसा लगा रहे हैं
    • लेकिन यह चिप प्रति यूनिट 10 लाख डॉलर से अधिक की है, और एक rack में सिर्फ 1 ही लग सकती है। density और memory capacity कम है। आखिर Nvidia ने Groq के अधिग्रहण पर 20 billion dollar खर्च किए हैं, इसलिए Cerebras के acquire होने की संभावना भी कम है
  • मेरा Pelican benchmark GPT-5.3-Codex-Spark और पूरे GPT-5.3-Codex के बीच quality का अंतर visually दिखाता है
    अधिक जानकारी के लिए blog post देखें

    • हर बार नया model आते ही मैं ऐसे benchmarks का इंतज़ार करता हूँ। ये कई factors को एक साथ दिखाते हैं, इसलिए उपयोगी हैं। blog भी शानदार है
  • coding agent के जरिए priority queue / tiered workload offload का idea दिलचस्प है।
    अगर 60% काम साधारण edits या refactoring है, तो low-latency और high-token throughput महत्वपूर्ण हो जाते हैं।
    हाल ही में Claude के लिए Batch API plugin आया है, और Nvidia व Google भी inference के लिए custom silicon तैयार कर रहे हैं (लेख)

    • लेकिन Batch API में latency बहुत अधिक होती है। bulk tasks के लिए यह अच्छा है, पर एक बार के round trip में 24 घंटे तक लग सकते हैं। ऊपर से Codex या Pro models Batch API में supported नहीं हैं
    • मैंने Claude के लिए एक MCP बनाया है जिससे वह Cerebras पर चल रहे GLM 4.7 को development आउटसोर्स करने जैसा इस्तेमाल कर सकता है। मैंने Claude को system prompt, output files, और context files specify करने दिए, और development speed काफी बढ़ गई
  • इसे industry standard बने हुए अभी 20 मिनट ही हुए हैं, और फिर भी अभी तक GPT-5.3-Codex इस्तेमाल करने वाले लोग हैं, यह देखकर हैरानी होती है

    • मैंने भी title देखकर सोचा, “अगर GPT announcement है तो Google या Anthropic ने भी कुछ निकाला होगा,” और सच में Gemini था
  • संभव है कि OpenAI इसे Openrouter पर Aurora Alpha नाम से test कर रहा हो।
    मैंने Aider के साथ एक छोटा project चलाया, और इसने 10,000 input tokens तथा 1,000 output tokens को 500 tokens प्रति सेकंड की speed से process किया

  • मैंने यह पंक्ति देखी कि “नवीनतम models कई घंटों से लेकर कई दिनों तक autonomously काम कर सकते हैं,” लेकिन अभी तक मैंने कोई सच में उपयोगी output नहीं देखा है

    • मैं पूछना चाहूँगा कि आपने इसे कितना आज़माया है। Opus 4.6 या GPT-5.3 long-running tasks में स्पष्ट रूप से बेहतर हुए हैं। उदाहरण के लिए, यह project और demo page सिर्फ एक ही prompt से पूरे हुए थे (prompt link)
    • मैं अक्सर Codex को रातभर चलाकर bugs ढूँढने देता हूँ। debugging automation के लिए यह वास्तव में आदर्श है
    • model की यह क्षमता प्रभावशाली है कि वह रुके बिना tokens जलाता रहता है
    • “हमारा model इतना धीमा है कि काम में कई घंटे लगते हैं” जैसी line मज़ेदार लगती है। यह कोई शेखी मारने वाली बात नहीं लगती
    • कुछ दिन पहले Codex ने मेरी company site का Vite 8 upgrade 3 घंटे से ज़्यादा समय तक अकेले किया। अब वह वास्तव में production में लागू है
  • आखिरकार बड़ी 3 कंपनियों में से एक को Cerebras इस्तेमाल करते देख रहे हैं। मैं इस दिन का लंबे समय से इंतज़ार कर रहा था

    • शुरू में यह unproven technology होने के कारण लोग हिचकते थे, लेकिन अब लगता है कि speed के मामले में इसने बड़ी छलांग लगाई है