- Cerebras ने Qwen3-235B AI मॉडल पेश किया, जो 1,500 tokens प्रति सेकंड जनरेट करके लगभग त्वरित inference प्रदर्शन देता है
- मौजूदा closed-source मॉडलों की तुलना में 1/10 लागत पर 30 गुना तेज प्रोडक्टिविटी और code generation संभव
- 131K context support के साथ बड़े codebase और जटिल दस्तावेज़ों की प्रोसेसिंग संभव
- Cline के साथ साझेदारी कर Microsoft VS Code के भीतर real-time code generation अनुभव का विस्तार
- इस लॉन्च के साथ open source आधारित OpenAI, Anthropic के विकल्प के रूप में उच्च प्रदर्शन और उचित लागत उपलब्ध
Qwen3-235B: Cerebras का अल्ट्रा-फास्ट AI inference मॉडल लॉन्च और प्रमुख उपलब्धियां
दुनिया का सबसे तेज AI inference मॉडल, Cerebras Inference Cloud में पेश
- Cerebras Systems ने 8 जुलाई 2025 को Qwen3-235B को औपचारिक रूप से लॉन्च किया और 131K context तक पूर्ण support वाला नया AI inference मॉडल पेश किया
- यह मॉडल closed-source विकल्पों की तुलना में 1/10 लागत पर frontier-grade AI क्षमता और अल्ट्रा-फास्ट inference प्रदर्शन को जोड़कर enterprise AI अपनाने में बड़ा बदलाव पेश करता है
frontier मॉडल स्तर की बुद्धिमत्ता
- Alibaba के Qwen3-235B ने Claude 4 Sonnet, Gemini 2.5 Flash, DeepSeek R1 जैसे अत्याधुनिक प्रतिस्पर्धी मॉडलों के बराबर science, code, और general knowledge benchmark प्रदर्शन को Artificial Analysis के स्वतंत्र मूल्यांकन में साबित किया
- Mixture-of-Experts आर्किटेक्चर से compute efficiency को अधिकतम किया गया है, और इसे प्रति दस लाख input tokens पर $0.60, प्रति दस लाख output tokens पर $1.20 की दर पर उपलब्ध कराया गया है, जिससे यह मौजूदा closed-source मॉडलों की तुलना में बेहद सस्ता विकल्प बनता है
inference speed: मिनटों से सेकंड तक का बदलाव
- पारंपरिक inference AI को सामान्य queries पर भी अक्सर कई मिनट लग जाते हैं
- Wafer Scale Engine का उपयोग करते हुए Qwen3-235B ने 1,500 tokens प्रति सेकंड का output हासिल किया, जिससे query response समय 1~2 मिनट से घटकर 0.6 सेकंड रह गया
- इसके साथ code generation, reasoning, और बड़े RAG workflows में लगभग त्वरित प्रतिक्रिया संभव हुई, और real-time AI प्रदर्शन के लिए नया मानक स्थापित हुआ
- Artificial Analysis के मापन के अनुसार, इसे दुनिया का एकमात्र frontier AI मॉडल माना गया है जो 1,000 tokens प्रति सेकंड से अधिक जनरेट करता है
131K context: वास्तविक वातावरण में code generation के लिए support
- Qwen3-235B के लॉन्च के साथ Cerebras ने मौजूदा 32K context से 131K तक 4 गुना विस्तार का support दिया
- इससे बड़े codebase और जटिल दस्तावेज़ों पर एक बार में inference संभव होता है, और दर्जनों फाइलों तथा हजारों लाइनों के साथ एकसाथ code generation करके production environment के लिए development की संभावना काफी बढ़ती है
- मौजूदा 32K context के साथ केवल साधारण code generation संभव था, जबकि 131K context बड़े applications के development को भी सीधे support करता है
- इसके जरिए यह enterprise code generation market, जो generative AI के सबसे बड़े और सबसे तेजी से बढ़ते क्षेत्रों में से एक है, को सीधे target कर सकता है
Cline के साथ रणनीतिक साझेदारी से VS Code integration अनुभव मजबूत
- Cerebras ने 18 लाख से अधिक installations वाले सबसे बड़े VS Code coding agent Cline के साथ partnership की है
- सभी Cline उपयोगकर्ता editor के भीतर सीधे Qwen3-32B (64K context, free) का उपयोग कर सकते हैं, और बाद में Qwen3-235B (131K context) का support भी जोड़ा जाएगा
- DeepSeek R1 जैसे प्रतिस्पर्धियों की तुलना में 10~20 गुना तेज code generation speed देने की योजना है
- Cline के CEO Saoud Rizwan ने जोर देकर कहा कि “real-time reasoning की वजह से developers code और समस्याओं को explore करते हुए अपने सोचने की गति के बराबर workflow बनाए रख सकते हैं”
30 गुना speed और 1/10 लागत पर frontier AI विकल्प
- Cerebras का यह लॉन्च OpenAI और Anthropic जैसे commercial मॉडलों के समान स्तर की open आधारित model intelligence और code generation चाहने वाले developers के लिए नया विकल्प देता है
- खास तौर पर, 1,500 tokens प्रति सेकंड से अधिक की लगभग त्वरित inference speed को दुनिया में अकेले लागू कर, GPU आधारित प्रणालियों की तुलना में 10 गुना प्रोडक्टिविटी सुधार हासिल किया गया है
- token लागत भी प्रतिस्पर्धियों की तुलना में 1/10 से कम है, जिससे उचित लागत पर अल्ट्रा-फास्ट AI उपलब्ध होता है
Cerebras Systems का परिचय
- Cerebras Systems computer architecture, deep learning, research, और engineering विशेषज्ञों की टीम है, जो AI के लिए बड़े पैमाने की computing infrastructure में नवाचार पर केंद्रित है
- इसका प्रमुख उत्पाद CS-3 system दुनिया के सबसे बड़े commercial AI processor (Wafer-Scale Engine-3) से लैस है, और आसान व तेज clustering के जरिए बड़े AI supercomputer बनाए जा सकते हैं
- Cerebras Inference क्रांतिकारी inference speed प्रदान करता है, और research संस्थानों, enterprises, तथा सरकारों द्वारा high-performance dedicated मॉडल development और open source training के लिए उपयोग किया जा रहा है
- Cerebras Cloud और on-premise environments दोनों में समाधान उपलब्ध हैं
1 टिप्पणियां
Hacker News की राय
यह खबर शायद "पुरानी" हो सकती है; लगता है यह 8 जुलाई की है, और संभवतः इसे कल जारी हुए Qwen 3 coder 405B लॉन्च के साथ भ्रमित करके पेश किया गया है। दोनों मॉडलों के स्पेक अलग हैं
अगर यह पूरी तरह fp16 quant होता, तो पूरे 131k context के साथ इस्तेमाल करने के लिए 2TB memory चाहिए होती। Cerebras चिप में 44GB SRAM है, इसलिए 45 चिप्स को श्रृंखला में जोड़ना पड़ता, और यदि हर एक $3M का हो तो कुल $135M लगते। तुलना करें तो DGX B200 के दो सिस्टम से 2.8TB मिल सकता है और वह $1M में हो जाएगा। यानी $1M बनाम $135M। जब तक बहुत तेज inference speed की मांग वाले उच्च-मूल्य वाले काम न हों, जैसे hedge fund, financial markets आदि, यह कुशल नहीं लगता। अगर आगे चलकर Claude Opus 4 स्तर या उससे बेहतर मॉडल को करोड़ों context tokens और 1500 tokens/second की रफ़्तार पर बहुत सस्ते में चलाना संभव हो जाए, तो क्या होगा इसकी कल्पना भी मुश्किल है। लगता है hardware को अभी कई और पीढ़ियों तक आगे बढ़ना होगा
मैंने litellm proxy सेट किया, और Qwen-235B वाले नए Cerebras API से जोड़कर Aider के साथ टेस्ट किया। यह Claude code जितना अच्छा नहीं है, लेकिन speed बेहद तेज है। leaked claude code prompt के साथ भी Aider चलाकर देखा, लेकिन वह मनचाहे तरीके से काम नहीं करता। लगता है Claude code prompt, Claude के लिए optimized है। फिर भी इसे आज़माना सार्थक था और इसमें काफ़ी संभावना महसूस हुई। Aider बहुत तेज़ी से text उगलता है, कुछ install करता है, web calls करता है और बंद हो जाता है। सचमुच पलक झपकते। मेरे environment को reproduce करने के लिए यह config इस्तेमाल की जा सकती है:
चलाने का तरीका:
और फिर
ज़रूरी packages pip आदि से install करें। prompt.txt में leaked claude code prompt खुद ढूँढकर सेव करें
मैं बेसब्री से इंतज़ार कर रहा हूँ कि Cerebras पर Qwen 3 coder का support आए। मैं agent loops बहुत चलाता हूँ, और execution speed समय को जैसे compress कर देती है। अगर Claude 4 Sonnet स्तर का मॉडल 1000~1500 tokens/second पर चले, तो वह सचमुच क्रांतिकारी होगा। अगर इस speed का अहसास लेना हो, तो Cerebras Inference page, API, या Mistral / Le Chat के "Flash Answers" (Cerebras आधारित) जैसे विकल्पों में इसे सीधे आज़मा सकते हैं। 1000tok/s पर code iteration करना जादू जैसा लगता है
speed निश्चित रूप से अविश्वसनीय है, लेकिन मेरे अनुभव में Cerebras से वास्तविक production-grade rate limits या token quotas हासिल करना बहुत मुश्किल है। इसी वजह से हम इनके आधार पर system design नहीं कर सकते, इसलिए हम दूसरे vendors का उपयोग करते हैं। sales team से भी काफ़ी बात की, लेकिन जवाब यही मिला कि यह संभव नहीं है
जो लोग Claude Code और sonnet-4 का काफ़ी इस्तेमाल कर चुके हैं, क्या उनमें से किसी ने Claude Code और Qwen3-Coder की तुलना करके टेस्ट किया है? Cerebras की तेज़ speed आकर्षित करती है, लेकिन अगर model quality बदतर है तो मैं सिर्फ speed के लिए switch नहीं करूँगा
इसे "Full 131k" context कहा जा रहा है, लेकिन वास्तव में यह 262144 यानी दोगुना है, और yarn को 8x तक करने पर 20 लाख तक जाने की बात है। दरअसल Cerebras की भी context length की एक सैद्धांतिक सीमा है, जो Transformer architecture की सीमा है; इससे memory requirement लगभग linear बढ़ती है, और compute requirement चौगुनी हो जाती है। यानी लगता है Cerebras भी context length की वजह से 100% उपयोग नहीं कर पाता। साथ ही यह भी जिज्ञासा है कि quantization का सही तरीका क्या है, या ग्राहक यह जान ही नहीं सकते
speed सच में प्रभावशाली है। थोड़ा अलग विषय है, लेकिन मैं सोचता हूँ कि Qwen, Kimi जैसे models अपने देश की censorship/biased behavior के लिहाज़ से कैसे हैं
पिछले 10 सालों में Silicon Valley से निकली सबसे पागलपन भरी (और शानदार) तकनीकी उपलब्धियों में Cerebras एक है। 7~8 साल पहले जब मैं Andy से मिला था, तब dinner plate जितनी बड़ी chip और 6-ton clamping सुनकर लगा था कि यह असंभव है। लेकिन उन्होंने सचमुच इसे बना दिया, और अब देखकर लगता है कि यह अपने समय से बहुत आगे की चीज़ थी
मैं Macbook पर local qwen dev environment ढूँढ रहा हूँ। localforge + mlx_lm.server का combination आज़माया, लेकिन page पर भले proof-of-concept success लिखा हो, व्यवहार में “empty response” error मिलता है। अगर किसी का ऐसा ही अनुभव रहा हो तो सलाह दें