1 पॉइंट द्वारा GN⁺ 2025-07-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Cerebras ने Qwen3-235B AI मॉडल पेश किया, जो 1,500 tokens प्रति सेकंड जनरेट करके लगभग त्वरित inference प्रदर्शन देता है
  • मौजूदा closed-source मॉडलों की तुलना में 1/10 लागत पर 30 गुना तेज प्रोडक्टिविटी और code generation संभव
  • 131K context support के साथ बड़े codebase और जटिल दस्तावेज़ों की प्रोसेसिंग संभव
  • Cline के साथ साझेदारी कर Microsoft VS Code के भीतर real-time code generation अनुभव का विस्तार
  • इस लॉन्च के साथ open source आधारित OpenAI, Anthropic के विकल्प के रूप में उच्च प्रदर्शन और उचित लागत उपलब्ध

Qwen3-235B: Cerebras का अल्ट्रा-फास्ट AI inference मॉडल लॉन्च और प्रमुख उपलब्धियां

दुनिया का सबसे तेज AI inference मॉडल, Cerebras Inference Cloud में पेश

  • Cerebras Systems ने 8 जुलाई 2025 को Qwen3-235B को औपचारिक रूप से लॉन्च किया और 131K context तक पूर्ण support वाला नया AI inference मॉडल पेश किया
  • यह मॉडल closed-source विकल्पों की तुलना में 1/10 लागत पर frontier-grade AI क्षमता और अल्ट्रा-फास्ट inference प्रदर्शन को जोड़कर enterprise AI अपनाने में बड़ा बदलाव पेश करता है

frontier मॉडल स्तर की बुद्धिमत्ता

  • Alibaba के Qwen3-235B ने Claude 4 Sonnet, Gemini 2.5 Flash, DeepSeek R1 जैसे अत्याधुनिक प्रतिस्पर्धी मॉडलों के बराबर science, code, और general knowledge benchmark प्रदर्शन को Artificial Analysis के स्वतंत्र मूल्यांकन में साबित किया
  • Mixture-of-Experts आर्किटेक्चर से compute efficiency को अधिकतम किया गया है, और इसे प्रति दस लाख input tokens पर $0.60, प्रति दस लाख output tokens पर $1.20 की दर पर उपलब्ध कराया गया है, जिससे यह मौजूदा closed-source मॉडलों की तुलना में बेहद सस्ता विकल्प बनता है

inference speed: मिनटों से सेकंड तक का बदलाव

  • पारंपरिक inference AI को सामान्य queries पर भी अक्सर कई मिनट लग जाते हैं
  • Wafer Scale Engine का उपयोग करते हुए Qwen3-235B ने 1,500 tokens प्रति सेकंड का output हासिल किया, जिससे query response समय 1~2 मिनट से घटकर 0.6 सेकंड रह गया
  • इसके साथ code generation, reasoning, और बड़े RAG workflows में लगभग त्वरित प्रतिक्रिया संभव हुई, और real-time AI प्रदर्शन के लिए नया मानक स्थापित हुआ
  • Artificial Analysis के मापन के अनुसार, इसे दुनिया का एकमात्र frontier AI मॉडल माना गया है जो 1,000 tokens प्रति सेकंड से अधिक जनरेट करता है

131K context: वास्तविक वातावरण में code generation के लिए support

  • Qwen3-235B के लॉन्च के साथ Cerebras ने मौजूदा 32K context से 131K तक 4 गुना विस्तार का support दिया
  • इससे बड़े codebase और जटिल दस्तावेज़ों पर एक बार में inference संभव होता है, और दर्जनों फाइलों तथा हजारों लाइनों के साथ एकसाथ code generation करके production environment के लिए development की संभावना काफी बढ़ती है
  • मौजूदा 32K context के साथ केवल साधारण code generation संभव था, जबकि 131K context बड़े applications के development को भी सीधे support करता है
  • इसके जरिए यह enterprise code generation market, जो generative AI के सबसे बड़े और सबसे तेजी से बढ़ते क्षेत्रों में से एक है, को सीधे target कर सकता है

Cline के साथ रणनीतिक साझेदारी से VS Code integration अनुभव मजबूत

  • Cerebras ने 18 लाख से अधिक installations वाले सबसे बड़े VS Code coding agent Cline के साथ partnership की है
  • सभी Cline उपयोगकर्ता editor के भीतर सीधे Qwen3-32B (64K context, free) का उपयोग कर सकते हैं, और बाद में Qwen3-235B (131K context) का support भी जोड़ा जाएगा
  • DeepSeek R1 जैसे प्रतिस्पर्धियों की तुलना में 10~20 गुना तेज code generation speed देने की योजना है
  • Cline के CEO Saoud Rizwan ने जोर देकर कहा कि “real-time reasoning की वजह से developers code और समस्याओं को explore करते हुए अपने सोचने की गति के बराबर workflow बनाए रख सकते हैं”

30 गुना speed और 1/10 लागत पर frontier AI विकल्प

  • Cerebras का यह लॉन्च OpenAI और Anthropic जैसे commercial मॉडलों के समान स्तर की open आधारित model intelligence और code generation चाहने वाले developers के लिए नया विकल्प देता है
  • खास तौर पर, 1,500 tokens प्रति सेकंड से अधिक की लगभग त्वरित inference speed को दुनिया में अकेले लागू कर, GPU आधारित प्रणालियों की तुलना में 10 गुना प्रोडक्टिविटी सुधार हासिल किया गया है
  • token लागत भी प्रतिस्पर्धियों की तुलना में 1/10 से कम है, जिससे उचित लागत पर अल्ट्रा-फास्ट AI उपलब्ध होता है

Cerebras Systems का परिचय

  • Cerebras Systems computer architecture, deep learning, research, और engineering विशेषज्ञों की टीम है, जो AI के लिए बड़े पैमाने की computing infrastructure में नवाचार पर केंद्रित है
  • इसका प्रमुख उत्पाद CS-3 system दुनिया के सबसे बड़े commercial AI processor (Wafer-Scale Engine-3) से लैस है, और आसान व तेज clustering के जरिए बड़े AI supercomputer बनाए जा सकते हैं
  • Cerebras Inference क्रांतिकारी inference speed प्रदान करता है, और research संस्थानों, enterprises, तथा सरकारों द्वारा high-performance dedicated मॉडल development और open source training के लिए उपयोग किया जा रहा है
  • Cerebras Cloud और on-premise environments दोनों में समाधान उपलब्ध हैं

1 टिप्पणियां

 
GN⁺ 2025-07-24
Hacker News की राय
  • यह खबर शायद "पुरानी" हो सकती है; लगता है यह 8 जुलाई की है, और संभवतः इसे कल जारी हुए Qwen 3 coder 405B लॉन्च के साथ भ्रमित करके पेश किया गया है। दोनों मॉडलों के स्पेक अलग हैं

    • पहले मुझे लगा यह दो दिन पहले घोषित Qwen3-235B-A22B-Instruct-2507 (लिंक) के बारे में है। वह मॉडल reasoning-रहित है, और Cerebras की घोषणा में reasoning का ज़िक्र है, इसलिए समझ आया कि यह खबर अप्रैल में आए Qwen3-235B-A22B की है। मॉडल का नाम काफ़ी भ्रमित करता है
  • अगर यह पूरी तरह fp16 quant होता, तो पूरे 131k context के साथ इस्तेमाल करने के लिए 2TB memory चाहिए होती। Cerebras चिप में 44GB SRAM है, इसलिए 45 चिप्स को श्रृंखला में जोड़ना पड़ता, और यदि हर एक $3M का हो तो कुल $135M लगते। तुलना करें तो DGX B200 के दो सिस्टम से 2.8TB मिल सकता है और वह $1M में हो जाएगा। यानी $1M बनाम $135M। जब तक बहुत तेज inference speed की मांग वाले उच्च-मूल्य वाले काम न हों, जैसे hedge fund, financial markets आदि, यह कुशल नहीं लगता। अगर आगे चलकर Claude Opus 4 स्तर या उससे बेहतर मॉडल को करोड़ों context tokens और 1500 tokens/second की रफ़्तार पर बहुत सस्ते में चलाना संभव हो जाए, तो क्या होगा इसकी कल्पना भी मुश्किल है। लगता है hardware को अभी कई और पीढ़ियों तक आगे बढ़ना होगा

    • “Cerebras चिप पर 44GB SRAM, 45 चिप्स श्रृंखला में, कुल $135M” वाली गणना ग़लत है। 44GB SRAM यानी on-chip memory है, जबकि ज़्यादातर model parameters HBM में रखे जाते हैं। उदाहरण के लिए GB200 में SRAM सिर्फ 126MB है; अगर cache capacity देखकर 2TB मॉडल के लिए ज़रूरी चिप्स की संख्या निकालें, तो नतीजा बेतुका आएगा। Cerebras में HBM को चिप से अलग स्केल किया जा सकता है, और MemoryX जैसी systems के ज़रिए लगभग 2PB तक जोड़ा जा सकता है(संबंधित लेख)। मैं विशेषज्ञ तो नहीं हूँ, लेकिन Cerebras architecture में memory limits इससे कहीं ज़्यादा व्यापक लगती हैं
    • चिप के भीतर का SRAM पूरी तरह अस्थायी working memory है; उसमें पूरे model weights रखने की ज़रूरत नहीं होती। Cerebras sparse weights तरीके का उपयोग करता है, जिसमें बाहरी memory से सिर्फ ज़रूरी data stream किया जाता है, और cores transfer-triggered तरीके से काम करते हैं
    • “चल सकता है/नहीं चल सकता” वाला नज़रिया बहुत ज़्यादा सरल है। असली मुद्दा throughput है, यानी पूरे system को कितने users में बाँटा जा सकता है। golf cart और train दोनों पूर्वी तट से पश्चिमी तट तक जा सकते हैं, लेकिन उनकी economics अलग होती है। minimum deployment size ज़रूर मायने रखती है, लेकिन अगर कोई बड़ा cloud API के रूप में tokens बेच रहा हो, तो ग्राहक के लिए यह उतना मायने नहीं रखता
    • inference को fixed fp16 में चलाने की ज़रूरत नहीं है। आजकल quantization formats अलग-अलग layers को अलग precision दे सकते हैं, इसलिए औसतन 6 bit/parameter पर भी लगभग कोई फ़र्क महसूस नहीं होता। बहुत ज़्यादा compress करने पर भी 8 bit/parameter काफ़ी होते हैं। यह memory में बहुत बड़ी बचत है
    • हमारी chips $3M प्रति unit नहीं हैं। यह आँकड़ा कहाँ से आया पता नहीं, लेकिन यह पूरी तरह ग़लत जानकारी है
  • मैंने litellm proxy सेट किया, और Qwen-235B वाले नए Cerebras API से जोड़कर Aider के साथ टेस्ट किया। यह Claude code जितना अच्छा नहीं है, लेकिन speed बेहद तेज है। leaked claude code prompt के साथ भी Aider चलाकर देखा, लेकिन वह मनचाहे तरीके से काम नहीं करता। लगता है Claude code prompt, Claude के लिए optimized है। फिर भी इसे आज़माना सार्थक था और इसमें काफ़ी संभावना महसूस हुई। Aider बहुत तेज़ी से text उगलता है, कुछ install करता है, web calls करता है और बंद हो जाता है। सचमुच पलक झपकते। मेरे environment को reproduce करने के लिए यह config इस्तेमाल की जा सकती है:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    चलाने का तरीका:

    litellm --config config.yaml --port 4000 --debug
    

    और फिर

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    ज़रूरी packages pip आदि से install करें। prompt.txt में leaked claude code prompt खुद ढूँढकर सेव करें

  • मैं बेसब्री से इंतज़ार कर रहा हूँ कि Cerebras पर Qwen 3 coder का support आए। मैं agent loops बहुत चलाता हूँ, और execution speed समय को जैसे compress कर देती है। अगर Claude 4 Sonnet स्तर का मॉडल 1000~1500 tokens/second पर चले, तो वह सचमुच क्रांतिकारी होगा। अगर इस speed का अहसास लेना हो, तो Cerebras Inference page, API, या Mistral / Le Chat के "Flash Answers" (Cerebras आधारित) जैसे विकल्पों में इसे सीधे आज़मा सकते हैं। 1000tok/s पर code iteration करना जादू जैसा लगता है

    • बिल्कुल यही बात है। ऐसी speed पर मेरी productivity बहुत बढ़ जाती है। हर बार agent का इंतज़ार करते हुए focus और context टूट जाता है। parallel में चलाने से speed तो मिलती है, लेकिन focus की क़ीमत पर। अगर Cursor जैसे IDE में लगभग तुरंत iteration loops चलें, तो वह और भी जादुई लगेगा। और ऐसी speed पर काम करने का तरीका ही बदल जाएगा। Cursor जैसा interactive IDE, command-line आधारित Claude code से कहीं ज़्यादा स्वाभाविक लगेगा
    • मेरे साथ भी यही है। लेकिन Cerebras की API को और ज़्यादा OpenAI-compatible होना होगा। मैंने कई code agents, जिनमें Cline भी शामिल है, के साथ मौजूदा models चलाकर देखे, लेकिन 400 errors या tool-calling format issues की वजह से कुछ भी नहीं चला। यह निराशाजनक था
    • कुछ दिन पहले मैंने Groq पर Kimi K2 सेट किया और उसकी speed देखकर हैरान रह गया। अब सोच रहा हूँ कि Qwen 3 और Cerebras पर स्विच करूँ या नहीं। (वैसे, नाम सुनकर मुझे Starcraft zerg hierarchy का cerebrate याद आता है, और बचपन की दिलचस्प यादें ताज़ा हो जाती हैं)
    • अगर LLM agents की speed इसी तरह बढ़ती रही, तो हो सकता है कि development process में compilation time ही bottleneck बन जाए। तब compiler performance सुधारने के लिए आर्थिक प्रोत्साहन पैदा होगा
  • speed निश्चित रूप से अविश्वसनीय है, लेकिन मेरे अनुभव में Cerebras से वास्तविक production-grade rate limits या token quotas हासिल करना बहुत मुश्किल है। इसी वजह से हम इनके आधार पर system design नहीं कर सकते, इसलिए हम दूसरे vendors का उपयोग करते हैं। sales team से भी काफ़ी बात की, लेकिन जवाब यही मिला कि यह संभव नहीं है

  • जो लोग Claude Code और sonnet-4 का काफ़ी इस्तेमाल कर चुके हैं, क्या उनमें से किसी ने Claude Code और Qwen3-Coder की तुलना करके टेस्ट किया है? Cerebras की तेज़ speed आकर्षित करती है, लेकिन अगर model quality बदतर है तो मैं सिर्फ speed के लिए switch नहीं करूँगा

    • मैंने Qwen नहीं आज़माया, लेकिन Groq वगैरह पर “instant token” inference services और diffusion models के साथ LLaMA-आधारित code generators इस्तेमाल किए हैं, और नतीजे संतोषजनक नहीं थे। अगर Gemini 2.5 pro या Sonnet 4 स्तर का मॉडल Cerebras पर सेकंडों में दसियों हज़ार lines का code निकाल दे, तो सचमुच पूरा खेल बदल जाएगा
  • इसे "Full 131k" context कहा जा रहा है, लेकिन वास्तव में यह 262144 यानी दोगुना है, और yarn को 8x तक करने पर 20 लाख तक जाने की बात है। दरअसल Cerebras की भी context length की एक सैद्धांतिक सीमा है, जो Transformer architecture की सीमा है; इससे memory requirement लगभग linear बढ़ती है, और compute requirement चौगुनी हो जाती है। यानी लगता है Cerebras भी context length की वजह से 100% उपयोग नहीं कर पाता। साथ ही यह भी जिज्ञासा है कि quantization का सही तरीका क्या है, या ग्राहक यह जान ही नहीं सकते

    • model page पर लिखा है कि 32768 native है और 4x YaRN पर performance validate की गई है(लिंक)। यह लगभग 131k से मेल खाता लगता है
  • speed सच में प्रभावशाली है। थोड़ा अलग विषय है, लेकिन मैं सोचता हूँ कि Qwen, Kimi जैसे models अपने देश की censorship/biased behavior के लिहाज़ से कैसे हैं

    • Qwen models को open models में भी बहुत उच्च गुणवत्ता वाला माना जाता है, खासकर MoE structure में। साथ ही, इनमें बहुत कड़ी censorship भी है। “Tiananmen Square में क्या हुआ था” से लेकर “मुख्य विरोध प्रदर्शन” या “क्या यह tanks से जुड़ा है?” जैसी बातें पूछने पर भी यह सीधे जवाब देने के बजाय बस इतना कहता है कि वह चौक सुंदर और ऐतिहासिक है
  • पिछले 10 सालों में Silicon Valley से निकली सबसे पागलपन भरी (और शानदार) तकनीकी उपलब्धियों में Cerebras एक है। 7~8 साल पहले जब मैं Andy से मिला था, तब dinner plate जितनी बड़ी chip और 6-ton clamping सुनकर लगा था कि यह असंभव है। लेकिन उन्होंने सचमुच इसे बना दिया, और अब देखकर लगता है कि यह अपने समय से बहुत आगे की चीज़ थी

    • concept शानदार है, लेकिन क्या वास्तव में कोई Nvidia के बजाय Cerebras का उपयोग कर रहा है?
    • दरअसल यह hpc और FLOPS के लिए डिज़ाइन किया गया है, इसलिए llm inference में आख़िरकार memory bandwidth ज़्यादा महत्वपूर्ण होती है
    • यह पुराने विचार की आधुनिक व्याख्या है। मैंने पहली बार यूरोपीय research में wafer-scale, analog, neural networks पर papers देखे थे। मुझे एक और project भी मिला। (paper 1, paper 2). दूसरा paper 1989 का है, इसलिए उसके patents भी अब समाप्त हो चुके होंगे
    • wafer-scale integration पर तो दशकों पहले भी काम हो चुका है
  • मैं Macbook पर local qwen dev environment ढूँढ रहा हूँ। localforge + mlx_lm.server का combination आज़माया, लेकिन page पर भले proof-of-concept success लिखा हो, व्यवहार में “empty response” error मिलता है। अगर किसी का ऐसा ही अनुभव रहा हो तो सलाह दें

    • हो सकता है मैं आपका सवाल ठीक से न समझ रहा हूँ, लेकिन ollama के साथ मैं Macbook Pro (32GB) पर local qwen inference बहुत अच्छे से चला रहा हूँ