- Jalapeño(हलापेन्यो) LLM inference के लिए खास तौर पर बनाया गया accelerator है और Broadcom के साथ विकसित की जा रही multi-generation computing platform का पहला नतीजा है
- डिज़ाइन शुरू होने से लेकर manufacturing tape-out तक सिर्फ 9 महीने लगे, जिसे high-performance advanced semiconductor क्षेत्र में अब तक का सबसे तेज़ ASIC development cycle माना जा रहा है
- शुरुआती टेस्ट में सामान्य AI GPU की तुलना में लगभग 50% लागत बचत दिखी, और performance per watt भी मौजूदा state-of-the-art से काफी बेहतर है
- chip architecture से लेकर kernel, memory और networking तक सीधे डिज़ाइन करने वाली full-stack strategy के तहत, Nvidia GPU पर निर्भरता घटाने और एक software company से आगे बढ़कर AI infrastructure provider बनने का लक्ष्य
- 2026 के अंत से Microsoft समेत साझेदारों के gigawatt-scale data center में तैनाती की योजना, और 1 ट्रिलियन डॉलर के IPO से पहले profitability साबित करने के दबाव के बीच इसका महत्व बढ़ा
Jalapeño चिप का अनावरण
- बुधवार को OpenAI और Broadcom(NASDAQ: AVGO) ने OpenAI का पहला Intelligence Processor Jalapeño(हलापेन्यो) पेश किया
- यह LLM inference के भविष्य को ध्यान में रखकर डिज़ाइन किया गया accelerator है और दोनों कंपनियों की multi-generation computing platform का पहला AI accelerator है
- Broadcom के chairman और CEO Hock Tan तथा president Charlie Kawwas ने OpenAI CEO Sam Altman और president Greg Brockman को सीधे chip sample सौंपे
- यह consumer product से आगे बढ़कर AI infrastructure provider बनने की OpenAI रणनीति का अहम चरण है
चिप संरचना और प्रदर्शन
- Jalapeño कोई ऐसा general-purpose chip नहीं है जिसे मौजूदा AI workload accelerators से बदलकर बनाया गया हो, बल्कि यह आधुनिक LLM inference के लिए blank-slate design है
- यह एक ASIC है जिसे खास AI कार्यों के लिए डिज़ाइन किया जा सकता है; Nvidia GPU की तुलना में इसकी flexibility कम है, लेकिन लागत भी कम है
-
प्रदर्शन और दक्षता
- शुरुआती टेस्ट में सामान्य AI GPU की तुलना में लगभग 50% लागत बचत (Hock Tan इंटरव्यू)
- अंतिम प्रदर्शन का मापन अभी जारी है, लेकिन performance per watt मौजूदा state-of-the-art की तुलना में काफी बेहतर स्तर पर है
- data movement कम करके और compute, memory तथा networking resources का संतुलन बनाकर, वास्तविक utilization को सैद्धांतिक अधिकतम प्रदर्शन के करीब लाया गया है
- जारी की गई chip image में 8 HBM sites और बीच में compute die दिखाई देता है
-
संचालन सत्यापन
- engineering sample production target frequency और power पर ML workloads चला रहे हैं, जिनमें GPT‑5.3‑Codex‑Spark शामिल है
- विस्तृत तकनीकी रिपोर्ट अगले कुछ महीनों में जारी होने की योजना है
- Broadcom का silicon implementation और Tomahawk networking silicon बड़े पैमाने पर production को समर्थन देंगे
9 महीने में tape-out, OpenAI मॉडल से मिली रफ़्तार
- शुरुआती डिज़ाइन से manufacturing tape-out तक सिर्फ 9 महीने में संयुक्त विकास पूरा हुआ, जिसे high-performance advanced semiconductor क्षेत्र में अब तक का सबसे तेज़ ASIC development cycle माना जा रहा है
- डिज़ाइन और optimization प्रक्रिया के कुछ हिस्सों में OpenAI के स्वयं के मॉडल इस्तेमाल किए गए; Brockman ने कहा कि मॉडल ने विकास को जितनी गति दी, वह "हैरान कर देने वाली" थी
- वही मॉडल जो उपयोगकर्ताओं को दिए जाते हैं, आगे चलकर मॉडल चलाने वाली infrastructure को बेहतर बनाने में भी योगदान देंगे
- अगर AI इंजीनियरों को तेज़ी से बेहतर चिप डिज़ाइन करने में मदद करती है, तो इससे पूरे उद्योग में computing cost घट सकती है और advanced AI की पहुँच बढ़ सकती है
multi-generation platform और साझेदार
- Jalapeño, 2026 के अंत में शुरुआती deployment को लक्ष्य बनाकर, आने वाले वर्षों में विस्तार पाने वाली multi-generation computing platform का पहला चरण है
-
सहयोग संरचना
- OpenAI — accelerator design, LLM की बुनियादी समझ के आधार पर
- Broadcom — chip implementation, networking और connectivity technology
- Celestica — board, rack और system integration में विशेषज्ञता
- पिछले साल OpenAI और Broadcom ने 10 gigawatt computing scale के लिए custom chip development plan की घोषणा की थी, और अब उसका पहला chip पेश किया गया है
-
विस्फोटक मांग
- Broadcom CEO Hock Tan ने कहा कि 2026 से Microsoft जैसे साझेदारों के साथ gigawatt-scale data center deployment संभव होगा; 2026 के अंत में छोटे prototype के बाद विस्तार की योजना है
- Brockman ने कहा, "हम पर्याप्त तेज़ी से computing हासिल नहीं कर पा रहे हैं"; Tan ने कहा कि 6 ग्राहकों की मांग "वास्तव में पूरी करना असंभव है" और 2027~2028 में भी यह समान या उससे अधिक रहेगी
- OpenAI hardware program प्रमुख Richard Ho ने बताया कि architecture को frontier AI models के लिए सबसे अहम kernels, memory movement, networking और serving patterns के इर्द-गिर्द optimize किया गया है
full-stack strategy और प्रतिस्पर्धी परिदृश्य
- OpenAI frontier models विकसित करने और products बनाने से आगे बढ़कर, उसके नीचे की infrastructure भी खुद डिज़ाइन कर रही है — इसमें chip architecture, kernels, memory system, networking, scheduling, deployment system, product experience शामिल हैं
- इससे OpenAI, Google(TPU), Amazon(Trainium), Microsoft(Azure Maia 100) की तरह खुद का silicon रखने वाले full-stack AI providers की कतार में शामिल हो गई
-
Nvidia पर निर्भरता कम करना
- "कोई भी Nvidia पर निर्भर नहीं रहना चाहता" (Quilter Cheviot में technology research के प्रमुख Ben Barringer), यानी chip supply diversification की प्रवृत्ति
- OpenAI, Nvidia के सबसे बड़े ग्राहकों में से एक होने के साथ-साथ AMD(Instinct MI450 series), Cerebras आदि के साथ भी supply agreements कर चुकी है
-
कारोबारी महत्व
- AI data center के मुख्य components की आपूर्ति के चलते Nvidia दुनिया की सबसे मूल्यवान कंपनी बन चुकी है, जिससे AI infrastructure बाज़ार की कमाई क्षमता उजागर होती है
- लगभग 1 ट्रिलियन डॉलर valuation वाले संभावित IPO से पहले OpenAI के लिए inference cost घटाना, भारी training cost की भरपाई और profitability साबित करने की कुंजी है
- Broadcom का शेयर 2026 में अब तक बढ़ा है और 2022 के अंत की तुलना में लगभग 7 गुना स्तर पर है, जो इस साझेदारी के लाभ को दर्शाता है
advanced AI का जनसुलभीकरण
- inference वह बिंदु है जहाँ AI लोगों से मिलता है; लागत, गति और reliability में सुधार का सीधा मतलब है ChatGPT के तेज़ जवाब, बिना प्रतीक्षा वाला Codex काम, सस्ते API products, और मांग बढ़ने पर अधिक स्थिर access
- advanced models को इतने अधिक लोगों के लिए उपलब्ध, स्थिर और किफायती बनाना कि वे उन्हें रोज़ इस्तेमाल कर सकें, यही AI के जनसुलभीकरण की कुंजी है
- छात्र, developer, छोटे कारोबारी, researcher और enterprises सहित सीखने, बनाने और कठिन समस्याएँ सुलझाने की कोशिश करने वाले सभी लोगों के लिए infrastructure को उपयोगी intelligence में बदलने में यह योगदान देगा
1 टिप्पणियां
Hacker News की राय
“OpenAI मॉडल से design और optimization तेज़ किया गया” वाले हिस्से पर और विस्तार देखना चाहूँगा
अभी की wording देखकर यह वैसा लगता है जैसे कहा जा रहा हो कि Microsoft Office या 5K LG Ultrafine 40-इंच मॉनिटर की वजह से development तेज़ हो गया — यानी एक marketing line
अगर यह सच में उतनी बड़ी बात है जितना इशारा किया गया है, तो OpenAI इसे कहीं ज़्यादा ज़ोर से सामने लाता
यह साफ़ नहीं है कि “design” का मतलब design complete है या “production” का मतलब production start, यानी tapeout, है
अगर RTL freeze से tapeout तक 9 महीने लगे, तो बड़े और जटिल 3nm chip के हिसाब से यह काफ़ी सामान्य timeline है, और अनपेक्षित issues को जोड़ें तो थोड़ा भी खास प्रभावशाली नहीं लगता
इसके उलट, अगर concept stage — यानी RTL के बिना सिर्फ architecture block diagram — से tapeout तक पहुँचे हों, तो यह चौंकाने वाली timeline होगी, और असलियत शायद इन दोनों के बीच कहीं होगी
अगर announcement ज़्यादा specific होती, तो उसमें असली technical milestones और gates इस्तेमाल किए जाने चाहिए थे
chip design workflow में large language model इस्तेमाल करने के लिए कोई अलग specialized model ज़रूरी हो, ऐसा नहीं है
design verification में भी traditional programming काफ़ी होती है, इसलिए वहाँ भी large language model मदद कर सकते हैं
यह पूरी तरह बेमतलब बात नहीं है; आज अगर आप open source chip design software डाउनलोड करें, तो large language model छोटे chip पर सीधे शुरुआत करने में भी मदद कर सकते हैं
इस inference chip के मुश्किल हिस्से Broadcom ने शायद पहले ही design कर रखे होंगे, और OpenAI ने संभवतः अपनी desired specs Broadcom को दी होंगी
यह Google TPU से भी काफ़ी मिलता-जुलता हो सकता है
कहा गया है कि “पहली पीढ़ी का accelerator मौजूदा state-of-the-art की तुलना में performance per watt को काफ़ी बढ़ाएगा”, लेकिन यहाँ “काफ़ी” से उनका मतलब क्या है, यह जानना चाहूँगा
Vera Rubin का mass shipment इस साल के अंत तक तय है, और Blackwell की तुलना में inference power efficiency 10 गुना ज़्यादा होने की उम्मीद है[0]
चाहे tapeout हो भी चुका हो, फिर भी bug fixes, chip fabrication, HBM allocation, rack design, interconnect, और data center deployment तक पहुँचने में कम से कम 12 महीने, शायद उससे भी ज़्यादा लगेंगे
जब तक यह chip data centers में बड़े पैमाने पर जाएगी, तब तक इसका मुकाबला Vera Rubin Ultra या Feynman से हो सकता है
निजी तौर पर मुझे लगता है कि OpenAI को इस project में निवेश नहीं करना चाहिए था
अभी बहुत जल्दी है; Anthropic की तरह models पर focus करके जीतना चाहिए था, और profitability आने के बाद ऐसे projects करने चाहिए थे
AI में energy एक सख़्त upper bound है, इसलिए OpenAI के लिए इसमें risk बड़ा है
अगर आपके पास 1GW है, तो आपको सबसे अच्छे chips ही लगाने चाहिए, और अगर Nvidia के chips बेहतर निकले, तो यह project अरबों डॉलर की बर्बादी साबित होगा
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
समस्या यह है कि वाक्य का मतलब सिर्फ दूसरा वाला भी हो सकता है, लेकिन उसे ऐसे लिखा गया है कि वह पहले वाले जैसा लगे, इसलिए इस पर भरोसा करना मुश्किल है
ज़रूरी नहीं कि यह revolutionary हो; हो सकता है AI-assisted design इतना काम का साबित हुआ हो कि custom ASIC बनाना worthwhile लगा हो
OpenAI की पोस्ट में यह नहीं था, लेकिन लगभग तय लगता है कि chip TSMC बनाएगा [1]
यह पक्का नहीं था कि Intel इसमें शामिल था या नहीं
Broadcom ने Google का TPU hardware partner बनकर और TSMC production capacity को Google के साथ share करके बहुत पैसा कमाया, और अब लगता है कि वही काम OpenAI के साथ भी कर रहा है
AI gold rush का फ़ायदा उठाने का यह वाकई बहुत चतुर तरीका है
बस उम्मीद है कि इस तरह कमाया गया पैसा VMWare और Bitnami की तरह software industry से ज़बरदस्ती पैसा निचोड़ने में इस्तेमाल न हो
मैं ऐसा inference chip देखना चाहता हूँ जिसमें weights chip के ROM के किसी हिस्से में डाले गए हों
हर weight के लिए एक multiplier हो, और क्योंकि वह constant है, पूरा सिस्टम सिर्फ adders के एक सरल समूह में बदल जाए, और पूरी pipeline की throughput हर clock पर एक token तक पहुँच सके
तब silicon के एक टुकड़े से एक साथ लाखों users को serve किया जा सकता है, और output bus पर प्रति सेकंड 50 करोड़ token भी निकल सकते हैं
नुकसान यह है कि chip बेहद बड़ी हो जाएगी, इतनी कि पूरा wafer ही एक chip बन जाए
wafer-स्तर के defects शायद बहुत बड़ी समस्या न हों। neural network कुछ weights के गायब या गलत होने पर भी अक्सर टिके रहते हैं
industry की रफ्तार तेज है, इसलिए model weights से production तक बहुत तेज़ी से जाना होगा, 50 wafers बनाकर 1 साल इस्तेमाल करना होगा, और फिर model पुराना पड़ने पर उसे फेंक देना होगा
यह एक ऐसी तकनीक है जिसमें data, यहाँ multiplication value, processor का हिस्सा बन जाता है, यहाँ multiplication circuit का
यह architecture स्तर पर “fetch karke process karo” वाली समस्या को पूरी तरह bypass कर देता है
data वहीं होता है जहाँ computation होती है, इसलिए उसे हिलाना नहीं पड़ता और latency भी नहीं होती
यह तरीका frontier models की तुलना में छोटे models के लिए ज़्यादा उपयुक्त लगता है। frontier models बहुत तेजी से बदलते हैं
वह आपके बताए स्तर तक नहीं गया है, लेकिन उसमें बहुत सारे cores और RAM हैं, जबकि weights अब भी software के जरिए load करने पड़ते हैं, और बड़े models में उन्हें chip के अंदर stream भी करना पड़ता है
फिर भी वह wafer-scale chip है
कई कामों में weights को ROM में रखना ठीक हो सकता है
लेकिन हर weight के लिए एक multiplier रखना अच्छा विचार है या नहीं, इस पर मुझे भरोसा नहीं है
अगर लगभग 2-bit तक quantization किया गया हो तो यह संभव हो सकता है, नहीं तो हर multiplier या row के पास छोटा ROM रखना बेहतर हो सकता है ताकि दूर से data लाना न पड़े और N अलग-अलग matrix operations संभाले जा सकें
एक और दिलचस्प विचार यह है कि DRAM में MAC units की rows जोड़ दी जाएँ ताकि DRAM rows को vector की तरह इस्तेमाल किया जा सके
अगर row size 64Kbit हो, तो 8-bit weights के हिसाब से यह 8K weights होंगे, और weights व computation दोनों को एक ही chip पर रखा जा सकेगा
लेकिन पता नहीं एक chip में काफ़ी multipliers डाले जा सकते हैं या नहीं
systolic arrays में दसियों हज़ार से लेकर लाखों units तक हो सकते हैं, जिनमें से हर एक हर clock पर एक operation कर सकता है
chip स्तर पर अभी भी efficiency improvements के बहुत बड़े मौके बचे हुए लगते हैं, यह काफ़ी रोचक है
Taalas को आप कैसे देखते हैं, यह जानने की जिज्ञासा है
वे कहते हैं कि LLM model को सचमुच silicon में bake कर देते हैं, और fine-tuning के लिए कुछ onboard memory भी रखते हैं
वे cost और latency में बड़े फायदे का दावा करते हैं
बहुत तेज़ demo https://chatjimmy.ai/ पर देखा जा सकता है
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
यही वजह है कि Google ने 10 साल से भी पहले TPU बनाना शुरू किया था
मुझे वह विवाद याद है जब Google ने Timnit Gebru को उस paper की वजह से निकाला था जिसमें LLM के environmental impact की गणना GPU के आधार पर की गई थी और TPU efficiency को नज़रअंदाज़ किया गया था
उस बड़े efficiency gap की वजह से Jeff Dean काफ़ी नाराज़ हुए थे, ऐसा लगता है
अगर ऐसा है, तो इसे बेचना बेहद मुश्किल हो जाएगा
chip में हमेशा के लिए न बदलने वाला एक single model डालने का विचार मुझे पसंद नहीं है
सोच रहा हूँ कि weights के लिए rewritable ROM इस्तेमाल करने पर silicon कितना महँगा हो जाएगा
ऐसा करने से target model की fine-tuning संभव हो जाएगी और model के पुराना पड़ जाने की चिंता कुछ कम होगी
coding agent में यह सार्थक सुधार होगा, और robotics में तो पूरी क्रांति हो सकती है
8B model सामान्य उपयोग के लिए बहुत काम का नहीं है, लेकिन खास उपयोगों में यह जबरदस्त intelligence दे सकता है
Nvidia के Tesla/Waymo competitor के पास 7B LLM और 2B diffusion model है, और अगर उसे ऐसी speed पर चलाया जा सके तो मौजूदा समाधान की तुलना में cost एक अंक के गुणक तक कम हो सकती है
यह भी कहा जा सकता है कि हम अभी भी उस बिंदु के काफ़ी करीब हैं
AWS जैसे hyperscalers ऐसे chips का अच्छा उपयोग उन models को serve करने में करेंगे जो कुछ साल तक प्रासंगिक बने रहें
लेकिन अभी, खासकर Deepseek/Kimi/GLM जैसे open-weight models में, model quality हर कुछ महीनों में काफ़ी उछल रही है
तब तक यह तरीका general-purpose hardware के मुकाबले cost-effective कैसे बनेगा, यह साफ़ नहीं दिखता
और यह भी लगता है कि इसका छोटा version mobile hardware के अंदर जाएगा, जिससे बहुत तेज़ और efficient on-device LLM मिलेंगे
काफ़ी बड़ा कदम
Google और TPU को देखें तो लगता है कि वे लगभग 7वीं पीढ़ी तक पहुँच चुके हैं, और LPU या Cerebras के Wafer Scale Engine जैसे derivative प्रयासों को भी जोड़ें तो यह और भी दूरदर्शी लगता है
लेकिन पहली नज़र में यह chip training नहीं बल्कि inference को target करती दिखती है, और यह भी एक दिलचस्प चुनाव है
दूसरी ओर inference लगातार होने वाला cost है, और समय के साथ यह कहीं ज़्यादा resources खाता है, इसलिए इसे कहीं अधिक efficient बनाने पर ध्यान देना लंबी अवधि में ज़्यादा फ़ायदेमंद है
Nvidia general-purpose training chips का राजा है, लेकिन inference को specialize किया जा सकता है
context window छोटा है और model भी पुराना है
फिर भी अगर इसमें सुधार होकर GPT 5.5 को 1000 tokens per second पर चलाया जा सके तो अच्छा होगा
wording अस्पष्ट है, लेकिन TPU भी ऐसा ही दावा करता है
Google का “our moat is none” memo अब भी सही लगता है। अगर नहीं जानते, तो https://newsletter.semianalysis.com/p/google-we-have-no-moat... देखें
अभी की दिशा 60~90 के दशक में IBM, DEC, Cray, Sun के बीच चली hardware competition से ज़्यादा मिलती-जुलती लगती है
इतिहास खुद को दोहराता नहीं, लेकिन तुक ज़रूर मिलाता है, और लगता है कि ये प्रयास भी कुछ वैसी ही trajectory का पालन करेंगे
AI की प्रगति की रफ़्तार और AI का खुद तेज़ और बेहतर AI बनाने में मदद करना देखकर, मैं लगातार सोचता हूँ कि कहीं यह hardware meaningful return on investment से पहले ही पुराना न पड़ जाए
quantization और offloading की मदद से हम पहले ही बहुत बड़े AI models को कम resources पर चला सकते हैं, लेकिन यह तो बस शुरुआत है
कभी न कभी, शायद बहुत दूर नहीं, ऐसा breakthrough आ सकता है जो 200B-class बड़े LLM को 5 साल पुराने Dell desktop पर अच्छे से चला दे
यह पागलपन जैसा लगेगा, लेकिन शुरुआती hard disks का आकार देखिए
IBM 350 ने 24-inch platters की 50 disks के साथ 3.5Mb store किया था, और आज की कीमत में इसे 35,000 डॉलर पर lease किया गया था
https://www.computerhistory.org/storageengine/first-commerci...
इसकी तुलना multi-terabyte SSD से करें, और वही सुधार आज के LLM architecture और execution तरीकों पर लागू करके देखें
AI की मदद भी जोड़ दें, तो जल्द ही छलांग आ सकती है, और मौजूदा cutting-edge Nvidia cards से भरे data centers लगभग रातोंरात पुराने लगने लगेंगे
IBM 350 को commercial होने में 70 साल पहले की बात है, और आज किसी के लिए multi-TB SSD से तुलना करने लायक स्थिति तक पहुँचने में 70 साल लगे
ऊपर से यह भी तय नहीं कि Moore's law आने वाले कई दशकों तक LLMs पर भी ज़रूर लागू होगा
अगर बड़े models हमेशा बेहतर होते हैं, और फिलहाल ऐसा ही लगता है, तो high-performance hardware की ज़रूरत हमेशा बनी रहेगी
TPU है, लेकिन वह मुख्यतः data center के लिए है, और GPU मूल रूप से graphics applications से आया हुआ adapted hardware है
जब data center demand ठंडी पड़ेगी, तब innovation सच में तेज़ हो सकता है
यहाँ एक हिस्सा है जिस पर बहुत चर्चा नहीं हो रही
Broadcom CEO Hock Tan ने interview में कहा कि यह accelerator अब तक सामान्य AI graphics processing units की तुलना में लगभग 50% cost savings दिखाता है [0]
हालात इतनी तेज़ी से बदल रहे हैं और अभी भी इतने low-hanging fruits बचे हैं कि किस vendor के पास moat है या कौन investment recover कर पाएगा, इस पर बहस का ज़्यादा मतलब नहीं लगता
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
इसका मतलब Nvidia के मौजूदा बिकने वाले chips से कहीं पुराने chips भी हो सकते हैं
अगर “2026 के अंत तक शुरुआती deployment और उसके बाद आने वाले वर्षों में विस्तार” की बात है, तो यह IPO के बाद future promises के रूप में IPO sales materials में बड़े पैमाने पर दिखेगा ऐसा लगता है
IPO से पहले की किसी भी announcement को मैं संदेह से देखता हूँ
अगर यह scam निकले तो भी मुझे हैरानी नहीं होगी
Broadcom और Google तो पहले से ही listed हैं
Microsoft, Google, Amazon भी यह सब करते हैं, लेकिन इनके पास इन chips को host करने के लिए hyperscale data center infrastructure भी है
chip को design और tape-out करना एक बात है, जबकि packaging, cooling, deployment, power delivery, और fleet management पूरी तरह अलग stack है
वह हिस्सा कहाँ से आएगा, यह जानना दिलचस्प होगा
update: Twitter पर किसी ने कहा कि hosting Microsoft और Oracle के बीच 50:50 होगी
मैंने पहले Opus 4.5 से Verilog-आधारित LLM inference engine design करवाया था, जिसमें firmware और automated verification भी शामिल थे: https://github.com/cpldcpu/smollm.c
जाहिर है यह optimal से बहुत दूर है, लेकिन इससे यह पक्का हुआ कि abstraction level को नीचे लाकर implementation तक जाना बहुत शक्तिशाली तरीका है
मेरे पास अभी भी एक Tang Nano 9k पड़ा है, लेकिन Claude से सिर्फ vibe-coding के भरोसे कोई solution बनवाने का आत्मविश्वास नहीं है, इसलिए कम-से-कम बुनियादी समझ तो चाहिए