3 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Jalapeño(हलापेन्यो) LLM inference के लिए खास तौर पर बनाया गया accelerator है और Broadcom के साथ विकसित की जा रही multi-generation computing platform का पहला नतीजा है
  • डिज़ाइन शुरू होने से लेकर manufacturing tape-out तक सिर्फ 9 महीने लगे, जिसे high-performance advanced semiconductor क्षेत्र में अब तक का सबसे तेज़ ASIC development cycle माना जा रहा है
  • शुरुआती टेस्ट में सामान्य AI GPU की तुलना में लगभग 50% लागत बचत दिखी, और performance per watt भी मौजूदा state-of-the-art से काफी बेहतर है
  • chip architecture से लेकर kernel, memory और networking तक सीधे डिज़ाइन करने वाली full-stack strategy के तहत, Nvidia GPU पर निर्भरता घटाने और एक software company से आगे बढ़कर AI infrastructure provider बनने का लक्ष्य
  • 2026 के अंत से Microsoft समेत साझेदारों के gigawatt-scale data center में तैनाती की योजना, और 1 ट्रिलियन डॉलर के IPO से पहले profitability साबित करने के दबाव के बीच इसका महत्व बढ़ा

Jalapeño चिप का अनावरण

  • बुधवार को OpenAI और Broadcom(NASDAQ: AVGO) ने OpenAI का पहला Intelligence Processor Jalapeño(हलापेन्यो) पेश किया
  • यह LLM inference के भविष्य को ध्यान में रखकर डिज़ाइन किया गया accelerator है और दोनों कंपनियों की multi-generation computing platform का पहला AI accelerator है
  • Broadcom के chairman और CEO Hock Tan तथा president Charlie Kawwas ने OpenAI CEO Sam Altman और president Greg Brockman को सीधे chip sample सौंपे
  • यह consumer product से आगे बढ़कर AI infrastructure provider बनने की OpenAI रणनीति का अहम चरण है

चिप संरचना और प्रदर्शन

  • Jalapeño कोई ऐसा general-purpose chip नहीं है जिसे मौजूदा AI workload accelerators से बदलकर बनाया गया हो, बल्कि यह आधुनिक LLM inference के लिए blank-slate design है
  • यह एक ASIC है जिसे खास AI कार्यों के लिए डिज़ाइन किया जा सकता है; Nvidia GPU की तुलना में इसकी flexibility कम है, लेकिन लागत भी कम है
  • प्रदर्शन और दक्षता

    • शुरुआती टेस्ट में सामान्य AI GPU की तुलना में लगभग 50% लागत बचत (Hock Tan इंटरव्यू)
    • अंतिम प्रदर्शन का मापन अभी जारी है, लेकिन performance per watt मौजूदा state-of-the-art की तुलना में काफी बेहतर स्तर पर है
    • data movement कम करके और compute, memory तथा networking resources का संतुलन बनाकर, वास्तविक utilization को सैद्धांतिक अधिकतम प्रदर्शन के करीब लाया गया है
    • जारी की गई chip image में 8 HBM sites और बीच में compute die दिखाई देता है
  • संचालन सत्यापन

    • engineering sample production target frequency और power पर ML workloads चला रहे हैं, जिनमें GPT‑5.3‑Codex‑Spark शामिल है
    • विस्तृत तकनीकी रिपोर्ट अगले कुछ महीनों में जारी होने की योजना है
    • Broadcom का silicon implementation और Tomahawk networking silicon बड़े पैमाने पर production को समर्थन देंगे

9 महीने में tape-out, OpenAI मॉडल से मिली रफ़्तार

  • शुरुआती डिज़ाइन से manufacturing tape-out तक सिर्फ 9 महीने में संयुक्त विकास पूरा हुआ, जिसे high-performance advanced semiconductor क्षेत्र में अब तक का सबसे तेज़ ASIC development cycle माना जा रहा है
  • डिज़ाइन और optimization प्रक्रिया के कुछ हिस्सों में OpenAI के स्वयं के मॉडल इस्तेमाल किए गए; Brockman ने कहा कि मॉडल ने विकास को जितनी गति दी, वह "हैरान कर देने वाली" थी
  • वही मॉडल जो उपयोगकर्ताओं को दिए जाते हैं, आगे चलकर मॉडल चलाने वाली infrastructure को बेहतर बनाने में भी योगदान देंगे
  • अगर AI इंजीनियरों को तेज़ी से बेहतर चिप डिज़ाइन करने में मदद करती है, तो इससे पूरे उद्योग में computing cost घट सकती है और advanced AI की पहुँच बढ़ सकती है

multi-generation platform और साझेदार

  • Jalapeño, 2026 के अंत में शुरुआती deployment को लक्ष्य बनाकर, आने वाले वर्षों में विस्तार पाने वाली multi-generation computing platform का पहला चरण है
  • सहयोग संरचना

    • OpenAI — accelerator design, LLM की बुनियादी समझ के आधार पर
    • Broadcom — chip implementation, networking और connectivity technology
    • Celestica — board, rack और system integration में विशेषज्ञता
  • पिछले साल OpenAI और Broadcom ने 10 gigawatt computing scale के लिए custom chip development plan की घोषणा की थी, और अब उसका पहला chip पेश किया गया है
  • विस्फोटक मांग

    • Broadcom CEO Hock Tan ने कहा कि 2026 से Microsoft जैसे साझेदारों के साथ gigawatt-scale data center deployment संभव होगा; 2026 के अंत में छोटे prototype के बाद विस्तार की योजना है
    • Brockman ने कहा, "हम पर्याप्त तेज़ी से computing हासिल नहीं कर पा रहे हैं"; Tan ने कहा कि 6 ग्राहकों की मांग "वास्तव में पूरी करना असंभव है" और 2027~2028 में भी यह समान या उससे अधिक रहेगी
    • OpenAI hardware program प्रमुख Richard Ho ने बताया कि architecture को frontier AI models के लिए सबसे अहम kernels, memory movement, networking और serving patterns के इर्द-गिर्द optimize किया गया है

full-stack strategy और प्रतिस्पर्धी परिदृश्य

  • OpenAI frontier models विकसित करने और products बनाने से आगे बढ़कर, उसके नीचे की infrastructure भी खुद डिज़ाइन कर रही है — इसमें chip architecture, kernels, memory system, networking, scheduling, deployment system, product experience शामिल हैं
  • इससे OpenAI, Google(TPU), Amazon(Trainium), Microsoft(Azure Maia 100) की तरह खुद का silicon रखने वाले full-stack AI providers की कतार में शामिल हो गई
  • Nvidia पर निर्भरता कम करना

    • "कोई भी Nvidia पर निर्भर नहीं रहना चाहता" (Quilter Cheviot में technology research के प्रमुख Ben Barringer), यानी chip supply diversification की प्रवृत्ति
    • OpenAI, Nvidia के सबसे बड़े ग्राहकों में से एक होने के साथ-साथ AMD(Instinct MI450 series), Cerebras आदि के साथ भी supply agreements कर चुकी है
  • कारोबारी महत्व

    • AI data center के मुख्य components की आपूर्ति के चलते Nvidia दुनिया की सबसे मूल्यवान कंपनी बन चुकी है, जिससे AI infrastructure बाज़ार की कमाई क्षमता उजागर होती है
    • लगभग 1 ट्रिलियन डॉलर valuation वाले संभावित IPO से पहले OpenAI के लिए inference cost घटाना, भारी training cost की भरपाई और profitability साबित करने की कुंजी है
    • Broadcom का शेयर 2026 में अब तक बढ़ा है और 2022 के अंत की तुलना में लगभग 7 गुना स्तर पर है, जो इस साझेदारी के लाभ को दर्शाता है

advanced AI का जनसुलभीकरण

  • inference वह बिंदु है जहाँ AI लोगों से मिलता है; लागत, गति और reliability में सुधार का सीधा मतलब है ChatGPT के तेज़ जवाब, बिना प्रतीक्षा वाला Codex काम, सस्ते API products, और मांग बढ़ने पर अधिक स्थिर access
  • advanced models को इतने अधिक लोगों के लिए उपलब्ध, स्थिर और किफायती बनाना कि वे उन्हें रोज़ इस्तेमाल कर सकें, यही AI के जनसुलभीकरण की कुंजी है
  • छात्र, developer, छोटे कारोबारी, researcher और enterprises सहित सीखने, बनाने और कठिन समस्याएँ सुलझाने की कोशिश करने वाले सभी लोगों के लिए infrastructure को उपयोगी intelligence में बदलने में यह योगदान देगा

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की राय
  • “OpenAI मॉडल से design और optimization तेज़ किया गया” वाले हिस्से पर और विस्तार देखना चाहूँगा
    अभी की wording देखकर यह वैसा लगता है जैसे कहा जा रहा हो कि Microsoft Office या 5K LG Ultrafine 40-इंच मॉनिटर की वजह से development तेज़ हो गया — यानी एक marketing line
    अगर यह सच में उतनी बड़ी बात है जितना इशारा किया गया है, तो OpenAI इसे कहीं ज़्यादा ज़ोर से सामने लाता

    • chip CEO के नज़रिए से देखें तो “design” और “production” का मतलब क्या है, इस पर बात पूरी तरह बदल जाती है
      यह साफ़ नहीं है कि “design” का मतलब design complete है या “production” का मतलब production start, यानी tapeout, है
      अगर RTL freeze से tapeout तक 9 महीने लगे, तो बड़े और जटिल 3nm chip के हिसाब से यह काफ़ी सामान्य timeline है, और अनपेक्षित issues को जोड़ें तो थोड़ा भी खास प्रभावशाली नहीं लगता
      इसके उलट, अगर concept stage — यानी RTL के बिना सिर्फ architecture block diagram — से tapeout तक पहुँचे हों, तो यह चौंकाने वाली timeline होगी, और असलियत शायद इन दोनों के बीच कहीं होगी
      अगर announcement ज़्यादा specific होती, तो उसमें असली technical milestones और gates इस्तेमाल किए जाने चाहिए थे
    • chip development में इस्तेमाल होने वाली hardware description language (HDL), programming language जैसी ही होती है, और मौजूदा मॉडल भी इसे समझते हैं, इसलिए काफ़ी काम कर सकते हैं
      chip design workflow में large language model इस्तेमाल करने के लिए कोई अलग specialized model ज़रूरी हो, ऐसा नहीं है
      design verification में भी traditional programming काफ़ी होती है, इसलिए वहाँ भी large language model मदद कर सकते हैं
      यह पूरी तरह बेमतलब बात नहीं है; आज अगर आप open source chip design software डाउनलोड करें, तो large language model छोटे chip पर सीधे शुरुआत करने में भी मदद कर सकते हैं
    • Broadcom के पास पहले से ही AI SoC के लिए बहुत सारा IP है
      इस inference chip के मुश्किल हिस्से Broadcom ने शायद पहले ही design कर रखे होंगे, और OpenAI ने संभवतः अपनी desired specs Broadcom को दी होंगी
      यह Google TPU से भी काफ़ी मिलता-जुलता हो सकता है
      कहा गया है कि “पहली पीढ़ी का accelerator मौजूदा state-of-the-art की तुलना में performance per watt को काफ़ी बढ़ाएगा”, लेकिन यहाँ “काफ़ी” से उनका मतलब क्या है, यह जानना चाहूँगा
      Vera Rubin का mass shipment इस साल के अंत तक तय है, और Blackwell की तुलना में inference power efficiency 10 गुना ज़्यादा होने की उम्मीद है[0]
      चाहे tapeout हो भी चुका हो, फिर भी bug fixes, chip fabrication, HBM allocation, rack design, interconnect, और data center deployment तक पहुँचने में कम से कम 12 महीने, शायद उससे भी ज़्यादा लगेंगे
      जब तक यह chip data centers में बड़े पैमाने पर जाएगी, तब तक इसका मुकाबला Vera Rubin Ultra या Feynman से हो सकता है
      निजी तौर पर मुझे लगता है कि OpenAI को इस project में निवेश नहीं करना चाहिए था
      अभी बहुत जल्दी है; Anthropic की तरह models पर focus करके जीतना चाहिए था, और profitability आने के बाद ऐसे projects करने चाहिए थे
      AI में energy एक सख़्त upper bound है, इसलिए OpenAI के लिए इसमें risk बड़ा है
      अगर आपके पास 1GW है, तो आपको सबसे अच्छे chips ही लगाने चाहिए, और अगर Nvidia के chips बेहतर निकले, तो यह project अरबों डॉलर की बर्बादी साबित होगा
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • इसके संभव अर्थ मोटे तौर पर दो हैं, और उनके बीच कुछ मज़ाक वाली middle ground भी है
      1. OpenAI के पास सच में ऐसी AI technology है जो chip design को बेहतर बना सकती है — यह बड़ा और कम-सम्भावित दावा है, इसलिए इसके लिए सबूत चाहिए
      2. OpenAI ने simulation hardware पर performance test करने के लिए test/verification models और kernels design किए
        समस्या यह है कि वाक्य का मतलब सिर्फ दूसरा वाला भी हो सकता है, लेकिन उसे ऐसे लिखा गया है कि वह पहले वाले जैसा लगे, इसलिए इस पर भरोसा करना मुश्किल है
    • Verilog पहले से काफी public है, इसलिए यह पूरी तरह संभव है कि AI की मदद से और ज़्यादा Verilog लिखकर chip design किया गया हो
      ज़रूरी नहीं कि यह revolutionary हो; हो सकता है AI-assisted design इतना काम का साबित हुआ हो कि custom ASIC बनाना worthwhile लगा हो
  • OpenAI की पोस्ट में यह नहीं था, लेकिन लगभग तय लगता है कि chip TSMC बनाएगा [1]
    यह पक्का नहीं था कि Intel इसमें शामिल था या नहीं

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Twitter पर देखे एक दावे के मुताबिक Google, Amazon, OpenAI जैसी कंपनियाँ Broadcom को सिर्फ उसकी design capability की वजह से नहीं चुनतीं, बल्कि इसलिए भी कि Broadcom के पास TSMC और memory manufacturers के allocation contracts हैं
    • अब जाकर puzzle के pieces fit हुए हैं
      Broadcom ने Google का TPU hardware partner बनकर और TSMC production capacity को Google के साथ share करके बहुत पैसा कमाया, और अब लगता है कि वही काम OpenAI के साथ भी कर रहा है
      AI gold rush का फ़ायदा उठाने का यह वाकई बहुत चतुर तरीका है
      बस उम्मीद है कि इस तरह कमाया गया पैसा VMWare और Bitnami की तरह software industry से ज़बरदस्ती पैसा निचोड़ने में इस्तेमाल न हो
  • मैं ऐसा inference chip देखना चाहता हूँ जिसमें weights chip के ROM के किसी हिस्से में डाले गए हों
    हर weight के लिए एक multiplier हो, और क्योंकि वह constant है, पूरा सिस्टम सिर्फ adders के एक सरल समूह में बदल जाए, और पूरी pipeline की throughput हर clock पर एक token तक पहुँच सके
    तब silicon के एक टुकड़े से एक साथ लाखों users को serve किया जा सकता है, और output bus पर प्रति सेकंड 50 करोड़ token भी निकल सकते हैं
    नुकसान यह है कि chip बेहद बड़ी हो जाएगी, इतनी कि पूरा wafer ही एक chip बन जाए
    wafer-स्तर के defects शायद बहुत बड़ी समस्या न हों। neural network कुछ weights के गायब या गलत होने पर भी अक्सर टिके रहते हैं
    industry की रफ्तार तेज है, इसलिए model weights से production तक बहुत तेज़ी से जाना होगा, 50 wafers बनाकर 1 साल इस्तेमाल करना होगा, और फिर model पुराना पड़ने पर उसे फेंक देना होगा

    • तकनीकी रूप से यह weights को ROM में डालने से ज़्यादा compute-in-memory (CIM) की ओर इशारा करता है
      यह एक ऐसी तकनीक है जिसमें data, यहाँ multiplication value, processor का हिस्सा बन जाता है, यहाँ multiplication circuit का
      यह architecture स्तर पर “fetch karke process karo” वाली समस्या को पूरी तरह bypass कर देता है
      data वहीं होता है जहाँ computation होती है, इसलिए उसे हिलाना नहीं पड़ता और latency भी नहीं होती
    • पहले https://taalas.com/ आया था, और शायद इसी तरह सोचने वाले और भी लोग होंगे
      यह तरीका frontier models की तुलना में छोटे models के लिए ज़्यादा उपयुक्त लगता है। frontier models बहुत तेजी से बदलते हैं
    • सोच रहा हूँ कि क्या आपने Cerebras देखा है
      वह आपके बताए स्तर तक नहीं गया है, लेकिन उसमें बहुत सारे cores और RAM हैं, जबकि weights अब भी software के जरिए load करने पड़ते हैं, और बड़े models में उन्हें chip के अंदर stream भी करना पड़ता है
      फिर भी वह wafer-scale chip है
    • weights को ROM में डालने का विचार मेरे मन में भी काफ़ी समय से है
      कई कामों में weights को ROM में रखना ठीक हो सकता है
      लेकिन हर weight के लिए एक multiplier रखना अच्छा विचार है या नहीं, इस पर मुझे भरोसा नहीं है
      अगर लगभग 2-bit तक quantization किया गया हो तो यह संभव हो सकता है, नहीं तो हर multiplier या row के पास छोटा ROM रखना बेहतर हो सकता है ताकि दूर से data लाना न पड़े और N अलग-अलग matrix operations संभाले जा सकें
      एक और दिलचस्प विचार यह है कि DRAM में MAC units की rows जोड़ दी जाएँ ताकि DRAM rows को vector की तरह इस्तेमाल किया जा सके
      अगर row size 64Kbit हो, तो 8-bit weights के हिसाब से यह 8K weights होंगे, और weights व computation दोनों को एक ही chip पर रखा जा सकेगा
      लेकिन पता नहीं एक chip में काफ़ी multipliers डाले जा सकते हैं या नहीं
      systolic arrays में दसियों हज़ार से लेकर लाखों units तक हो सकते हैं, जिनमें से हर एक हर clock पर एक operation कर सकता है
    • लोग कहते हैं कि memristor इस काम के लिए आदर्श है और reprogrammable भी हो सकता है, लेकिन memristor मुझे computing दुनिया के carbon nanotubes जैसा लगता है
  • chip स्तर पर अभी भी efficiency improvements के बहुत बड़े मौके बचे हुए लगते हैं, यह काफ़ी रोचक है
    Taalas को आप कैसे देखते हैं, यह जानने की जिज्ञासा है
    वे कहते हैं कि LLM model को सचमुच silicon में bake कर देते हैं, और fine-tuning के लिए कुछ onboard memory भी रखते हैं
    वे cost और latency में बड़े फायदे का दावा करते हैं
    बहुत तेज़ demo https://chatjimmy.ai/ पर देखा जा सकता है
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • अगर आप सिर्फ general-purpose GPU पर निर्भर रहेंगे, तो जाहिर है efficiency का बड़ा हिस्सा छूट जाएगा
      यही वजह है कि Google ने 10 साल से भी पहले TPU बनाना शुरू किया था
      मुझे वह विवाद याद है जब Google ने Timnit Gebru को उस paper की वजह से निकाला था जिसमें LLM के environmental impact की गणना GPU के आधार पर की गई थी और TPU efficiency को नज़रअंदाज़ किया गया था
      उस बड़े efficiency gap की वजह से Jeff Dean काफ़ी नाराज़ हुए थे, ऐसा लगता है
    • इस तरह की चीज़ें और देखना अच्छा होगा, लेकिन हर नए model के आने पर पूरी तरह नए model में update करने की क्षमता सीमित लगती है
      अगर ऐसा है, तो इसे बेचना बेहद मुश्किल हो जाएगा
    • तकनीकी रूप से यह दिलचस्प है, लेकिन details बहुत कम लगती हैं
      chip में हमेशा के लिए न बदलने वाला एक single model डालने का विचार मुझे पसंद नहीं है
      सोच रहा हूँ कि weights के लिए rewritable ROM इस्तेमाल करने पर silicon कितना महँगा हो जाएगा
      ऐसा करने से target model की fine-tuning संभव हो जाएगी और model के पुराना पड़ जाने की चिंता कुछ कम होगी
    • chatbot में 17k token/second प्रभावशाली है, लेकिन लगभग बेकार demo है
      coding agent में यह सार्थक सुधार होगा, और robotics में तो पूरी क्रांति हो सकती है
      8B model सामान्य उपयोग के लिए बहुत काम का नहीं है, लेकिन खास उपयोगों में यह जबरदस्त intelligence दे सकता है
      Nvidia के Tesla/Waymo competitor के पास 7B LLM और 2B diffusion model है, और अगर उसे ऐसी speed पर चलाया जा सके तो मौजूदा समाधान की तुलना में cost एक अंक के गुणक तक कम हो सकती है
    • जब model development काफी धीमा पड़ जाएगा, तब शायद यही hardware LLM providers का भविष्य बनेगा
      यह भी कहा जा सकता है कि हम अभी भी उस बिंदु के काफ़ी करीब हैं
      AWS जैसे hyperscalers ऐसे chips का अच्छा उपयोग उन models को serve करने में करेंगे जो कुछ साल तक प्रासंगिक बने रहें
      लेकिन अभी, खासकर Deepseek/Kimi/GLM जैसे open-weight models में, model quality हर कुछ महीनों में काफ़ी उछल रही है
      तब तक यह तरीका general-purpose hardware के मुकाबले cost-effective कैसे बनेगा, यह साफ़ नहीं दिखता
      और यह भी लगता है कि इसका छोटा version mobile hardware के अंदर जाएगा, जिससे बहुत तेज़ और efficient on-device LLM मिलेंगे
  • काफ़ी बड़ा कदम
    Google और TPU को देखें तो लगता है कि वे लगभग 7वीं पीढ़ी तक पहुँच चुके हैं, और LPU या Cerebras के Wafer Scale Engine जैसे derivative प्रयासों को भी जोड़ें तो यह और भी दूरदर्शी लगता है
    लेकिन पहली नज़र में यह chip training नहीं बल्कि inference को target करती दिखती है, और यह भी एक दिलचस्प चुनाव है

    • training लगभग एक बार का cost होता है, और architecture improvements की वजह से उसकी efficiency पहले से बेहतर हो रही है
      दूसरी ओर inference लगातार होने वाला cost है, और समय के साथ यह कहीं ज़्यादा resources खाता है, इसलिए इसे कहीं अधिक efficient बनाने पर ध्यान देना लंबी अवधि में ज़्यादा फ़ायदेमंद है
    • अब लगता है कि inference cost training cost से भी ज़्यादा हो चुका है
      Nvidia general-purpose training chips का राजा है, लेकिन inference को specialize किया जा सकता है
    • Cerebras का Codex Spark 5.3 बड़ी विफलता था
      context window छोटा है और model भी पुराना है
      फिर भी अगर इसमें सुधार होकर GPT 5.5 को 1000 tokens per second पर चलाया जा सके तो अच्छा होगा
    • कहा गया है कि “शुरुआती tests में Jalapeño मौजूदा state of the art की तुलना में प्रति watt performance को काफ़ी बढ़ाएगा”, और यहीं से दिखने लगता है कि वास्तव में क्या महत्वपूर्ण है
      wording अस्पष्ट है, लेकिन TPU भी ऐसा ही दावा करता है
      Google का “our moat is none” memo अब भी सही लगता है। अगर नहीं जानते, तो https://newsletter.semianalysis.com/p/google-we-have-no-moat... देखें
      अभी की दिशा 60~90 के दशक में IBM, DEC, Cray, Sun के बीच चली hardware competition से ज़्यादा मिलती-जुलती लगती है
      इतिहास खुद को दोहराता नहीं, लेकिन तुक ज़रूर मिलाता है, और लगता है कि ये प्रयास भी कुछ वैसी ही trajectory का पालन करेंगे
  • AI की प्रगति की रफ़्तार और AI का खुद तेज़ और बेहतर AI बनाने में मदद करना देखकर, मैं लगातार सोचता हूँ कि कहीं यह hardware meaningful return on investment से पहले ही पुराना न पड़ जाए
    quantization और offloading की मदद से हम पहले ही बहुत बड़े AI models को कम resources पर चला सकते हैं, लेकिन यह तो बस शुरुआत है
    कभी न कभी, शायद बहुत दूर नहीं, ऐसा breakthrough आ सकता है जो 200B-class बड़े LLM को 5 साल पुराने Dell desktop पर अच्छे से चला दे
    यह पागलपन जैसा लगेगा, लेकिन शुरुआती hard disks का आकार देखिए
    IBM 350 ने 24-inch platters की 50 disks के साथ 3.5Mb store किया था, और आज की कीमत में इसे 35,000 डॉलर पर lease किया गया था
    https://www.computerhistory.org/storageengine/first-commerci...
    इसकी तुलना multi-terabyte SSD से करें, और वही सुधार आज के LLM architecture और execution तरीकों पर लागू करके देखें
    AI की मदद भी जोड़ दें, तो जल्द ही छलांग आ सकती है, और मौजूदा cutting-edge Nvidia cards से भरे data centers लगभग रातोंरात पुराने लगने लगेंगे

    • अगर ऐसा breakthrough हो सकता है, तो क्या उसी तरीके से आज के data centers में 200T models भी नहीं चलाए जा सकते?
    • दिलचस्प विचार है, लेकिन hard disk से तुलना शायद उचित नहीं है
      IBM 350 को commercial होने में 70 साल पहले की बात है, और आज किसी के लिए multi-TB SSD से तुलना करने लायक स्थिति तक पहुँचने में 70 साल लगे
      ऊपर से यह भी तय नहीं कि Moore's law आने वाले कई दशकों तक LLMs पर भी ज़रूर लागू होगा
    • Jevons paradox और scaling laws की वजह से शायद ऐसा नहीं होगा
      अगर बड़े models हमेशा बेहतर होते हैं, और फिलहाल ऐसा ही लगता है, तो high-performance hardware की ज़रूरत हमेशा बनी रहेगी
    • computing में breakthroughs आम तौर पर computing का इस्तेमाल घटाते नहीं, बल्कि और बढ़ा देते हैं
    • कभी न कभी GPU के अलावा LLMs के लिए बना dedicated hardware आएगा ऐसा लगता है
      TPU है, लेकिन वह मुख्यतः data center के लिए है, और GPU मूल रूप से graphics applications से आया हुआ adapted hardware है
      जब data center demand ठंडी पड़ेगी, तब innovation सच में तेज़ हो सकता है
  • यहाँ एक हिस्सा है जिस पर बहुत चर्चा नहीं हो रही
    Broadcom CEO Hock Tan ने interview में कहा कि यह accelerator अब तक सामान्य AI graphics processing units की तुलना में लगभग 50% cost savings दिखाता है [0]
    हालात इतनी तेज़ी से बदल रहे हैं और अभी भी इतने low-hanging fruits बचे हैं कि किस vendor के पास moat है या कौन investment recover कर पाएगा, इस पर बहस का ज़्यादा मतलब नहीं लगता
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • अगर GPU margins 75% हैं, तो 50% सस्ता होना कोई हैरानी की बात नहीं
    • “सामान्य” शब्द यहाँ बहुत काम कर रहा है
      इसका मतलब Nvidia के मौजूदा बिकने वाले chips से कहीं पुराने chips भी हो सकते हैं
  • अगर “2026 के अंत तक शुरुआती deployment और उसके बाद आने वाले वर्षों में विस्तार” की बात है, तो यह IPO के बाद future promises के रूप में IPO sales materials में बड़े पैमाने पर दिखेगा ऐसा लगता है
    IPO से पहले की किसी भी announcement को मैं संदेह से देखता हूँ

    • narrative IPO से पहले की शरारत जैसा लगता है, और दिखने में यह laundry basket के ढक्कन जैसा है
      अगर यह scam निकले तो भी मुझे हैरानी नहीं होगी
    • समझ नहीं आ रहा किसका IPO
      Broadcom और Google तो पहले से ही listed हैं
  • Microsoft, Google, Amazon भी यह सब करते हैं, लेकिन इनके पास इन chips को host करने के लिए hyperscale data center infrastructure भी है
    chip को design और tape-out करना एक बात है, जबकि packaging, cooling, deployment, power delivery, और fleet management पूरी तरह अलग stack है
    वह हिस्सा कहाँ से आएगा, यह जानना दिलचस्प होगा

    • Stargate को भूलना नहीं चाहिए
      update: Twitter पर किसी ने कहा कि hosting Microsoft और Oracle के बीच 50:50 होगी
  • मैंने पहले Opus 4.5 से Verilog-आधारित LLM inference engine design करवाया था, जिसमें firmware और automated verification भी शामिल थे: https://github.com/cpldcpu/smollm.c
    जाहिर है यह optimal से बहुत दूर है, लेकिन इससे यह पक्का हुआ कि abstraction level को नीचे लाकर implementation तक जाना बहुत शक्तिशाली तरीका है

    • क्या कोई Verilog और FPGA को समग्र रूप से सीखने के लिए कोई tutorial recommend कर सकता है?
      मेरे पास अभी भी एक Tang Nano 9k पड़ा है, लेकिन Claude से सिर्फ vibe-coding के भरोसे कोई solution बनवाने का आत्मविश्वास नहीं है, इसलिए कम-से-कम बुनियादी समझ तो चाहिए