एजेंट युग के लिए दो चिप: Google की 8वीं पीढ़ी की TPU

(blog.google)

6 पॉइंट द्वारा GN⁺ 2026-04-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google ने 10+ वर्षों के TPU विकास इतिहास को समेटते हुए 8वीं पीढ़ी की दो TPU चिप्स पेश की हैं, और क्रमशः बड़े पैमाने के मॉडल प्रशिक्षण के लिए TPU 8t तथा हाई-स्पीड inference के लिए TPU 8i जैसी विशेषीकृत आर्किटेक्चर अपनाई हैं
TPU 8t का एकल सुपरपॉड 9,600 चिप्स, 121 ExaFlops तक स्केल कर सकता है, और पिछली पीढ़ी की तुलना में प्रति Pod कंप्यूट प्रदर्शन लगभग 3 गुना बढ़ा है
TPU 8i को memory bandwidth और latency optimization पर फोकस करते हुए agentic inference के लिए दोबारा डिज़ाइन किया गया है, और ऑन-चिप SRAM विस्तार, Axion CPU host, तथा MoE-अनुकूल नेटवर्क सुधारों के जरिए प्रदर्शन-प्रति-लागत में 80% सुधार हासिल किया गया है
दोनों चिप्स Google के अपने डिज़ाइन किए गए Axion ARM-आधारित CPU host पर चलते हैं, और पिछली पीढ़ी की तुलना में प्रति watt प्रदर्शन अधिकतम 2 गुना बेहतर है
AI एजेंटों के लगातार inference, planning और execution वाले युग के लिए training और inference को अलग-अलग optimize करने वाली इंफ्रास्ट्रक्चर रणनीति के तहत इन्हें इस साल की दूसरी छमाही में सामान्य उपलब्धता के लिए लाया जाएगा, और ये Google AI Hypercomputer के हिस्से के रूप में उपलब्ध होंगी

8वीं पीढ़ी की TPU का अवलोकन

Google Cloud Next में 8वीं पीढ़ी की Tensor Processor Unit(TPU) की घोषणा की गई, जिसमें training के लिए TPU 8t और inference के लिए TPU 8i दो आर्किटेक्चर शामिल हैं
इन्हें custom supercomputer चलाने के लिए डिज़ाइन किया गया है, और ये अत्याधुनिक मॉडल training, agent development, तथा बड़े पैमाने के inference workloads सभी को कवर करती हैं
Gemini सहित प्रमुख foundation models कई वर्षों से TPU पर चलाए जाते रहे हैं, और 8वीं पीढ़ी training, serving और agentic workloads के पूरे दायरे में scale, efficiency और performance एक साथ प्रदान करती है
AI एजेंट युग में मॉडल को समस्याओं पर reasoning करनी होती है, multi-step workflow चलाने होते हैं, और अपनी ही actions से सीखने वाले continuous loop पूरे करने होते हैं, इसलिए इंफ्रास्ट्रक्चर पर नई आवश्यकताएँ पैदा होती हैं
Google DeepMind के साथ मिलकर इन्हें सबसे कठिन AI workloads संभालने और बदलती model architecture के अनुरूप ढलने के लिए डिज़ाइन किया गया है

10+ वर्षों की डिज़ाइन फ़िलॉसफ़ी

TPU ने custom numerical computation, liquid cooling, custom interconnect जैसे ML supercomputing घटकों के लिए मानक स्थापित किए हैं, और 8वीं पीढ़ी 10+ वर्षों के विकास का संकलन है
मुख्य डिज़ाइन सिद्धांत: silicon को hardware, networking और software (जिसमें model architecture और application requirements शामिल हैं) के साथ co-design करके power efficiency और absolute performance दोनों में नाटकीय सुधार हासिल करना
Citadel Securities द्वारा अपने AI workloads के लिए TPU चुनने के उदाहरण को अग्रणी संगठनों के एक केस के रूप में उल्लेख किया गया

training और inference को अलग करने की वजह

hardware development cycle software की तुलना में बहुत लंबी होती है, इसलिए हर पीढ़ी की TPU डिज़ाइन करते समय launch के समय की तकनीक और मांग का पहले से अनुमान लगाना पड़ता है
कई वर्ष पहले से frontier AI models की production deployment के कारण inference demand में वृद्धि की अपेक्षा की जा रही थी
AI एजेंटों के उभार के साथ training और serving की आवश्यकताएँ अलग-अलग होने लगीं, इसलिए अलग-अलग विशेषीकृत चिप्स समुदाय के लिए अधिक लाभकारी मानी गईं
TPU 8t को अधिक compute throughput और scale-up bandwidth के साथ बड़े पैमाने की training के लिए optimize किया गया है
TPU 8i को अधिक memory bandwidth के साथ latency-sensitive inference workloads के लिए optimize किया गया है, क्योंकि एजेंटों के बीच interactions में छोटे-छोटे inefficiencies भी बड़े पैमाने पर बढ़ जाती हैं
दोनों चिप्स विभिन्न workloads चला सकते हैं, लेकिन specialization के जरिए उल्लेखनीय efficiency gain हासिल हुआ है

TPU 8t: training के लिए पावरहाउस

लक्ष्य frontier model development cycle को कई महीनों से घटाकर कुछ हफ्तों तक लाना है
सर्वश्रेष्ठ compute throughput, shared memory और inter-chip bandwidth को optimal power efficiency तथा productive computing time के साथ संतुलित तरीके से जोड़ा गया है
पिछली पीढ़ी की तुलना में प्रति Pod compute performance लगभग 3 गुना बढ़ी है
बड़े पैमाने पर विस्तार(Massive Scale)
- एकल TPU 8t सुपरपॉड 9,600 चिप्स, 2 पेटाबाइट shared HBM तक स्केल कर सकता है
- पिछली पीढ़ी की तुलना में inter-chip bandwidth 2 गुना
- 121 ExaFlops की compute performance प्रदान करता है, जिससे सबसे जटिल मॉडल एकल विशाल memory pool का उपयोग कर सकते हैं
अधिकतम उपयोगिता(Maximum Utilization)
- 10 गुना तेज़ storage access एकीकृत
- TPUDirect के जरिए data को सीधे TPU में pull करके end-to-end system की maximum utilization सुनिश्चित की जाती है
लगभग-रैखिक स्केलिंग(Near-Linear Scaling)
- नए Virgo Network को JAX और Pathways software के साथ जोड़कर एकल logical cluster में अधिकतम 10 लाख चिप्स तक लगभग-रैखिक स्केलिंग संभव है
विश्वसनीयता और उपलब्धता
- लक्ष्य goodput(उपयोगी उत्पादक computing time) 97% से अधिक
- व्यापक RAS(Reliability, Availability, Serviceability) सुविधाएँ शामिल
  - दसियों हज़ार चिप्स पर real-time telemetry
  - दोषपूर्ण ICI links की स्वचालित पहचान और job interruption के बिना bypass routing
  - OCS(Optical Circuit Switching) के जरिए मानव हस्तक्षेप के बिना विफलता के आसपास hardware reconfiguration
- frontier training scale पर hardware failure, network latency, और checkpoint restart non-training time होते हैं, और 1%p का अंतर कई दिनों के training time में बदल सकता है

TPU 8i: inference इंजन

agentic युग में उपयोगकर्ता सवाल पूछने, tasks सौंपने और परिणाम पाने जैसा अनुभव चाहते हैं, इसलिए यह कई specialized agents के जटिल flow में swarming करके सहयोग करने वाले कार्यों के लिए optimize किया गया है
"waiting room effect" हटाने के लिए stack को फिर से डिज़ाइन किया गया, और चार प्रमुख innovations लागू की गईं
memory wall को तोड़ना(Breaking the Memory Wall)
- 288GB HBM और 384MB on-chip SRAM (पिछली पीढ़ी से 3 गुना) शामिल
- मॉडल के पूरे active working set को on-chip रखकर processor idle होने से रोका जाता है
Axion-आधारित efficiency
- प्रति server physical CPU hosts की संख्या 2 गुना बढ़ाई गई और Google के अपने Axion ARM-आधारित CPU को अपनाया गया
- NUMA(Non-Uniform Memory Architecture) isolation के जरिए पूरे system performance को optimize किया गया
MoE model scaling
- नवीनतम Mixture of Expert(MoE) models के लिए ICI bandwidth को 2 गुना बढ़ाकर 19.2 Tb/s किया गया
- नई Boardfly architecture के जरिए अधिकतम network diameter 50% से अधिक घटाया गया, जिससे यह एक cohesive low-latency unit की तरह काम करता है
latency हटाना(Eliminating Lag)
- नया on-chip CAE(Collectives Acceleration Engine) global operations को offload करके on-chip latency को अधिकतम 5 गुना घटाता है
प्रदर्शन-प्रति-लागत
- पिछली पीढ़ी की तुलना में प्रति dollar performance 80% बेहतर, यानी समान लागत पर लगभग 2 गुना customer volume serve किया जा सकता है

Gemini के साथ co-design, सबके लिए खुला

8वीं पीढ़ी की TPU, AI की सबसे बड़ी चुनौतियों को हल करने के लिए हर spec को डिज़ाइन करने वाली co-design फ़िलॉसफ़ी की नवीनतम अभिव्यक्ति है
Boardfly topology: आज के सर्वश्रेष्ठ inference models की communication requirements के अनुसार डिज़ाइन
TPU 8i की SRAM capacity: production-scale inference models के KV cache footprint के अनुरूप निर्धारित
Virgo Network bandwidth लक्ष्य: trillion-parameter training की parallelization requirements से निकाला गया
दोनों चिप्स पहली बार Google के अपने Axion ARM-आधारित CPU host पर चलते हैं, जिससे केवल चिप नहीं बल्कि पूरे system का optimization संभव होता है
framework और accessibility
- native JAX, MaxText, PyTorch, SGLang, vLLM समर्थन
- bare-metal access उपलब्ध, जिससे virtualization overhead के बिना direct hardware access संभव
- open source योगदान: MaxText reference implementation, reinforcement learning के लिए Tunix आदि के माध्यम से development से production deployment तक critical path को support

बड़े पैमाने की power-efficient डिज़ाइन

आज के data centers में केवल chip supply ही नहीं बल्कि power एक binding constraint है
पूरे stack में efficiency optimize की गई है, और real-time demand के अनुसार power consumption को dynamically adjust करने वाला integrated power management लागू किया गया है
TPU 8t और TPU 8i दोनों में पिछली पीढ़ी(Ironwood) की तुलना में प्रति watt performance अधिकतम 2 गुना बेहतर है
efficiency सिर्फ chip-level metric नहीं, बल्कि silicon से data center तक की system-level commitment है
- network connectivity को compute के साथ उसी chip में integrate करके TPU pod के भीतर data movement की power cost को काफी घटाया गया
- data center को भी TPU के साथ co-design किया गया, और 5 साल पहले की तुलना में power unit प्रति compute power 6 गुना बढ़ी
दोनों चिप्स 4th-gen liquid cooling तकनीक से समर्थित हैं, जिससे वह performance density बनाए रखी जा सकती है जो air cooling से संभव नहीं
Axion host से accelerator तक पूरे stack का स्वामित्व होने के कारण host और chip को अलग-अलग डिज़ाइन करने पर असंभव system-level energy efficiency optimization हासिल किया गया

agentic युग के लिए इंफ्रास्ट्रक्चर

हर बड़े computing transition के लिए इंफ्रास्ट्रक्चर innovation की आवश्यकता होती है, और agentic युग भी इससे अलग नहीं
autonomous agents के reasoning, planning, execution और learning के continuous loop की मांगों के अनुरूप इंफ्रास्ट्रक्चर को विकसित होना होगा
TPU 8t और TPU 8i इस चुनौती का उत्तर हैं: सर्वश्रेष्ठ AI models बनाना, पूरी तरह orchestrated agent swarms चलाना, और सबसे जटिल inference कार्यों के प्रबंधन को फिर से परिभाषित करने वाली दो विशेषीकृत आर्किटेक्चर
दोनों चिप्स इस साल की दूसरी छमाही में सामान्य उपलब्धता के लिए निर्धारित हैं
Google के AI Hypercomputer के हिस्से के रूप में उपलब्ध
- उद्देश्य-विशिष्ट hardware(computing, storage, networking), open software(frameworks, inference engines), और flexible consumption models(orchestration, cluster management, delivery models) को एकीकृत stack में जोड़ा गया है

1 टिप्पणियां

GN⁺ 2026-04-23

Hacker News की राय

मुझे लगा कि Gemini 3 ने पहले ही दिखा दिया है कि efficiency-केंद्रित training से कितनी दूर तक जाया जा सकता है। मेरा अनुमान है कि Pro और Flash शायद Opus या GPT-5-स्तर के मॉडल्स से 5 से 10 गुना छोटे लगते हैं tool calling अक्सर टूट जाती है और agentic काम में यह कुल मिलाकर कमजोर लगा, इसलिए reasoning और execution की polishing अभी भी कमज़ोर दिखी। फिर भी tools या search के बिना शुद्ध problem-solving में देखें तो यह Opus और GPT के बराबर लगता है, और आकार काफ़ी छोटा महसूस होता है मुझे लगता है कि जिस दिन Google preview-स्टेज prototyping खत्म करके सच में proper official model निकालेगा, वह मौजूदा SOTA से एक पीढ़ी आगे का मॉडल लाकर सबको चौंका सकता है। अब तक आए मॉडल्स ऐसे लगे जैसे निवेशकों को दिखाने और product lineup में proof of concept के तौर पर डालने के लिए जल्दी में GA में धकेले गए prototype हों
- मैं उस 5 से 10 गुना वाले अनुमान को लेकर संदेह में हूँ। खासकर Pro के मामले में, मुझे तो उल्टा लगता है कि Google hardware की वजह से वह बड़े मॉडल को ज़्यादा सस्ते और तेज़ तरीके से चला रहा हो सकता है Gemini 3 Pro कुल मिलाकर सबसे ज़्यादा मानवीय बुद्धिमत्ता के करीब लगा। खासकर humanities में यह मज़बूत है, और कई मानव भाषाओं में natural text बनाने की इसकी क्षमता लगभग नंबर 1 लगती है। ऐसी बढ़त niche भाषाओं में और बड़ी हो जाती है, और मुझे यह छोटे मॉडल की बजाय बड़े मॉडल की ओर इशारा लगती है math और agentic काम में यह साफ़ तौर पर कमजोर है, और Gemini app खुद भी इतना पीछे लगता है कि 3 साल पहले के शुरुआती ChatGPT से बहुत अलग नहीं दिखता, जो इसकी perceived performance को और गिराता है
- मैं भी इस बात से सहमत हूँ। Gemini-cli मुझे CC या Codex की तुलना में सचमुच बहुत खराब लगा फिर भी मुझे लगता है कि Google की priority सबसे बढ़िया AI बनाना है जो traditional search को बेहतर करे या उसकी जगह ले सके। वही उसका core business है, और monetization की position में भी वह सबसे बेहतर जगह पर है। user base और query volume के हिसाब से उसके पास पहले से ही भारी distribution advantage है उम्मीद है कि वह Gemini-cli की priority भी बढ़ाए और इस क्षेत्र की competition को और आक्रामक बनाए
- मेरी याद में जब Gemini 3 Pro पहली बार आया था, तब इसे उस समय के Claude version के लगभग बराबरी का माना गया था। लेकिन आज का Gemini 3 अब काफ़ी पुराना महसूस होता है इस बीच बहुत से Chinese models आ गए हैं और Claude भी कई बार update हो चुका है, इसलिए अभी ऐसा लगता है कि Google इस क्षेत्र में थोड़ा ठहरा हुआ है। हाँ, यह भी संभव है कि वह जल्द ही बड़े सुधार के साथ सबको चौंका दे
- मुझे लगता है कि Google की preview naming काफ़ी मनमानी है। यह availability या continuity के वादों से बचने का तरीका है, और ऐसा PR tactic भी लगता है जिसमें failure होने पर कहा जा सके कि यह तो beta-quality थी
- मैं हमेशा सोचता रहा हूँ कि Gemini में मैं क्या मिस कर रहा हूँ। मुझे तो यह ज़्यादा से ज़्यादा दूसरे दर्जे का मॉडल लगता है जानकारी जुटाने में यह ठीक-ठाक है, लेकिन agentic काम में लगभग बेकार है, और हमेशा थोड़ा नशे में-सा लगता है। Antigravity में अगर Claude credits खत्म हो जाएँ, तो लगता है दिन वहीं खत्म हो गया यह बात मज़ेदार लगी कि कहा जाता है यह बहुत कम tokens इस्तेमाल करता है, क्योंकि मेरे अनुभव में तो यह अक्सर ऐसे death loop में फँस जाता था जहाँ समस्या हल ही नहीं होती थी
अब अगर बड़े AI करने हैं, तो व्यावहारिक रूप से या तो NVidia से खरीदना होगा या Google से किराए पर लेना होगा। और Google chips, engine और systems को पूरे data center के नज़रिए से design कर सकता है, इसलिए वह उन हिस्सों तक optimize कर सकता है जिन्हें chip vendor centralized नहीं कर सकता इसलिए मेरा अनुमान है कि scale सच में बहुत बड़ा होने पर Google systems हमेशा ज़्यादा cost-efficient होंगे। वैसे, इन्हीं कारणों समेत मेरी GOOG में long position है
- मैं भी Google पर दांव लगाना चाहता, अगर Gemini CLI experience कम से कम Codex या Claude के स्तर के आसपास होता hardware कितना भी अच्छा हो, अगर flagship coding agent turn-end token ढूँढते-ढूँढते loop में फँस जाए, तो उसकी value बहुत गिर जाती है
- क्या Amazon भी इसी तरह की अपनी TPU-जैसी chip नहीं बना रहा है, यह सोच रहा था
- मुझे तो यह कहावत याद आई: किसी और के राज्य में किला मत बनाओ आखिर में NVidia से खरीदना ही एकमात्र वास्तविक विकल्प लगता है, और वह भी मुझे आदर्श नहीं लगता
- मैं तो इस hypothesis के लगभग उलट पक्ष में हूँ। दो कारण हैं: पहला, Google अब तक production को कृत्रिम रूप से सीमित करता दिखा है दूसरा, TSMC उस पक्ष को पसंद करेगा जो capacity पर सबसे ज़्यादा पैसा दे सके, इसलिए नई process के पहले slots Nvidia को ही मिलेंगे, ऐसा मुझे लगता है और GCP का operating margin Hetzner या lambdalabs से ऊँचा है, जबकि वास्तव में सस्ते GPU rental विकल्प भी मौजूद हैं, इसलिए students या छोटे researchers अंततः GPU पर ही टिके रहेंगे, ऐसा लगता है
- अगर management थोड़ा और प्रेरणादायक होता, तो शायद मैं Google पर दांव लगाता Cook-युग का Apple भी Jobs के समय से नरम था, लेकिन Google तो जैसे चट्टान से नीचे गिर गया। अगर OpenAI ने ChatGPT जारी न किया होता, तो शायद Google इस tech को अब भी internal experiments में ही दबाकर रखता। अब तो लगता है कि वही चीज़ इसकी chip R&D को आगे धकेलने वाली ताकत बन गई है
जब बाकी कंपनियाँ news cycle का ध्यान खींच रही हैं, Google चुपचाप मज़बूत होते जाने वाली लहर पर सवार होकर consumer market share जमा करता दिखता है शायद शुरू से AI को vertically integrate करने की वजह से उसके infrastructure issues भी लगभग नहीं दिखते, और जो कंपनी कभी खत्म होती हुई लग रही थी, अब वह ज्वार की तरह हर दिशा में फैलती दिख रही है
- लेकिन Google Antigravity subreddit तो पूरा अराजक लगा https://www.reddit.com/r/GoogleAntigravityIDE/
- मुझे लगता है 1–2 साल में Google और Apple आखिरकार दोनों फायदा उठाने की स्थिति में होंगे ये लोग हर महीने अधपके products निकालकर market cap दोगुना करने वाली speed game नहीं खेल रहे; मुझे उम्मीद है कि वे observe करेंगे, सोचेंगे, और फिर सच में बेहद polished products निकालेंगे
- Google के हालिया open models मुझे दूसरे open models के मुकाबले काफ़ी competitive लगते हैं खासकर 2–4GB जैसे छोटे sizes में इनोवेशन दिखता है, और इससे phone या उससे भी छोटे devices पर व्यावहारिक quality की reasoning के करीब पहुँचने के लिए gap कम करने में मदद मिल रही है
- अगर hype हटा दें, तो OpenAI और Anthropic ऐसे लगते हैं जैसे पैसे से खुद को ढँककर और बड़ा अलाव बनाने की होड़ में एक-दूसरे पर आग लगा रहे हों
- मुझे नहीं लगता कि AI adoption, Google के लिए OpenAI या Anthropic जितना अस्तित्वगत मुद्दा है ऊपर से Google कुछ भी कहे, उसके लिए उन दोनों जैसी hype बनाना मुश्किल है, और आखिरकार बात अक्सर सिर्फ corporate PR copy जैसी सुनाई देती है
Gemini, ChatGPT और Claude तीनों इस्तेमाल करने वाले के तौर पर देखें तो Gemini लगातार काफ़ी कम tokens इस्तेमाल करता है आखिर में मुझे लगा कि Gemini का अभी इसी स्तर पर ठहरना शायद छोटे thinking budget की वजह से है Google के पास शायद सबसे ज़्यादा compute और सबसे कम cost structure होगा, इसलिए यह सवाल था कि वह बाकी दोनों की तरह reasoning compute को ज़ोर से क्यों नहीं धकेल रहा। शायद दूसरी services का भार हो, या training-केंद्रित strategy हो, पता नहीं, लेकिन यह काफ़ी दिलचस्प लगा
- मैंने कुछ महीनों तक लगभग 20 डॉलर वाले Google One subscription के साथ Gemini Pro इस्तेमाल किया, और लगा कि information verify करने के लिए web search चलाने की ज़रूरत भी ChatGPT 5.4 Pro से कम पड़ती है coding comparison भी करना चाहता था, लेकिन Gemini VSCode add-in काम नहीं कर रहा था, इसलिए नहीं कर पाया Android और web app में bugs भी बहुत थे, और threads के बीच आने-जाने पर chat history गायब हो जाती थी, इसलिए इस महीने Google One subscription cancel करने का सोच रहा हूँ
- मुझे समझ नहीं आता कि Claude या ChatGPT की जगह Gemini इस्तेमाल करने का competitive advantage क्या है output quality मुझे उन दोनों के करीब भी नहीं लगती
- आज ही जारी किया गया enterprise agentic platform शायद Fortune 500 के reasoning workloads को खींचने वाला gravity well बन सकता है, ऐसी उम्मीद है
- मुझे आधा यकीन है कि GLM-5 के GLM-4.7 से बेहतर होने की एक बड़ी वजह यह थी कि उसने token usage में ज़्यादा आक्रामकता दिखाई 4.7 के साथ source code को पर्याप्त पढ़वाना बहुत मुश्किल था, लेकिन एक बार पढ़ ले तो वह काफ़ी सक्षम था मितव्ययिता एक गुण है, लेकिन इसका उल्टा मतलब यह भी हो सकता है कि मॉडल पर्याप्त reflection नहीं करता, पर्याप्त factors नहीं देखता, या source code को पर्याप्त नहीं पढ़ता। आखिर में tokens बचाने और बहुत खर्च करने के बीच का सही संतुलन अभी भी ऐसा क्षेत्र है जहाँ किसी को पक्का नहीं पता
यह बात कि एक TPU 8t superpod 9,600 chips और 2PB shared high-bandwidth memory तक scale कर सकता है, प्रभावशाली लगी मैं इस क्षेत्र का विशेषज्ञ नहीं हूँ, लेकिन कम से कम मुझे तो यह Google की काफ़ी बड़ी competitive advantage लगी
- मुझे भी लगता है यह सही है। फिर भी instruction और data के separation की दिशा में कोई breakthrough हुए बिना AGI नहीं बनेगा, ऐसा मेरा मानना है
यह दावा कि TPU 8t और TPU 8i पिछली generation की तुलना में power per performance में 2 गुना तक बेहतर हैं, काफ़ी प्रभावशाली लगा खास बात यह थी कि पिछली generation भी 2025 का product होने जितनी हालिया थी। training hardware और inference hardware का अलग होना भी ध्यान खींचने वाला था, और यह जानने की जिज्ञासा हुई कि NV hardware इस्तेमाल करने वाली कंपनियाँ भी ऐसा अलगाव रखती हैं या उनका setup ज़्यादा general-purpose होता है
- यह तो अच्छी तरह जाना हुआ तथ्य है कि training compute-bound होती है और inference memory-bound, लेकिन मेरी जानकारी में Nvidia deployments आम तौर पर दोनों में से किसी एक के लिए विशेष रूप से optimize नहीं होते बहुत से cloud और neocloud providers workload खुद own नहीं करते, इसलिए versatility महत्वपूर्ण होती है, और जब H200 जैसे महंगे hardware के साथ networking में भी निवेश हो, तो उसे कई तरह के customers को बेचना पड़ता है हाँ, Vera Rubin के Grok LPU या Cerebras जैसे inference-optimized accelerators आ रहे हैं, इसलिए specialization की दिशा पहले ही शुरू हो चुकी है
- NVIDIA की तरफ़ से तो मैं पक्के तौर पर नहीं कह सकता, लेकिन AWS के पास अपने अलग training chips और inference chips हैं हालाँकि अफ़वाह यह भी है कि inference chips इतने कमजोर हैं कि कुछ कंपनियाँ inference भी training chips पर ही चलाती हैं
- dedicated hardware आम तौर पर ज़्यादा तेज़ performance देता है, इसलिए जैसे-जैसे कोई क्षेत्र mature होता है, जटिल और महंगे systems सस्ते और आम 1-dollar chips तक उतर आते हैं इसलिए मुझे लगा कि Google, NVidia पर टिकी कंपनियों की तुलना में अपनी stack को कहीं बेहतर समझता है। Google के पास keyboard से लेकर silicon तक सब कुछ है, इसलिए जिन features को resources के लिए एक-दूसरे से compete करना पड़ता है, उन्हें अलग कैसे करना है, यह उसने काफ़ी दोहराव के साथ सीखा है
- training chips भी आखिरकार धीमे लेकिन high-throughput वाले large-scale inference के लिए काफ़ी उपयोगी हो सकते हैं जहाँ time sensitivity कम हो, वहाँ यह approach काफ़ी आम हो जाएगी, ऐसा मेरा अनुमान है
- सिर्फ़ Vera Rubin में तेज़ inference के लिए Groq chips का शामिल होना ही एक trend दिखाने के लिए काफी था जब energy demand इतनी ऊँची हो, तो हर संभव optimization का पीछा करना स्वाभाविक लगता है
मैं Gemini को JetBrains के Junie के साथ इस्तेमाल कर रहा हूँ, और Junie खुद Claude Code जितना अच्छा नहीं है, फिर भी मौजूदा Google tools से कहीं आगे लगता है इस combination के साथ मुझे काफ़ी सस्ते में भी लगातार अच्छे नतीजे मिल रहे हैं
- JetBrains IDE और tool context के भीतर भी, क्या Junie को competitors के बराबर का मानते हैं, यह जानना चाहूँगा
बड़े reasoning providers में Google की model deprecation policy सबसे परेशान करने वाली में से है लॉन्च के ठीक 1 साल बाद वह models हटा देता है और अगली generation पर force migrate कर देता है। अपने silicon के बावजूद मुझे लगा था कि वह ज़्यादा stable होगा, लेकिन उल्टा निकला। rate limiting भी OpenAI से कहीं ज़्यादा सख्त है, तो समझ नहीं आता यह TPU की वजह से है या बस कोई अजीब policy decision है
- पुराने Gemini releases को इतनी हल्के में बंद कर देने का Google का रवैया काफ़ी निराशाजनक है मेरी व्याख्या यह है कि ज़्यादातर tools सिर्फ़ latest model इस्तेमाल करते हैं, इसलिए नया model जल्दी ही कुल volume का 90%+ ले लेता है, और फिर Google-स्टाइल cost-benefit analysis लागू होकर पुराने versions को बेरहमी से बंद कर देता है हाल में Gemini 2.5 की EOL date बढ़ाना तो उल्टा चौंकाने वाला था, और मेरा मानना है कि Google कभी customer-obsessed company रही ही नहीं
- Flash 2 अभी जून तक EOL भी नहीं है, लेकिन weekend भर 429 आते रहे और error rate 90% तक पहुँच गई इसलिए आखिरकार मैंने GPT 5.4 nano पर switch कर लिया
अगर AI में कोई अंतिम विजेता उभरता है, तो मुझे लगता है या तो पूरी stack रखने वाला Google जीतेगा, या फिर सबसे ज़्यादा AI-capable edge sites deploy करने वाला Apple; इसके अलावा कोई और तस्वीर आसानी से नहीं बनती
- मेरे हिसाब से विजेता कोई local model wrapper भी हो सकता है जो किसी खास काम को बहुत अच्छी तरह करता हो search जैसी चीज़ों के लिए वह विकल्प ज़्यादा संभावित लगता है जो लोगों को खुश करने वाले मानवीकृत चापलूस की तरह नहीं, बल्कि सच में काम करने के लिए design किया गया हो
- यह संभावना भी काफ़ी है कि Google product side पर लगातार गलतियाँ करता रहे उसकी भारी distribution power उसे टिकाए रख सकती है, लेकिन अगर बेहतर product आ गया, तो IE से Chrome जैसी विघटनकारी shift झेलनी पड़ सकती है
इस link में architecture की व्याख्या ज़्यादा विस्तार से दी गई थी। https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

एजेंट युग के लिए दो चिप: Google की 8वीं पीढ़ी की TPU

8वीं पीढ़ी की TPU का अवलोकन

10+ वर्षों की डिज़ाइन फ़िलॉसफ़ी

training और inference को अलग करने की वजह

TPU 8t: training के लिए पावरहाउस

बड़े पैमाने पर विस्तार(Massive Scale)

अधिकतम उपयोगिता(Maximum Utilization)

लगभग-रैखिक स्केलिंग(Near-Linear Scaling)

विश्वसनीयता और उपलब्धता

TPU 8i: inference इंजन

memory wall को तोड़ना(Breaking the Memory Wall)

Axion-आधारित efficiency

MoE model scaling

latency हटाना(Eliminating Lag)

प्रदर्शन-प्रति-लागत

Gemini के साथ co-design, सबके लिए खुला

framework और accessibility

बड़े पैमाने की power-efficient डिज़ाइन

agentic युग के लिए इंफ्रास्ट्रक्चर

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय