- Google TPU बड़े पैमाने के AI inference workloads को संभालने के लिए डिज़ाइन की गई dedicated ASIC chip है, जो GPU की तुलना में बेहतर efficiency और cost competitiveness प्रदान करती है
- Systolic Array architecture के ज़रिए memory access को न्यूनतम करना और operations per joule को अधिकतम करना इसका मुख्य differentiator है
- नवीनतम TPUv7(Ironwood) ने पिछली पीढ़ी की तुलना में performance और memory bandwidth में बड़ा सुधार किया है, और Nvidia Blackwell GPU के समान स्तर की performance हासिल की है
- TPU की ecosystem limitations और GCP-exclusive availability इसके व्यापक प्रसार में प्रमुख बाधाएँ हैं, लेकिन Google external customers बढ़ाने के लिए organizational restructuring और support expansion कर रहा है
- अपने chip के ज़रिए cloud margins की recovery और competitiveness को मजबूत करके, Google लंबे समय में AI infrastructure market का एक प्रमुख विजेता बन सकता है
TPU का इतिहास और development background
- 2013 में Google ने यह आकलन किया कि voice search usage बढ़ने के कारण data center capacity को दोगुना करना पड़ेगा
- मौजूदा CPU और GPU के साथ deep learning computation (large-scale matrix multiplication) को कुशलतापूर्वक संभालना कठिन था
- इसके बाद Google ने TensorFlow neural network के लिए dedicated ASIC विकसित करने का फैसला किया, और 15 महीनों में silicon को data center में deploy कर दिया
- 2015 तक TPU को Google Maps, Photos, Translate जैसी प्रमुख services में लागू किया जा चुका था
- 2016 के Google I/O में इसे आधिकारिक रूप से पेश किया गया, और उसके बाद TPU AI inference cost को कम करने वाली मुख्य infrastructure के रूप में विकसित हुआ
TPU और GPU के बीच structural differences
- GPU एक general-purpose parallel processor है, जबकि TPU एक domain-specific architecture है
- GPU मूल रूप से graphics processing के लिए डिज़ाइन किया गया था, इसलिए इसमें cache, branch prediction जैसी complex control logic शामिल होती है
- TPU इन तत्वों को हटाकर Systolic Array structure के साथ data movement को न्यूनतम करता है
- TPU का Systolic Array data को एक बार load करने के बाद continuous computation flow में आगे बढ़ाता है, जिससे Von Neumann bottleneck कम होता है
- Ironwood (7th generation) में सुधार
- SparseCore को मजबूत किया गया, जिससे large-scale embedding processing की efficiency बढ़ी
- HBM capacity 192GB, bandwidth 7,370GB/s तक बढ़ी
- Inter-Chip Interconnect(ICI) की performance में सुधार, अधिकतम 1.2TB/s bandwidth
- Google Optical Circuit Switch(OCS) और 3D torus network के ज़रिए बड़े TPU Pod बनाता है
- power efficiency ऊँची है, लेकिन flexibility InfiniBand की तुलना में कम है
TPU vs GPU performance comparison
- TPUv7(BF16 4,614 TFLOPS) बनाम TPUv5p(459 TFLOPS), यानी लगभग 10 गुना performance improvement
- industry interviews का सार
- TPU performance per watt और cost efficiency में आगे है
- कुछ applications में 1.4x higher performance per dollar हासिल हुआ
- TPUv6, GPU की तुलना में 60~65% efficiency advantage दिखाता है, जबकि पिछली पीढ़ी 40~45% पर थी
- TPU में heat generation और power consumption कम है, और environmental burden भी कम है
- कुछ customers TPU Pod का उपयोग करके cost को 1/5 तक घटा सकते हैं
- ASIC structure के कारण size 30% कम, power 50% कम होने का भी उल्लेख है
- Google के internal materials के अनुसार TPUv7, TPUv6e की तुलना में performance per watt में 2x बेहतर है
- Nvidia CEO Jensen Huang ने भी TPU को “special case” बताते हुए उस पर ध्यान दिया
TPU adoption को रोकने वाली समस्याएँ
- पहली बड़ी बाधा है ecosystem (CUDA monopoly)
- universities और industry दोनों में education और development CUDA-केंद्रित हैं
- TPU मुख्य रूप से JAX और TensorFlow पर केंद्रित रहा है, जबकि PyTorch support अपेक्षाकृत बाद में मजबूत हुआ
- multi-cloud strategy का प्रसार भी एक constraint है
- अधिकांश कंपनियों का data AWS/Azure/GCP में बँटा हुआ है, इसलिए data movement cost (egress) अधिक होने के कारण GPU-based workloads अधिक flexible रहते हैं
- TPU सिर्फ GCP पर उपलब्ध है, जबकि Nvidia तीनों बड़े cloud platforms पर उपलब्ध है
- अगर TPU चुनने के बाद pricing बदल जाए या environment बदल जाए, तो rewrite cost बहुत अधिक हो सकती है
- Google ने हाल में ही external sales और adoption के लिए अपनी organization का विस्तार शुरू किया है, और कुछ पूर्व एवं वर्तमान कर्मचारियों ने भविष्य में neocloud आदि के माध्यम से external supply की संभावना का उल्लेख किया है
TPU और Google Cloud का strategic value
- AI era में cloud industry high-margin structure (50~70%) → low-margin (20~35%) की ओर बदल रही है
- इसका कारण Nvidia के 75% margin से पैदा होने वाला cost pressure है
- केवल वही providers जिनके पास अपना ASIC है, खासकर TPU, traditional cloud margins (50% range) तक लौट सकते हैं
- Google की बढ़त के कारक
- TPU cloud के लिए सबसे mature ASIC है
- Google RTL सहित chip design के frontend का अधिकांश हिस्सा in-house करता है
- Broadcom केवल physical design (backend) संभालता है, और उसकी margin structure Nvidia से कम है, जिससे TPU की cost competitiveness बढ़ती है
- Google के पास पूरा software optimization stack है, जिससे hardware performance को अधिकतम किया जा सकता है
- TPU के आधार पर Gemini 3 सहित प्रमुख models की training और inference चलाए जाते हैं
- internal AI services में TPU का उपयोग लगातार बढ़ रहा है
- SemiAnalysis ने मूल्यांकन किया कि “Google का 7th-generation TPU, Nvidia Blackwell के समकक्ष स्तर का है”
- TPU को GCP की long-term competitive advantage और AI infrastructure market share expansion की मुख्य driving force माना जा रहा है
1 टिप्पणियां
Hacker News राय
Google का असली हथियार TPU silicon खुद नहीं, बल्कि OCS(Optical Circuit Switch) interconnect के ज़रिए मिलने वाली विशाल parallel scalability है
The Next Platform के अनुसार, 9,216 Ironwood TPU को जोड़कर 1.77PB HBM memory का इस्तेमाल किया जा सकता है। यह Nvidia के Blackwell GPU आधारित rack-scale system (20.7TB HBM) की तुलना में बहुत बड़ा पैमाना है
Nvidia single-chip स्तर पर बेहतर है, लेकिन बड़े distributed training या inference में Google की optical switching scalability की टक्कर का कुछ नहीं है
ज़्यादातर कंपनियों को hardware खुद खरीदने या model train करने की ज़रूरत नहीं होगी; वे बस Google की AI app store जैसी services का उपयोग कर सकती हैं
उदाहरण के लिए Mixture of Experts models में all-to-all communication बहुत होता है, इसलिए वहाँ NVLink कहीं ज़्यादा प्रभावी है
Nvidia आधिकारिक tweet लिंक
model parallelization के लिए तेज़ और छोटी network फायदेमंद होती है, जबकि data parallelization के लिए बड़ी network बेहतर होती है। इसी संतुलन की वजह से Nvidia जीत रहा है
Gemini 3 Pro पहले ही काफ़ी हद तक पुराना लगने लगा है। Google के पास Anthropic से कहीं ज़्यादा resources हैं, लेकिन अगर hardware उसका secret weapon होता, तो उसे अब तक market पर कब्ज़ा कर लेना चाहिए था
लेकिन हक़ीक़त अलग है
कुछ लोगों की राय है कि CUDA training में अहम है, लेकिन inference चरण में कम अहम है
लेकिन inference fixed weights को बार-बार लागू करने की अपेक्षाकृत सरल प्रक्रिया है, इसलिए TPU वहाँ अधिक efficient हो सकता है
ऐसा कोई कारण नहीं कि Nvidia TPU जैसी specialized chips न बना सके
Nvidia TSMC से contract manufacturing कराकर chips महँगे दाम पर बेचता है, जबकि Google खुद इस्तेमाल करके margin बचा लेता है
Reuters की रिपोर्ट के अनुसार Meta, Google chips में अरबों डॉलर के निवेश पर बातचीत कर रहा है
LLM के लिए ASIC, cryptocurrency ASIC से कहीं अधिक जटिल है। cryptocurrency में सिर्फ़ fixed hash algorithm संभालना होता है, लेकिन LLM लगातार विकसित हो रहे हैं
इस संदर्भ में TPU का मतलब क्या है, यह थोड़ा उलझन भरा है
काश व्यक्तिगत उपयोग के लिए standalone TPU विकल्प ज़्यादा होते। अभी 2019 का Coral ही लगभग एकमात्र विकल्प है
यह बहस RISC vs CISC जैसी अकादमिक लगती है। Nvidia GPU भी आख़िरकार TPU जैसा ही काम करने के लिए डिज़ाइन किया जा रहा है
Google के भीतर भी 5 साल बाद बड़ा अंतर शायद न रहे
Google को TPU से लाभ मिलता है, लेकिन बाहरी developers को इसका सीधा फ़ायदा नहीं मिलता
Microsoft का Maia, AMD/NVIDIA के data center chips, और network specialist कंपनियों के अधिग्रहण—सब उसी दिशा में जा रहे हैं
Google आगे है, लेकिन आख़िरकार यह convergent competition बन सकता है
Sparse models समान quality बनाए रखते हुए compute और storage को 16 गुना तक घटा सकते हैं
TPU sparse matrix handling में कमज़ोर है, लेकिन dense model training में मज़बूत है
TPU system architecture दस्तावेज़
OpenXLA SparseCore परिचय
आख़िरकार सवाल यही बचता है कि इस प्रतिस्पर्धा की finish line कहाँ है, या फिर निचला तल कहाँ है