TPU vs. GPU, और Google लंबे समय में AI प्रतिस्पर्धा क्यों जीत सकता है

(uncoveralpha.com)

7 पॉइंट द्वारा GN⁺ 2025-11-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google TPU बड़े पैमाने के AI inference workloads को संभालने के लिए डिज़ाइन की गई dedicated ASIC chip है, जो GPU की तुलना में बेहतर efficiency और cost competitiveness प्रदान करती है
Systolic Array architecture के ज़रिए memory access को न्यूनतम करना और operations per joule को अधिकतम करना इसका मुख्य differentiator है
नवीनतम TPUv7(Ironwood) ने पिछली पीढ़ी की तुलना में performance और memory bandwidth में बड़ा सुधार किया है, और Nvidia Blackwell GPU के समान स्तर की performance हासिल की है
TPU की ecosystem limitations और GCP-exclusive availability इसके व्यापक प्रसार में प्रमुख बाधाएँ हैं, लेकिन Google external customers बढ़ाने के लिए organizational restructuring और support expansion कर रहा है
अपने chip के ज़रिए cloud margins की recovery और competitiveness को मजबूत करके, Google लंबे समय में AI infrastructure market का एक प्रमुख विजेता बन सकता है

TPU का इतिहास और development background

2013 में Google ने यह आकलन किया कि voice search usage बढ़ने के कारण data center capacity को दोगुना करना पड़ेगा
- मौजूदा CPU और GPU के साथ deep learning computation (large-scale matrix multiplication) को कुशलतापूर्वक संभालना कठिन था
इसके बाद Google ने TensorFlow neural network के लिए dedicated ASIC विकसित करने का फैसला किया, और 15 महीनों में silicon को data center में deploy कर दिया
2015 तक TPU को Google Maps, Photos, Translate जैसी प्रमुख services में लागू किया जा चुका था
2016 के Google I/O में इसे आधिकारिक रूप से पेश किया गया, और उसके बाद TPU AI inference cost को कम करने वाली मुख्य infrastructure के रूप में विकसित हुआ

TPU और GPU के बीच structural differences

GPU एक general-purpose parallel processor है, जबकि TPU एक domain-specific architecture है
- GPU मूल रूप से graphics processing के लिए डिज़ाइन किया गया था, इसलिए इसमें cache, branch prediction जैसी complex control logic शामिल होती है
- TPU इन तत्वों को हटाकर Systolic Array structure के साथ data movement को न्यूनतम करता है
TPU का Systolic Array data को एक बार load करने के बाद continuous computation flow में आगे बढ़ाता है, जिससे Von Neumann bottleneck कम होता है
Ironwood (7th generation) में सुधार
- SparseCore को मजबूत किया गया, जिससे large-scale embedding processing की efficiency बढ़ी
- HBM capacity 192GB, bandwidth 7,370GB/s तक बढ़ी
- Inter-Chip Interconnect(ICI) की performance में सुधार, अधिकतम 1.2TB/s bandwidth
Google Optical Circuit Switch(OCS) और 3D torus network के ज़रिए बड़े TPU Pod बनाता है
- power efficiency ऊँची है, लेकिन flexibility InfiniBand की तुलना में कम है

TPU vs GPU performance comparison

TPUv7(BF16 4,614 TFLOPS) बनाम TPUv5p(459 TFLOPS), यानी लगभग 10 गुना performance improvement
industry interviews का सार
- TPU performance per watt और cost efficiency में आगे है
- कुछ applications में 1.4x higher performance per dollar हासिल हुआ
- TPUv6, GPU की तुलना में 60~65% efficiency advantage दिखाता है, जबकि पिछली पीढ़ी 40~45% पर थी
- TPU में heat generation और power consumption कम है, और environmental burden भी कम है
कुछ customers TPU Pod का उपयोग करके cost को 1/5 तक घटा सकते हैं
ASIC structure के कारण size 30% कम, power 50% कम होने का भी उल्लेख है
Google के internal materials के अनुसार TPUv7, TPUv6e की तुलना में performance per watt में 2x बेहतर है
Nvidia CEO Jensen Huang ने भी TPU को “special case” बताते हुए उस पर ध्यान दिया

TPU adoption को रोकने वाली समस्याएँ

पहली बड़ी बाधा है ecosystem (CUDA monopoly)
- universities और industry दोनों में education और development CUDA-केंद्रित हैं
- TPU मुख्य रूप से JAX और TensorFlow पर केंद्रित रहा है, जबकि PyTorch support अपेक्षाकृत बाद में मजबूत हुआ
multi-cloud strategy का प्रसार भी एक constraint है
- अधिकांश कंपनियों का data AWS/Azure/GCP में बँटा हुआ है, इसलिए data movement cost (egress) अधिक होने के कारण GPU-based workloads अधिक flexible रहते हैं
- TPU सिर्फ GCP पर उपलब्ध है, जबकि Nvidia तीनों बड़े cloud platforms पर उपलब्ध है
अगर TPU चुनने के बाद pricing बदल जाए या environment बदल जाए, तो rewrite cost बहुत अधिक हो सकती है
Google ने हाल में ही external sales और adoption के लिए अपनी organization का विस्तार शुरू किया है, और कुछ पूर्व एवं वर्तमान कर्मचारियों ने भविष्य में neocloud आदि के माध्यम से external supply की संभावना का उल्लेख किया है

TPU और Google Cloud का strategic value

AI era में cloud industry high-margin structure (50~70%) → low-margin (20~35%) की ओर बदल रही है
- इसका कारण Nvidia के 75% margin से पैदा होने वाला cost pressure है
केवल वही providers जिनके पास अपना ASIC है, खासकर TPU, traditional cloud margins (50% range) तक लौट सकते हैं
Google की बढ़त के कारक
- TPU cloud के लिए सबसे mature ASIC है
- Google RTL सहित chip design के frontend का अधिकांश हिस्सा in-house करता है
- Broadcom केवल physical design (backend) संभालता है, और उसकी margin structure Nvidia से कम है, जिससे TPU की cost competitiveness बढ़ती है
- Google के पास पूरा software optimization stack है, जिससे hardware performance को अधिकतम किया जा सकता है
TPU के आधार पर Gemini 3 सहित प्रमुख models की training और inference चलाए जाते हैं
- internal AI services में TPU का उपयोग लगातार बढ़ रहा है
SemiAnalysis ने मूल्यांकन किया कि “Google का 7th-generation TPU, Nvidia Blackwell के समकक्ष स्तर का है”
TPU को GCP की long-term competitive advantage और AI infrastructure market share expansion की मुख्य driving force माना जा रहा है

1 टिप्पणियां

GN⁺ 2025-11-28

Hacker News राय

Google का असली हथियार TPU silicon खुद नहीं, बल्कि OCS(Optical Circuit Switch) interconnect के ज़रिए मिलने वाली विशाल parallel scalability है
The Next Platform के अनुसार, 9,216 Ironwood TPU को जोड़कर 1.77PB HBM memory का इस्तेमाल किया जा सकता है। यह Nvidia के Blackwell GPU आधारित rack-scale system (20.7TB HBM) की तुलना में बहुत बड़ा पैमाना है
Nvidia single-chip स्तर पर बेहतर है, लेकिन बड़े distributed training या inference में Google की optical switching scalability की टक्कर का कुछ नहीं है
- Google पूरे vertically integrated stack का मालिक है। इसकी वजह से वह cloud scale पर AI services को बहुत सस्ते और फिर भी मुनाफ़े के साथ दे सकता है
  ज़्यादातर कंपनियों को hardware खुद खरीदने या model train करने की ज़रूरत नहीं होगी; वे बस Google की AI app store जैसी services का उपयोग कर सकती हैं
- असल में दोनों systems की network architecture पूरी तरह अलग है। Nvidia का NVLink एक all-to-all switched fabric है, जबकि TPU एक 3D torus संरचना है
  उदाहरण के लिए Mixture of Experts models में all-to-all communication बहुत होता है, इसलिए वहाँ NVLink कहीं ज़्यादा प्रभावी है
- Nvidia अब भी tweets पोस्ट करता है जिनमें दावा किया जाता है कि उसकी technology बेहतर है
  Nvidia आधिकारिक tweet लिंक
- अगर Google का दावा सही है, तो उसे MLPerf benchmark में भारी बढ़त दिखानी चाहिए, लेकिन ऐसा नहीं है
  model parallelization के लिए तेज़ और छोटी network फायदेमंद होती है, जबकि data parallelization के लिए बड़ी network बेहतर होती है। इसी संतुलन की वजह से Nvidia जीत रहा है
- वही memory capacity पाने के लिए Google को 100 गुना ज़्यादा chips चाहिए
Gemini 3 Pro पहले ही काफ़ी हद तक पुराना लगने लगा है। Google के पास Anthropic से कहीं ज़्यादा resources हैं, लेकिन अगर hardware उसका secret weapon होता, तो उसे अब तक market पर कब्ज़ा कर लेना चाहिए था
लेकिन हक़ीक़त अलग है
1. hardware का कुशल उपयोग करना मुश्किल है, और optimization पूरा होते-होते industry अगले model पर पहुँच जाती है
2. ज़्यादातर कंपनियाँ समस्या को पैसे से हल कर सकती हैं। H100 पर भी चीज़ें काफ़ी अच्छी चलती हैं
3. सिर्फ़ नए research methods से भी model performance काफ़ी बढ़ सकती है
4. model development अब भी dataset curation और evaluation work जैसे काफ़ी मानवीय श्रम पर निर्भर है
5. custom hardware अपने साथ custom समस्याएँ लाता है। TPU cluster की समस्या का जवाब Stack Overflow पर नहीं मिलेगा
कुछ लोगों की राय है कि CUDA training में अहम है, लेकिन inference चरण में कम अहम है
- NVIDIA chips ज़्यादा general-purpose हैं। training के दौरान sin, cos जैसे special operations, intermediate computation storage, gradient handling जैसी कई चीज़ों की ज़रूरत पड़ती है
  लेकिन inference fixed weights को बार-बार लागू करने की अपेक्षाकृत सरल प्रक्रिया है, इसलिए TPU वहाँ अधिक efficient हो सकता है
- training chip market bubble हो सकता है, लेकिन inference market उससे कहीं बड़ा है। किसी समय जब model performance पर्याप्त हो जाएगी, training demand घट सकती है और power-efficient inference systems मुख्यधारा बन सकते हैं
- CUDA के महत्वपूर्ण होने की वजह ecosystem dependency है। training software का अधिकांश हिस्सा CUDA पर बना है
- training एक बहुत बड़ी समस्या को छोटे हिस्सों में बाँटने और data dependency को संभालने की प्रक्रिया है, जबकि inference स्वतंत्र छोटे-छोटे समस्याओं का समूह है
- CUDA का developer experience कहीं बेहतर है। जब research productivity महत्वपूर्ण हो, तो यह निर्णायक बन जाता है
ऐसा कोई कारण नहीं कि Nvidia TPU जैसी specialized chips न बना सके
- Nvidia भी आख़िरकार ऐसा करेगा। बस Google chip designer भी है और AI company भी, इसलिए वह पूरा लाभ खुद लेता है
  Nvidia TSMC से contract manufacturing कराकर chips महँगे दाम पर बेचता है, जबकि Google खुद इस्तेमाल करके margin बचा लेता है
- DeepMind, TPU टीम के साथ सीधे काम करके project-specific chips डिज़ाइन करता है। OpenAI ने भी इसी वजह से अपना chip development घोषित किया है, लेकिन यह बहुत capital-intensive है
- TPU, NVidia GPU से सस्ता है और Google के अंदरूनी उपयोग के लिए vertically integrated है
- Nvidia का जोखिम अस्तित्वगत संकट से ज़्यादा profit margin गिरने का है। अगर chip sales 100 गुना बढ़ भी जाएँ, लेकिन margin 5% पर आ जाए, तो market cap फिर भी घट सकता है
- दरअसल Nvidia पहले ही Tensor Core के साथ उसी दिशा में विकसित हो रहा है
Reuters की रिपोर्ट के अनुसार Meta, Google chips में अरबों डॉलर के निवेश पर बातचीत कर रहा है
LLM के लिए ASIC, cryptocurrency ASIC से कहीं अधिक जटिल है। cryptocurrency में सिर्फ़ fixed hash algorithm संभालना होता है, लेकिन LLM लगातार विकसित हो रहे हैं
इस संदर्भ में TPU का मतलब क्या है, यह थोड़ा उलझन भरा है
- LLM में memory और interconnect bandwidth महत्वपूर्ण हैं। इसके विपरीत cryptocurrency 100% compute-centric है
- ज़्यादातर LLM matrix multiplication पर आधारित होते हैं, और TPU इसी को accelerate करता है। PyTorch में भी TPU support है
- ASIC होने के बावजूद वह programmable हो सकता है। TPU को अलग-अलग models चलाने होते हैं, इसलिए वह किसी hardcoded chip जैसा नहीं है
- LLM architecture बदलती रहती है, लेकिन सामान्य building blocks (matrix operations, floating-point types) वही रहते हैं। इस अर्थ में TPU व्यावहारिक रूप से LLM के लिए ASIC है
- cryptocurrency भी बदलती है। उदाहरण के लिए Monero, ASIC को रोकने के लिए CPU-स्तर की architecture का उपयोग करता है
काश व्यक्तिगत उपयोग के लिए standalone TPU विकल्प ज़्यादा होते। अभी 2019 का Coral ही लगभग एकमात्र विकल्प है
यह बहस RISC vs CISC जैसी अकादमिक लगती है। Nvidia GPU भी आख़िरकार TPU जैसा ही काम करने के लिए डिज़ाइन किया जा रहा है
Google के भीतर भी 5 साल बाद बड़ा अंतर शायद न रहे
Google को TPU से लाभ मिलता है, लेकिन बाहरी developers को इसका सीधा फ़ायदा नहीं मिलता
- यह सच है कि Google TPU नहीं बेचता, लेकिन दूसरी कंपनियाँ भी अपने chips विकसित कर रही हैं
  Microsoft का Maia, AMD/NVIDIA के data center chips, और network specialist कंपनियों के अधिग्रहण—सब उसी दिशा में जा रहे हैं
  Google आगे है, लेकिन आख़िरकार यह convergent competition बन सकता है
Sparse models समान quality बनाए रखते हुए compute और storage को 16 गुना तक घटा सकते हैं
TPU sparse matrix handling में कमज़ोर है, लेकिन dense model training में मज़बूत है
- हालाँकि TPU में SparseCore नाम का dedicated hardware भी शामिल है
  TPU system architecture दस्तावेज़
  OpenXLA SparseCore परिचय
आख़िरकार सवाल यही बचता है कि इस प्रतिस्पर्धा की finish line कहाँ है, या फिर निचला तल कहाँ है

TPU vs. GPU, और Google लंबे समय में AI प्रतिस्पर्धा क्यों जीत सकता है

TPU का इतिहास और development background

TPU और GPU के बीच structural differences

TPU vs GPU performance comparison

TPU adoption को रोकने वाली समस्याएँ

TPU और Google Cloud का strategic value

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय