एजेंट युग के लिए दो चिप: Google की 8वीं पीढ़ी की TPU

(blog.google)

6 पॉइंट द्वारा GN⁺ 7 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Google ने 10+ वर्षों के TPU विकास इतिहास को समेटते हुए 8वीं पीढ़ी की दो TPU चिप्स पेश की हैं, और क्रमशः बड़े पैमाने के मॉडल प्रशिक्षण के लिए TPU 8t तथा हाई-स्पीड inference के लिए TPU 8i जैसी विशेषीकृत आर्किटेक्चर अपनाई हैं
TPU 8t का एकल सुपरपॉड 9,600 चिप्स, 121 ExaFlops तक स्केल कर सकता है, और पिछली पीढ़ी की तुलना में प्रति Pod कंप्यूट प्रदर्शन लगभग 3 गुना बढ़ा है
TPU 8i को memory bandwidth और latency optimization पर फोकस करते हुए agentic inference के लिए दोबारा डिज़ाइन किया गया है, और ऑन-चिप SRAM विस्तार, Axion CPU host, तथा MoE-अनुकूल नेटवर्क सुधारों के जरिए प्रदर्शन-प्रति-लागत में 80% सुधार हासिल किया गया है
दोनों चिप्स Google के अपने डिज़ाइन किए गए Axion ARM-आधारित CPU host पर चलते हैं, और पिछली पीढ़ी की तुलना में प्रति watt प्रदर्शन अधिकतम 2 गुना बेहतर है
AI एजेंटों के लगातार inference, planning और execution वाले युग के लिए training और inference को अलग-अलग optimize करने वाली इंफ्रास्ट्रक्चर रणनीति के तहत इन्हें इस साल की दूसरी छमाही में सामान्य उपलब्धता के लिए लाया जाएगा, और ये Google AI Hypercomputer के हिस्से के रूप में उपलब्ध होंगी

8वीं पीढ़ी की TPU का अवलोकन

Google Cloud Next में 8वीं पीढ़ी की Tensor Processor Unit(TPU) की घोषणा की गई, जिसमें training के लिए TPU 8t और inference के लिए TPU 8i दो आर्किटेक्चर शामिल हैं
इन्हें custom supercomputer चलाने के लिए डिज़ाइन किया गया है, और ये अत्याधुनिक मॉडल training, agent development, तथा बड़े पैमाने के inference workloads सभी को कवर करती हैं
Gemini सहित प्रमुख foundation models कई वर्षों से TPU पर चलाए जाते रहे हैं, और 8वीं पीढ़ी training, serving और agentic workloads के पूरे दायरे में scale, efficiency और performance एक साथ प्रदान करती है
AI एजेंट युग में मॉडल को समस्याओं पर reasoning करनी होती है, multi-step workflow चलाने होते हैं, और अपनी ही actions से सीखने वाले continuous loop पूरे करने होते हैं, इसलिए इंफ्रास्ट्रक्चर पर नई आवश्यकताएँ पैदा होती हैं
Google DeepMind के साथ मिलकर इन्हें सबसे कठिन AI workloads संभालने और बदलती model architecture के अनुरूप ढलने के लिए डिज़ाइन किया गया है

10+ वर्षों की डिज़ाइन फ़िलॉसफ़ी

TPU ने custom numerical computation, liquid cooling, custom interconnect जैसे ML supercomputing घटकों के लिए मानक स्थापित किए हैं, और 8वीं पीढ़ी 10+ वर्षों के विकास का संकलन है
मुख्य डिज़ाइन सिद्धांत: silicon को hardware, networking और software (जिसमें model architecture और application requirements शामिल हैं) के साथ co-design करके power efficiency और absolute performance दोनों में नाटकीय सुधार हासिल करना
Citadel Securities द्वारा अपने AI workloads के लिए TPU चुनने के उदाहरण को अग्रणी संगठनों के एक केस के रूप में उल्लेख किया गया

training और inference को अलग करने की वजह

hardware development cycle software की तुलना में बहुत लंबी होती है, इसलिए हर पीढ़ी की TPU डिज़ाइन करते समय launch के समय की तकनीक और मांग का पहले से अनुमान लगाना पड़ता है
कई वर्ष पहले से frontier AI models की production deployment के कारण inference demand में वृद्धि की अपेक्षा की जा रही थी
AI एजेंटों के उभार के साथ training और serving की आवश्यकताएँ अलग-अलग होने लगीं, इसलिए अलग-अलग विशेषीकृत चिप्स समुदाय के लिए अधिक लाभकारी मानी गईं
TPU 8t को अधिक compute throughput और scale-up bandwidth के साथ बड़े पैमाने की training के लिए optimize किया गया है
TPU 8i को अधिक memory bandwidth के साथ latency-sensitive inference workloads के लिए optimize किया गया है, क्योंकि एजेंटों के बीच interactions में छोटे-छोटे inefficiencies भी बड़े पैमाने पर बढ़ जाती हैं
दोनों चिप्स विभिन्न workloads चला सकते हैं, लेकिन specialization के जरिए उल्लेखनीय efficiency gain हासिल हुआ है

TPU 8t: training के लिए पावरहाउस

लक्ष्य frontier model development cycle को कई महीनों से घटाकर कुछ हफ्तों तक लाना है
सर्वश्रेष्ठ compute throughput, shared memory और inter-chip bandwidth को optimal power efficiency तथा productive computing time के साथ संतुलित तरीके से जोड़ा गया है
पिछली पीढ़ी की तुलना में प्रति Pod compute performance लगभग 3 गुना बढ़ी है
बड़े पैमाने पर विस्तार(Massive Scale)
- एकल TPU 8t सुपरपॉड 9,600 चिप्स, 2 पेटाबाइट shared HBM तक स्केल कर सकता है
- पिछली पीढ़ी की तुलना में inter-chip bandwidth 2 गुना
- 121 ExaFlops की compute performance प्रदान करता है, जिससे सबसे जटिल मॉडल एकल विशाल memory pool का उपयोग कर सकते हैं
अधिकतम उपयोगिता(Maximum Utilization)
- 10 गुना तेज़ storage access एकीकृत
- TPUDirect के जरिए data को सीधे TPU में pull करके end-to-end system की maximum utilization सुनिश्चित की जाती है
लगभग-रैखिक स्केलिंग(Near-Linear Scaling)
- नए Virgo Network को JAX और Pathways software के साथ जोड़कर एकल logical cluster में अधिकतम 10 लाख चिप्स तक लगभग-रैखिक स्केलिंग संभव है
विश्वसनीयता और उपलब्धता
- लक्ष्य goodput(उपयोगी उत्पादक computing time) 97% से अधिक
- व्यापक RAS(Reliability, Availability, Serviceability) सुविधाएँ शामिल
  - दसियों हज़ार चिप्स पर real-time telemetry
  - दोषपूर्ण ICI links की स्वचालित पहचान और job interruption के बिना bypass routing
  - OCS(Optical Circuit Switching) के जरिए मानव हस्तक्षेप के बिना विफलता के आसपास hardware reconfiguration
- frontier training scale पर hardware failure, network latency, और checkpoint restart non-training time होते हैं, और 1%p का अंतर कई दिनों के training time में बदल सकता है

TPU 8i: inference इंजन

agentic युग में उपयोगकर्ता सवाल पूछने, tasks सौंपने और परिणाम पाने जैसा अनुभव चाहते हैं, इसलिए यह कई specialized agents के जटिल flow में swarming करके सहयोग करने वाले कार्यों के लिए optimize किया गया है
"waiting room effect" हटाने के लिए stack को फिर से डिज़ाइन किया गया, और चार प्रमुख innovations लागू की गईं
memory wall को तोड़ना(Breaking the Memory Wall)
- 288GB HBM और 384MB on-chip SRAM (पिछली पीढ़ी से 3 गुना) शामिल
- मॉडल के पूरे active working set को on-chip रखकर processor idle होने से रोका जाता है
Axion-आधारित efficiency
- प्रति server physical CPU hosts की संख्या 2 गुना बढ़ाई गई और Google के अपने Axion ARM-आधारित CPU को अपनाया गया
- NUMA(Non-Uniform Memory Architecture) isolation के जरिए पूरे system performance को optimize किया गया
MoE model scaling
- नवीनतम Mixture of Expert(MoE) models के लिए ICI bandwidth को 2 गुना बढ़ाकर 19.2 Tb/s किया गया
- नई Boardfly architecture के जरिए अधिकतम network diameter 50% से अधिक घटाया गया, जिससे यह एक cohesive low-latency unit की तरह काम करता है
latency हटाना(Eliminating Lag)
- नया on-chip CAE(Collectives Acceleration Engine) global operations को offload करके on-chip latency को अधिकतम 5 गुना घटाता है
प्रदर्शन-प्रति-लागत
- पिछली पीढ़ी की तुलना में प्रति dollar performance 80% बेहतर, यानी समान लागत पर लगभग 2 गुना customer volume serve किया जा सकता है

Gemini के साथ co-design, सबके लिए खुला

8वीं पीढ़ी की TPU, AI की सबसे बड़ी चुनौतियों को हल करने के लिए हर spec को डिज़ाइन करने वाली co-design फ़िलॉसफ़ी की नवीनतम अभिव्यक्ति है
Boardfly topology: आज के सर्वश्रेष्ठ inference models की communication requirements के अनुसार डिज़ाइन
TPU 8i की SRAM capacity: production-scale inference models के KV cache footprint के अनुरूप निर्धारित
Virgo Network bandwidth लक्ष्य: trillion-parameter training की parallelization requirements से निकाला गया
दोनों चिप्स पहली बार Google के अपने Axion ARM-आधारित CPU host पर चलते हैं, जिससे केवल चिप नहीं बल्कि पूरे system का optimization संभव होता है
framework और accessibility
- native JAX, MaxText, PyTorch, SGLang, vLLM समर्थन
- bare-metal access उपलब्ध, जिससे virtualization overhead के बिना direct hardware access संभव
- open source योगदान: MaxText reference implementation, reinforcement learning के लिए Tunix आदि के माध्यम से development से production deployment तक critical path को support

बड़े पैमाने की power-efficient डिज़ाइन

आज के data centers में केवल chip supply ही नहीं बल्कि power एक binding constraint है
पूरे stack में efficiency optimize की गई है, और real-time demand के अनुसार power consumption को dynamically adjust करने वाला integrated power management लागू किया गया है
TPU 8t और TPU 8i दोनों में पिछली पीढ़ी(Ironwood) की तुलना में प्रति watt performance अधिकतम 2 गुना बेहतर है
efficiency सिर्फ chip-level metric नहीं, बल्कि silicon से data center तक की system-level commitment है
- network connectivity को compute के साथ उसी chip में integrate करके TPU pod के भीतर data movement की power cost को काफी घटाया गया
- data center को भी TPU के साथ co-design किया गया, और 5 साल पहले की तुलना में power unit प्रति compute power 6 गुना बढ़ी
दोनों चिप्स 4th-gen liquid cooling तकनीक से समर्थित हैं, जिससे वह performance density बनाए रखी जा सकती है जो air cooling से संभव नहीं
Axion host से accelerator तक पूरे stack का स्वामित्व होने के कारण host और chip को अलग-अलग डिज़ाइन करने पर असंभव system-level energy efficiency optimization हासिल किया गया

agentic युग के लिए इंफ्रास्ट्रक्चर

हर बड़े computing transition के लिए इंफ्रास्ट्रक्चर innovation की आवश्यकता होती है, और agentic युग भी इससे अलग नहीं
autonomous agents के reasoning, planning, execution और learning के continuous loop की मांगों के अनुरूप इंफ्रास्ट्रक्चर को विकसित होना होगा
TPU 8t और TPU 8i इस चुनौती का उत्तर हैं: सर्वश्रेष्ठ AI models बनाना, पूरी तरह orchestrated agent swarms चलाना, और सबसे जटिल inference कार्यों के प्रबंधन को फिर से परिभाषित करने वाली दो विशेषीकृत आर्किटेक्चर
दोनों चिप्स इस साल की दूसरी छमाही में सामान्य उपलब्धता के लिए निर्धारित हैं
Google के AI Hypercomputer के हिस्से के रूप में उपलब्ध
- उद्देश्य-विशिष्ट hardware(computing, storage, networking), open software(frameworks, inference engines), और flexible consumption models(orchestration, cluster management, delivery models) को एकीकृत stack में जोड़ा गया है

एजेंट युग के लिए दो चिप: Google की 8वीं पीढ़ी की TPU

8वीं पीढ़ी की TPU का अवलोकन

10+ वर्षों की डिज़ाइन फ़िलॉसफ़ी

training और inference को अलग करने की वजह

TPU 8t: training के लिए पावरहाउस

बड़े पैमाने पर विस्तार(Massive Scale)

अधिकतम उपयोगिता(Maximum Utilization)

लगभग-रैखिक स्केलिंग(Near-Linear Scaling)

विश्वसनीयता और उपलब्धता

TPU 8i: inference इंजन

memory wall को तोड़ना(Breaking the Memory Wall)

Axion-आधारित efficiency

MoE model scaling

latency हटाना(Eliminating Lag)

प्रदर्शन-प्रति-लागत

Gemini के साथ co-design, सबके लिए खुला

framework और accessibility

बड़े पैमाने की power-efficient डिज़ाइन

agentic युग के लिए इंफ्रास्ट्रक्चर

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.