• TPU एक Google domain-specific accelerator है, जो deep learning के लिए सचमुच ज़रूरी गणनाओं को ही रखता है और बाकी को साहसपूर्वक हटा देता है
  • इसकी शुरुआत 2013 में data center विस्तार की सीमाओं के कारण हुई, और 12 साल में यह 7वीं पीढ़ी ‘Ironwood’ तक विकसित हो गया
  • semiconductor performance के अपने-आप बेहतर होते जाने का दौर खत्म होने के साथ, इंतज़ार करने के बजाय खुद design करने की रणनीति एक अहम विकल्प बन गई
  • TPU कोई एक chip नहीं, बल्कि hardware, compiler, network और operating software का co-design system है
  • हर नई पीढ़ी के साथ performance competition से ज़्यादा power, deployment और operating cost (TCO) design के केंद्र में आ गए
  • TPU की प्रतिस्पर्धात्मक बढ़त किसी एक तकनीक में नहीं, बल्कि 10 साल से अधिक समय में जमा हुए design और operations experience के योग में है

Something New

  • TPU कोई गुप्त हथियार नहीं, बल्कि लंबे समय तक चली public research और internal iteration से निखरा हुआ परिणाम है
  • Google ने data center को लगातार बड़ा करने के बजाय, गणना करने के तरीके को मूल रूप से बदलने का रास्ता चुना
  • 2013 के आसपास data center capacity को दोगुना करने का दबाव और समय की पाबंदी, 15 महीनों में TPU के जन्म तक जा पहुँची
  • अप्रैल 2025 में Google Cloud Next पर 7वीं पीढ़ी के TPU Ironwood की घोषणा हुई, जिसमें 9,216 chips/pod, 42.5 Exaflops और 10MW के आँकड़े दिए गए
  • GPU deep learning के लिए बनाए गए डिवाइस नहीं थे, और TPU को शुरुआत से ही neural network computation को ध्यान में रखकर design किया गया
  • इस विकल्प से केवल compute performance ही नहीं, बल्कि power efficiency और operational stability में भी संरचनात्मक बढ़त मिली
  • यह “संयोग” नहीं, बल्कि constraints, trade-offs और co-design की बार-बार की गई प्रक्रिया से जमा हुआ परिणाम है

Slowing Down

  • Moore’s Law और Dennard Scaling के कमज़ोर पड़ने से पहले केवल नए CPU का इंतज़ार करने भर से program तेज़ हो जाते थे, लेकिन अब वह आधार टूट चुका है
  • transistor की संख्या बढ़ती रही, लेकिन power और heat की सीमाएँ performance improvement को रोकने लगीं
  • साथ ही neural network को बड़े data और बड़े model चाहिए, जिससे compute demand विस्फोटक रूप से बढ़ी
  • इसी वजह से “हर काम थोड़ा-थोड़ा अच्छा करने वाली chip” के बजाय “एक काम बेहद अच्छी तरह करने वाली chip” की ज़रूरत बढ़ी
  • neural network computation का केंद्र matrix multiplication आधारित repetitive operations होना, specialized design को संभव बनाता है

The Inference Chip

  • पहली TPU ने training नहीं, बल्कि inference, यानी पहले से train किए गए model को चलाने पर ध्यान दिया
  • TPUv1 ने cache, branch prediction और multithreading को हटाकर control cost को न्यूनतम किया
  • इसके बजाय बड़े matrix multiplication को लगातार प्रोसेस करने वाले Systolic Array (MXU) पर सारे resources केंद्रित किए गए
  • execution के दौरान निर्णय लेने के बजाय, यह compile समय पर तय किए गए execution order का पालन करती है
  • नतीजतन, समान power पर यह GPU और CPU की तुलना में कहीं अधिक inference work संभाल सकती थी

The Training Chip

  • training को inference की तुलना में कहीं अधिक compute और विस्तृत numeric representation range की ज़रूरत होती है
  • TPUv2 से inference-only architecture से आगे बढ़कर training के लिए flexibility जोड़ी गई
  • मुख्य बदलाव matrix (MXU), vector (VPU) और control (Scalar Unit) की भूमिकाओं का विभाजन था
  • execution flow को XLA compiler पहले से compute और decide करता है, और chip उसे वैसे ही execute करती है
  • कई TPU को एक डिवाइस की तरह काम कराने के लिए dedicated high-speed interconnect (ICI) भी साथ में design किया गया

Scaling Up

  • system बड़ा होने के साथ सवाल “यह कितना तेज़ है” से बदलकर “इसे कितनी देर तक और कितनी कम लागत में चलाया जा सकता है?” हो गया
  • इसके लिए compute units के पास बड़ी on-chip memory (CMEM) रखी गई, ताकि धीमी DRAM access कम हो
  • recommendation systems जैसे sparse data वाले workloads के लिए SparseCore जैसे dedicated units भी जोड़े गए
  • chip के अंदर और chip के बीच communication को अलग करके wiring complexity और bottleneck को संरचनात्मक रूप से कम किया गया
  • performance numbers से ज़्यादा operational efficiency पूरे design को निर्धारित करने लगी

Island Hopping

  • हज़ारों TPU वाले environment में failure कोई अपवाद नहीं, बल्कि एक मूल धारणा है
  • लक्ष्य ऐसा system है जो रुके नहीं, यानी partial failure को absorb कर सके
  • काम कई TPU में बाँटकर चलाया जाता है, लेकिन उसे एक ही program की तरह दिखने और manage होने दिया जाता है
  • समस्या आने पर पूरे system को रोकने के बजाय तेज़ reallocation और restart चुना जाता है
  • यह जटिल प्रक्रिया ज़्यादातर operating software अपने-आप संभालता है

Datacenter Network विस्तार

  • जब TPU का एक group पर्याप्त नहीं रहता, तो कई groups को जोड़ना पड़ता है
  • सामान्य network की सीमाओं के कारण optical switching (OCS) अपनाया गया
  • इससे पूरे data center को एक विशाल compute resource की तरह संगठित करना संभव हुआ
  • मौजूदा execution model को बढ़ाने वाला तरीका और पूरी तरह नया asynchronous execution model (Pathways) साथ-साथ मौजूद हैं
  • अब बड़े model और ज़्यादा जटिल communication patterns को संभालना संभव हो गया

Ceci n’est pas une TPU

  • नवीनतम TPU संख्याओं के हिसाब से भले ही अत्यंत प्रभावशाली हों, लेकिन मुख्य सिद्धांत शुरुआती दौर जैसे ही हैं
  • ज़रूरी computation पर ध्यान देना और अनावश्यक complexity को हटाना अब भी दिशा का आधार है
  • केवल hardware specs के आधार पर इस system की नकल नहीं की जा सकती
  • compiler (XLA), dedicated interconnect (ICI), optical switching (OCS) और operations scheduler को साथ काम करना पड़ता है
  • TPU एक बार की invention नहीं, बल्कि सैकड़ों साधारण निर्णयों के जमा होते जाने का परिणाम है

ज़रूर याद रखने योग्य कुछ मुख्य तकनीकें

  • Systolic Array (MXU): matrix multiplication को उच्च दक्षता से संभालने वाला TPU का दिल
  • XLA compiler: execution order को पहले से calculate करके control cost हटाता है
  • BF16: training के लिए आवश्यक range बनाए रखते हुए hardware cost घटाने वाला numeric format
  • ICI / OCS: chip, rack और data center को एक साथ बाँधने वाली dedicated communication architecture
  • TCO-केंद्रित design: instant performance के बजाय long-term operating cost को optimize करने वाली सोच

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.