4 पॉइंट द्वारा GN⁺ 2024-09-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Tesla ने HotChips 2024 में Tesla Transport Protocol over Ethernet (TTPoE) को open source के रूप में सार्वजनिक किया
  • Tesla Ultra Ethernet Consortium (UEC) में शामिल हो गई है ताकि इस प्रोटोकॉल को साझा किया जा सके और AI/ML/डेटासेंटर के लिए एक नए high-speed/low-latency fabric को standardize करने पर काम किया जा सके
  • TTPoE non-proprietary, low-cost है, और distributed congestion control, standard EthernetII frame, तथा decentralized interconnect protocol को लक्ष्य करता है
  • TTPoE की विशेषताएँ
    • TCP की तरह packet loss और retransmission की अनुमति है, लेकिन पूरा transmission सुनिश्चित किया जाता है
    • TTPoE की शुरुआती deployment Tesla Dojo v1 project में की गई थी
      • यह protocol पूरी तरह hardware में चलता है और इसे ऐसे विशाल multi-exaflops(fp16) supercomputer में deploy किया गया है जिसमें एक साथ दसियों हज़ार से अधिक endpoints हैं
    • यह protocol CPU या OS के हस्तक्षेप के बिना link को establish और run कर सकता है
  • यह protocol जटिल या अत्यधिक चालाक नहीं है, बल्कि बुनियादी सिद्धांतों पर आधारित है
    • Ethernet transport का मूल काम A से B तक data को ले जाना है, और इसे केवल physical limits से ही सीमित होना चाहिए
    • बहुत बड़े पैमाने के systems में centralized congestion management एक अव्यावहारिक प्रयास है, और हर endpoint को resilient तथा self-managed होना चाहिए

GN⁺ की राय

  • TTPoE high-performance computing environment में मौजूदा TCP protocol की सीमाओं को पार करने की एक दिलचस्प कोशिश है
  • Hardware offloading और simplified state machine के जरिए latency को न्यूनतम करना और throughput को अधिकतम करना इसका मुख्य लक्ष्य लगता है
  • TTPoE में AI और ML क्षेत्र में data transfer speed और latency को बेहतर बनाने की क्षमता है
  • Tesla द्वारा इस protocol को open source करना HPC क्षेत्र में innovation को तेज़ करने में मददगार हो सकता है
  • हालांकि, TTPoE के लिए सामान्य-purpose network में TCP को पूरी तरह replace करना कठिन दिखता है; यह high-quality dedicated network के लिए optimized solution है. TTPoE के व्यापक adoption के लिए standardization और ecosystem निर्माण महत्वपूर्ण होगा
  • समान कार्यक्षमता वाले protocols में RoCE (RDMA over Converged Ethernet) और NVLink शामिल हैं

1 टिप्पणियां

 
xguru 2024-09-24

TTPoE के बारे में थोड़ा और विस्तार से बताने वाला एक और लेख है
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

TTPoE का अवलोकन

  • Tesla ने Hot Chips 2023 में Dojo supercomputer का परिचय कराया था, और इसका उपयोग autonomous driving cars जैसे automotive applications पर केंद्रित machine learning के लिए किया जाता है
  • Training data में video शामिल होते हैं, जिनके लिए बहुत अधिक IO bandwidth की आवश्यकता होती है, और Tesla के vision applications के मामले में एक single tensor का आकार 1.7GB तक पहुँच सकता है
  • Tesla ने पाया कि Dojo supercomputer का throughput इस बात से सीमित हो सकता है कि host machine कितनी तेज़ी से data को supercomputer तक push कर सकती है

TTPoE की आवश्यकता

  • Tesla ने इस समस्या का समाधान और अधिक hosts जोड़कर तथा इन अतिरिक्त hosts को supercomputer से कम लागत में जोड़ने के तरीके से किया
  • InfiniBand जैसे सामान्य supercomputer networking solutions के बजाय, Tesla ने modified transport layer के साथ Ethernet को अपनी आवश्यकताओं के अनुसार ढालने का विकल्प चुना
  • TCP को Tesla Transport Protocol over Ethernet(TTPoE) से बदला जाता है, जिसे microsecond स्तर की latency देने और simple hardware offload की अनुमति देने के लिए डिज़ाइन किया गया है

TTPoE की विशेषताएँ

  • TTPoE को पूरी तरह hardware में process होने के लिए डिज़ाइन किया गया है, और यह standard TCP protocol की तुलना में बेहतर latency प्रदान करता है
  • TTPoE का state machine, TCP की तुलना में काफ़ी सरल बनाया गया है
  • TCP की waiting states हटाने से latency कम हो जाती है
  • TTP, TIME_WAIT state को हटाता है और connection termination sequence को 3 transmissions से 2 transmissions में बदल देता है
  • TCP के 3-way handshake को 2-way में बदलकर connection setup latency को कम किया गया है

TTPoE का congestion control

  • TCP की तरह, Tesla congestion control के लिए packet loss का उपयोग करता है
  • क्योंकि Tesla को low-latency underlying network पर चलने के लिए डिज़ाइन किया गया था, इसलिए वह इस समस्या के लिए brute-force approach अपना सका
  • पारंपरिक TCP implementations sliding congestion window को maintain करते हैं, लेकिन TTP ऐसा नहीं करता
  • Hardware, SRAM buffer में transmit किए गए data को track करता है, और यही congestion window size को परिभाषित करता है
  • पारंपरिक TCP congestion control algorithms, Tesla के Dojo supercomputer applications के लिए प्रभावी होने हेतु बहुत लंबे timescale पर काम करते हैं

TTPoE hardware implementation

  • Tesla, chip और standard Ethernet hardware के बीच रखे गए hardware block में TTP protocol को process करता है
  • इस MAC hardware block को CPU designers ने डिज़ाइन किया था, और इसमें कई CPU design features शामिल किए गए हैं
  • Presenter ने इसे shared cache की तरह काम करने वाला बताया, जहाँ arbiter order hazards को ध्यान में रखते हुए requests में से चयन करता है
  • सबसे उल्लेखनीय resources में से एक 1MB transmit SRAM buffer है, जो ऊपर बताए अनुसार congestion window को परिभाषित करता है

Mojo NIC

  • TPP MAC को उस चीज़ में implement किया गया है जिसे Tesla "Dumb-NIC" कहता है
  • इसे "dumb" इसलिए कहा जाता है क्योंकि यह जितना संभव हो उतना सस्ता और सरल है
  • Tesla, Dojo supercomputer को data feed करने के लिए बड़ी संख्या में host nodes deploy करना चाहता है, और कम लागत वाले network cards का उपयोग इसे cost-effective तरीके से हासिल करने में मदद करता है
  • Mojo नाम इस विचार से आया है कि अतिरिक्त host nodes, performance बनाए रखने के लिए Dojo को और अधिक Mojo देते हैं
  • Mojo cards remote host machines में install किए जाते हैं, और यदि engineers को Dojo supercomputer तक data feed करने के लिए अधिक bandwidth चाहिए, तो वे pool से remote host machines को जोड़ सकते हैं

सारांश

  • Mojo और TTPoE protocol इस बात पर दिलचस्प insight देते हैं कि प्रसिद्ध Transmission Control Protocol(TCP) को high-quality supercomputer internal networks में उपयोग के लिए कैसे सरल बनाया जा सकता है
  • यह protocol सैद्धांतिक रूप से internet पर चल सकता है, लेकिन fixed congestion window जैसी simplifications internet service providers और उससे आगे जुड़ने वाले कम-गुणवत्ता वाले links पर अच्छी तरह काम नहीं करेंगी
  • InfiniBand जैसे अन्य supercomputing network solutions की तुलना में, Ethernet पर custom transport protocol, Dojo की आवश्यकताओं को पूरा करने के लिए पर्याप्त अतिरिक्त bandwidth प्रदान कर सकता है