11 पॉइंट द्वारा GN⁺ 2025-12-13 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • macOS Tahoe 26.2 में नया Thunderbolt 5-आधारित RDMA फीचर जोड़ा गया है, जिससे MLX का उपयोग करने वाले वितरित AI inference जैसे low-latency communication संभव हो गए हैं
  • इसका मतलब है "Mac को high-speed distributed computing node की तरह ट्रीट किया जा सकता है", और macOS अब सिर्फ़ एक desktop OS से आगे बढ़कर लोकल AI·HPC experiment platform के रूप में भी विस्तार कर सकता है

RDMA क्या है

  • RDMA(Remote Direct Memory Access) एक ऐसी communication method है जिसमें एक कंप्यूटर दूसरे कंप्यूटर की memory तक CPU के दखल के बिना सीधे पहुँचता है
  • यह network stack, kernel copy और context switching को bypass करके latency को बेहद कम और throughput को काफ़ी ज़्यादा कर देता है
  • इसका इस्तेमाल मुख्य रूप से InfiniBand, RoCE जैसे datacenter network में होता रहा है
  • high-performance computing(HPC), distributed storage, और बड़े पैमाने के AI training·inference में यह एक standard technology बन चुकी है
  • इसकी सबसे अहम बात यह है कि "नेटवर्क communication होने के बावजूद यह ऐसे काम करता है मानो एक ही memory इस्तेमाल हो रही हो"

RDMA over Thunderbolt का मतलब

  • macOS 26.2 में Thunderbolt 5 से जुड़े Mac के बीच RDMA communication को support किया गया है
  • पहले RDMA server-grade network equipment तक सीमित था, लेकिन अब यह सिर्फ़ एक cable से जुड़े लोकल Mac cluster में भी संभव हो गया है
  • Thunderbolt की high bandwidth और बेहद low latency को RDMA model में उसी तरह इस्तेमाल किया जा सकता है
  • यानी, "डेस्क पर रखे कई Mac को datacenter की तरह जोड़ने का रास्ता" खुल गया है

यह AI workload के लिए इतना उपयुक्त क्यों है

  • distributed AI inference या training में node के बीच tensor exchange अक्सर bottleneck बन जाता है
  • RDMA इस प्रक्रिया में CPU का इस्तेमाल किए बिना GPU ↔ GPU जैसी communication pattern उपलब्ध कराता है
  • release notes में बताए गए MLX-आधारित distributed AI inference का डिज़ाइन ऐसे ही low-latency, high-bandwidth communication को ध्यान में रखकर किया गया है
  • model को कई Mac में बाँटकर चलाना और ऐसा inference cluster बनाना जो single machine की तरह काम करे, अब और अधिक संभव हो गया है
  • छोटे team या research environment में "server के बिना Mac से AI cluster बनाना" अब एक व्यवहारिक विकल्प बन सकता है

अब वास्तव में कौन-कौन से उपयोग संभव होंगे

  • कई Mac Studio / Mac Pro मशीनों को Thunderbolt से जोड़कर लोकल AI inference farm बनाना
  • जब किसी बड़े model को एक single GPU पर चलाना मुश्किल हो, तब model-partitioned inference के प्रयोग करना
  • लोकल distributed simulation, high-speed data pipeline, और experimental distributed systems research
  • datacenter में जाने से पहले prototype·PoC environment बनाने की लागत में बड़ा reduction

4 टिप्पणियां

 
bus710 2025-12-14

Thunderbolt networking वाकई बहुत सुविधाजनक है
डेज़ी चेन हो जाती है, इसलिए hub की भी ज़रूरत नहीं पड़ती

 
shakespeares 2025-12-13

अब Mac डिवाइसों को जोड़कर inference farm बनाकर घर से ही service चलाने वाले लोग भी काफ़ी देखने को मिलेंगे।

 
xguru 2025-12-13

Apple के आधिकारिक release note में सिर्फ एक पंक्ति है कि "RDMA over Thunderbolt" संभव हो गया है, इसलिए मैंने GN+ के लिए अतिरिक्त व्याख्या लिखी है.

 
GN⁺ 2025-12-13
Hacker News की राय
  • मैं MLX टीम का Twitter फॉलो करता हूँ। वे अक्सर ऐसे उदाहरण साझा करते हैं जहाँ दो या उससे अधिक Mac को जोड़कर 512GB से अधिक RAM चाहिए वाले मॉडल चलाए जाते हैं
    उदाहरण के लिए Kimi K2 Thinking (1T parameters) और DeepSeek R1 (671B) हैं। दूसरे वाले के साथ setup guide Gist भी दिया गया है

    • ये पोस्ट pipeline parallelism इस्तेमाल करने वाले उदाहरण हैं। अगर N मशीनें हों, तो हर मशीन पर L/N layers बाँटी जाती हैं। इससे speedup नहीं मिलता, लेकिन ऐसे बड़े मॉडल चलाना संभव हो जाता है जो एक single machine में फिट नहीं होते
      आने वाले Tahoe 26.2 release में tensor parallelism संभव होने वाला है। हर layer को कई मशीनों में shard किया जा सकता है, इसलिए N मशीनों पर लगभग N गुना speed मिल सकती है। लेकिन communication latency मुख्य चुनौती है
    • पिछले हफ्ते RDMA-आधारित tensor parallel test किया गया था। test link। इसमें fast sync workaround का भी ज़िक्र है
    • non-experts के लिए उम्मीद है कि यह तरीका बहुत आकर्षक न बने। parallel workloads या context processing में performance अच्छी तरह scale नहीं होती
      लेकिन local पर LLM के साथ प्रयोग करने वाले व्यक्तियों के लिए यह अच्छा है, जबकि अच्छी funding वाली कंपनियाँ GPU की जगह इसे बड़े पैमाने पर खरीदेंगी, ऐसा नहीं लगता
    • सबसे चौंकाने वाली बात power consumption है। दोनों मिलाकर करीब 50W—मुझे शक हुआ कि कहीं मैं गलत तो नहीं देख रहा
  • $50,000 के budget में inference hardware की तुलना की गई

    • Apple M3 Ultra cluster ($50k): capacity (3TB) को maximize करता है। 3T+ parameter models (जैसे Kimi K2) चलाने का यह एकमात्र विकल्प है, लेकिन speed कम है (~15 t/s)
    • NVIDIA RTX 6000 workstation ($50k): throughput (>80 t/s) को maximize करता है। training और inference दोनों में बढ़िया है, लेकिन VRAM 384GB तक सीमित है, इसलिए केवल 400B से छोटे मॉडल ही संभव हैं
    • वही capacity (3TB) और 100 t/s से अधिक throughput दोनों पाने के लिए लगभग $270,000 का NVIDIA GH200 cluster चाहिए। Apple cluster वही capacity का 87% सिर्फ 18% लागत पर देता है
    • इसे और सस्ते में भी किया जा सकता है। मैं $2,000 के dual-socket Xeon workstation (768GB RAM) पर DeepSeek-R1 को 1~2 tokens प्रति second की गति से चला रहा हूँ
    • $50k वाले NVIDIA cluster का हिसाब जानने की उत्सुकता है। अगर RTX 6000 लगभग $8k का है, तो 5 मशीनों में 40k पर लगभग आधा TB मिल सकता है। फिर भी inference के लिए Mac अब भी efficient है, और M5 Ultra शायद और बेहतर price/performance देगा
    • इसी budget में 25 Framework desktop boards (हर एक में 128GB VRAM, Strix Halo के साथ) भी खरीदे जा सकते हैं। कुल 3TB VRAM होगा, लेकिन clustering काफ़ी चुनौतीपूर्ण लगेगी
    • अभी तक implement न हुई parallel speedup feature को ध्यान में रखें, तो on-premise inference environment के लिए यह काफ़ी अच्छा सौदा लगता है
    • Apple LPDDR5X का इस्तेमाल करके energy efficiency और cost कम करता है, जबकि NVIDIA GDDR/HBM के साथ performance को प्राथमिकता देता है
  • आजकल के RAM market chaos के बीच, Apple की stable supply chain की वजह से अगर Apple computing medium-scale inference clusters बनाने के लिए value-for-money विकल्प बन जाए, तो यह सचमुच विडंबनापूर्ण होगा

    • अगर commercial users सारे अच्छे Mac खरीद लें, तो यह थोड़ा परेशान करने वाला होगा
    • कुछ उपयोग मामलों में यह पहले से ही हो रहा है
  • कई Mac Studio को cluster में बाँधने की बात है, लेकिन physical और management constraints चिंता पैदा करते हैं

    1. power button की position असुविधाजनक है, इसलिए rackmount में दिक्कत होती है
    2. Thunderbolt peripherals के लिए अच्छा है, लेकिन continuous interconnect के रूप में port durability को लेकर चिंता है
    3. cable quality महत्वपूर्ण है। TB4/TB5 में महँगी cable न हो तो कई समस्याएँ रही हैं
    4. macOS remote management, Linux की तुलना में कम efficient है। उदाहरण के लिए macOS 26.1 → 26.2 upgrade को GUI के बिना करना मुश्किल है। sudo softwareupdate -i -a से केवल minor updates ही किए जा सकते हैं
    • #2 के संबंध में OWC dock में cable fixing screw holes हैं। OWC Thunderbolt Dock और ClingOn adapter से port stress कम किया जा सकता है
    • power button की समस्या RackMac Studio enclosure से हल की जा सकती है। यह button को mechanical तरीके से extend करता है
    • server interconnect के रूप में Thunderbolt का इस्तेमाल दिखने में खास अच्छा नहीं लगता, लेकिन अगर rack में स्थिर रूप से लगा हो तो उल्टा physical stress कम होता है
    • MDM solution का इस्तेमाल करें तो software updates के साथ-साथ LOM (remote power management) भी संभव है। open source MDM भी मौजूद हैं
    • Mac Pro का rackmount version अभी भी बिक रहा है, लेकिन M3 Ultra में update न होने के कारण लगता है कि जल्द बंद हो जाएगा
  • अच्छा होगा अगर Apple खुद M series-आधारित cloud बनाए, Metal को AI के लिए मज़बूत करे, और privacy-केंद्रित self-hosting models दे। संवेदनशील data वाले industries में यह बड़ी सफलता पा सकता है

    • इसी तरह की अवधारणा वाला Private Cloud Compute पहले से मौजूद है, लेकिन यह Apple models इस्तेमाल करने वाले iUser तक सीमित है
    • data center में GPU के प्रति बड़ी memory से ज़्यादा high-speed interconnect-based sharding अधिक efficient होता है। compute performance के मामले में NVIDIA या AMD GPU अब भी आगे हैं
  • सोच रहा हूँ कि AI के अलावा सामान्य distributed workloads में भी इस feature का इस्तेमाल किया जा सकता है या नहीं

    • HPL और mpirun के साथ test किया गया, लेकिन अभी RDMA supported नहीं है और केवल Ring method ही संभव है। थोड़ा rough है, लेकिन काम करता है
      संदर्भ: MLX distributed usage guide
  • संबंधित लेख: Engadget - macOS Tahoe 26.2 में Mac cluster से AI supercomputer बनाना

  • George Hotz ने tinygrad का उपयोग करके USB4 के जरिए Mac पर NVIDIA GPU चलाया
    tinygrad tweet

  • मुझे RDMA ठीक से समझ नहीं आता, लेकिन क्या इसका मतलब यह है कि कई Mac को जोड़कर inference को parallel में चलाया जा सकता है? अगर हाँ, तो यह सचमुच शानदार feature है

    • पिछले 1 साल से कई Mac पर inference संभव था, लेकिन अब यह काफ़ी तेज़ चलता है