macOS 26.2 से Thunderbolt के जरिए RDMA के साथ तेज़ AI क्लस्टर बनाना संभव
(developer.apple.com)- macOS Tahoe 26.2 में नया Thunderbolt 5-आधारित RDMA फीचर जोड़ा गया है, जिससे MLX का उपयोग करने वाले वितरित AI inference जैसे low-latency communication संभव हो गए हैं
- इसका मतलब है "Mac को high-speed distributed computing node की तरह ट्रीट किया जा सकता है", और macOS अब सिर्फ़ एक desktop OS से आगे बढ़कर लोकल AI·HPC experiment platform के रूप में भी विस्तार कर सकता है
RDMA क्या है
- RDMA(Remote Direct Memory Access) एक ऐसी communication method है जिसमें एक कंप्यूटर दूसरे कंप्यूटर की memory तक CPU के दखल के बिना सीधे पहुँचता है
- यह network stack, kernel copy और context switching को bypass करके latency को बेहद कम और throughput को काफ़ी ज़्यादा कर देता है
- इसका इस्तेमाल मुख्य रूप से InfiniBand, RoCE जैसे datacenter network में होता रहा है
- high-performance computing(HPC), distributed storage, और बड़े पैमाने के AI training·inference में यह एक standard technology बन चुकी है
- इसकी सबसे अहम बात यह है कि "नेटवर्क communication होने के बावजूद यह ऐसे काम करता है मानो एक ही memory इस्तेमाल हो रही हो"
RDMA over Thunderbolt का मतलब
- macOS 26.2 में Thunderbolt 5 से जुड़े Mac के बीच RDMA communication को support किया गया है
- पहले RDMA server-grade network equipment तक सीमित था, लेकिन अब यह सिर्फ़ एक cable से जुड़े लोकल Mac cluster में भी संभव हो गया है
- Thunderbolt की high bandwidth और बेहद low latency को RDMA model में उसी तरह इस्तेमाल किया जा सकता है
- यानी, "डेस्क पर रखे कई Mac को datacenter की तरह जोड़ने का रास्ता" खुल गया है
यह AI workload के लिए इतना उपयुक्त क्यों है
- distributed AI inference या training में node के बीच tensor exchange अक्सर bottleneck बन जाता है
- RDMA इस प्रक्रिया में CPU का इस्तेमाल किए बिना GPU ↔ GPU जैसी communication pattern उपलब्ध कराता है
- release notes में बताए गए MLX-आधारित distributed AI inference का डिज़ाइन ऐसे ही low-latency, high-bandwidth communication को ध्यान में रखकर किया गया है
- model को कई Mac में बाँटकर चलाना और ऐसा inference cluster बनाना जो single machine की तरह काम करे, अब और अधिक संभव हो गया है
- छोटे team या research environment में "server के बिना Mac से AI cluster बनाना" अब एक व्यवहारिक विकल्प बन सकता है
अब वास्तव में कौन-कौन से उपयोग संभव होंगे
- कई Mac Studio / Mac Pro मशीनों को Thunderbolt से जोड़कर लोकल AI inference farm बनाना
- जब किसी बड़े model को एक single GPU पर चलाना मुश्किल हो, तब model-partitioned inference के प्रयोग करना
- लोकल distributed simulation, high-speed data pipeline, और experimental distributed systems research
- datacenter में जाने से पहले prototype·PoC environment बनाने की लागत में बड़ा reduction
4 टिप्पणियां
Thunderbolt networking वाकई बहुत सुविधाजनक है
डेज़ी चेन हो जाती है, इसलिए hub की भी ज़रूरत नहीं पड़ती
अब Mac डिवाइसों को जोड़कर inference farm बनाकर घर से ही service चलाने वाले लोग भी काफ़ी देखने को मिलेंगे।
Apple के आधिकारिक release note में सिर्फ एक पंक्ति है कि "RDMA over Thunderbolt" संभव हो गया है, इसलिए मैंने GN+ के लिए अतिरिक्त व्याख्या लिखी है.
Hacker News की राय
मैं MLX टीम का Twitter फॉलो करता हूँ। वे अक्सर ऐसे उदाहरण साझा करते हैं जहाँ दो या उससे अधिक Mac को जोड़कर 512GB से अधिक RAM चाहिए वाले मॉडल चलाए जाते हैं
उदाहरण के लिए Kimi K2 Thinking (1T parameters) और DeepSeek R1 (671B) हैं। दूसरे वाले के साथ setup guide Gist भी दिया गया है
आने वाले Tahoe 26.2 release में tensor parallelism संभव होने वाला है। हर layer को कई मशीनों में shard किया जा सकता है, इसलिए N मशीनों पर लगभग N गुना speed मिल सकती है। लेकिन communication latency मुख्य चुनौती है
लेकिन local पर LLM के साथ प्रयोग करने वाले व्यक्तियों के लिए यह अच्छा है, जबकि अच्छी funding वाली कंपनियाँ GPU की जगह इसे बड़े पैमाने पर खरीदेंगी, ऐसा नहीं लगता
$50,000 के budget में inference hardware की तुलना की गई
आजकल के RAM market chaos के बीच, Apple की stable supply chain की वजह से अगर Apple computing medium-scale inference clusters बनाने के लिए value-for-money विकल्प बन जाए, तो यह सचमुच विडंबनापूर्ण होगा
कई Mac Studio को cluster में बाँधने की बात है, लेकिन physical और management constraints चिंता पैदा करते हैं
sudo softwareupdate -i -aसे केवल minor updates ही किए जा सकते हैंअच्छा होगा अगर Apple खुद M series-आधारित cloud बनाए, Metal को AI के लिए मज़बूत करे, और privacy-केंद्रित self-hosting models दे। संवेदनशील data वाले industries में यह बड़ी सफलता पा सकता है
सोच रहा हूँ कि AI के अलावा सामान्य distributed workloads में भी इस feature का इस्तेमाल किया जा सकता है या नहीं
संदर्भ: MLX distributed usage guide
संबंधित लेख: Engadget - macOS Tahoe 26.2 में Mac cluster से AI supercomputer बनाना
George Hotz ने tinygrad का उपयोग करके USB4 के जरिए Mac पर NVIDIA GPU चलाया
tinygrad tweet
मुझे RDMA ठीक से समझ नहीं आता, लेकिन क्या इसका मतलब यह है कि कई Mac को जोड़कर inference को parallel में चलाया जा सकता है? अगर हाँ, तो यह सचमुच शानदार feature है