- macOS 26.2 में नए जोड़े गए Thunderbolt 5 आधारित RDMA(Remote Direct Memory Access) फीचर का उपयोग करके कई Mac Studio को एक विशाल मेमोरी पूल की तरह चलाने का प्रयोग
- Exo 1.0 open source क्लस्टरिंग टूल का उपयोग कर 1.5TB एकीकृत मेमोरी कॉन्फ़िगर की गई, जिससे बड़े AI मॉडल चलाने की गति बेहतर हुई
- M3 Ultra Mac Studio एकल node पर भी उच्च compute performance और efficiency दिखाता है, और RDMA लागू करने पर मेमोरी access latency 300μs से घटकर 50μs से कम हो गई
- Thunderbolt 5 की cable complexity, switch की कमी, और macOS management constraints जैसी क्लस्टर संचालन की सीमाएँ भी मौजूद हैं
- RDMA और Exo का संयोजन Mac आधारित AI·HPC environment की scalability दिखाता है, लेकिन stability और scalability में अभी और सुधार की ज़रूरत है
Thunderbolt 5 पर RDMA प्रयोग का अवलोकन
- Apple द्वारा उपलब्ध कराए गए Mac Studio क्लस्टर का उपयोग कर macOS 26.2 के RDMA over Thunderbolt फीचर का परीक्षण किया गया
- RDMA कई Mac को एक बड़े RAM की तरह काम करने देता है, जिससे बड़े AI मॉडल प्रोसेस करने की गति बढ़ती है
- परीक्षण में Exo 1.0 open source AI क्लस्टरिंग टूल का उपयोग किया गया
- कुल 1.5TB एकीकृत मेमोरी वाले 4 Mac Studio की कीमत लगभग 40,000 डॉलर थी
Apple का HPC इतिहास और M3 Ultra की स्थिति
- Apple के HPC से जुड़े प्रयास अतीत में Xserve और Xgrid के दौर के बाद लगभग न के बराबर रहे हैं
- M3 Ultra Mac Studio लोकल AI मॉडल चलाने के लिए उपयुक्त performance दिखाता है, और RDMA support के साथ क्लस्टरिंग में latency 300μs से घटकर 50μs से कम हो जाती है
- यह 250W से कम बिजली पर शांत तरीके से चलता है, और छोटे वैज्ञानिक गणना कार्यों तथा creative workloads के लिए भी उपयुक्त है
हार्डवेयर कॉन्फ़िगरेशन और नेटवर्किंग
- नीचे के 2 सिस्टम 512GB RAM / 32-core CPU कॉन्फ़िगरेशन में थे, जबकि ऊपर के 2 सिस्टम 256GB RAM कॉन्फ़िगरेशन में थे
- Thunderbolt 5 के माध्यम से 50~60Gbps effective bandwidth मिलती है, लेकिन Thunderbolt switch न होने के कारण हर Mac को सीधे दूसरे से जोड़ना पड़ता है
- QSFP port इस्तेमाल करने वाले Nvidia DGX Spark की तुलना में networking stability कम है
- Thunderbolt cable को स्थिर रखने के लिए ThunderLok-A मौजूद है, लेकिन इसे लगाने के लिए Mac Studio chassis में बदलाव चाहिए, इसलिए इसका उपयोग नहीं किया गया
M3 Ultra Mac Studio performance benchmark
- Geekbench में यह Dell Pro Max(GB10) और AMD AI Max+ 395 से single-core और multi-core दोनों में बेहतर रहा
- FP64 HPL benchmark में इसने 1 Tflop पार किया, जो Nvidia GB10 की लगभग 2 गुना performance है
- बड़े AI मॉडल inference में भी यह अच्छा रहा और समान बिजली खपत पर इसकी efficiency अधिक थी
- एकल M3 Ultra, Dell Pro Max के 2-node क्लस्टर से performance और efficiency दोनों में आगे रहा
क्लस्टर management और macOS constraints
- macOS में SSH के जरिए system upgrade संभव नहीं, इसके लिए GUI ऑपरेशन चाहिए
- remote management के लिए Screen Sharing का उपयोग किया गया
- Linux की तुलना में क्लस्टर management automation कठिन है, और MDM tools की कमी भी असुविधा पैदा करती है
HPL और Llama.cpp परीक्षण
- HPL में single node पर 1.3 Tflops मिले, जबकि 4-node कॉन्फ़िगरेशन में 3.7 Tflops के साथ लगभग 3 गुना सुधार मिला
- Thunderbolt आधारित TCP कनेक्शन पर system crash हुए, और RDMA के बिना यह अस्थिर रहा
- Llama.cpp परीक्षण में Thunderbolt 5 ने 2.5Gbps Ethernet की तुलना में कम latency दिखाई
RDMA सक्षम करना और Exo 1.0 परीक्षण
- RDMA सक्षम करने की प्रक्रिया: recovery mode में जाना →
rdma_ctl enable कमांड चलाना → reboot
- Exo 1.0 RDMA support वाला एकमात्र टूल था, और इसके जरिए 600GB से बड़े मॉडल (Kimi K2 Thinking आदि) को कई Mac पर distributed run किया जा सका
- Llama.cpp RPC तरीके से model layers को distribute करता है, लेकिन यह कम efficient है
- Exo में node की संख्या बढ़ने पर performance बेहतर हुई, और Qwen3 235B मॉडल पर 32 tokens प्रति सेकंड हासिल किए गए
- DeepSeek V3.1 और Kimi K2 Thinking(1 ट्रिलियन parameters) मॉडल भी सफलतापूर्वक चलाए गए
stability समस्याएँ और open source मुद्दे
- परीक्षण pre-release software पर आधारित था, इसलिए अस्थिरता मौजूद थी
- RDMA काम करने पर performance बहुत अच्छी थी, लेकिन विफल होने पर पूरे क्लस्टर को reboot करना पड़ता था
- Exo development team कुछ समय निष्क्रिय रहने के बाद वापस लौटी, और इसे Apache 2.0 license के तहत जारी किया गया
- Apple के साथ सहयोग के कारण गैर-सार्वजनिक development process को लेकर चिंता भी जताई गई
आगे की चुनौतियाँ और अनसुलझे सवाल
- M5 Ultra लॉन्च होगा या नहीं, और machine learning performance कितनी बेहतर होगी
- Mac Pro में PCIe expandability की वापसी से क्लस्टरिंग में सुधार की ज़रूरत
- SMB Direct support मिलने पर high-speed file sharing की संभावना
- Llama.cpp जैसे अन्य software में RDMA support के विस्तार की उम्मीद
निष्कर्ष
- RDMA और Exo का संयोजन Mac Studio की AI·HPC उपयोग-क्षमता को काफी बढ़ाता है
- लेकिन Thunderbolt 5 की संरचनात्मक सीमाएँ और macOS management constraints अभी भी bottleneck हैं
- QSFP port जैसे networking expandability सुधारों की ज़रूरत है
- AI उछाल खत्म होने के बाद भी Mac Studio एक शांत और शक्तिशाली workstation के रूप में मूल्यवान रहेगा
अभी कोई टिप्पणी नहीं है.