• macOS 26.2 में नए जोड़े गए Thunderbolt 5 आधारित RDMA(Remote Direct Memory Access) फीचर का उपयोग करके कई Mac Studio को एक विशाल मेमोरी पूल की तरह चलाने का प्रयोग
  • Exo 1.0 open source क्लस्टरिंग टूल का उपयोग कर 1.5TB एकीकृत मेमोरी कॉन्फ़िगर की गई, जिससे बड़े AI मॉडल चलाने की गति बेहतर हुई
  • M3 Ultra Mac Studio एकल node पर भी उच्च compute performance और efficiency दिखाता है, और RDMA लागू करने पर मेमोरी access latency 300μs से घटकर 50μs से कम हो गई
  • Thunderbolt 5 की cable complexity, switch की कमी, और macOS management constraints जैसी क्लस्टर संचालन की सीमाएँ भी मौजूद हैं
  • RDMA और Exo का संयोजन Mac आधारित AI·HPC environment की scalability दिखाता है, लेकिन stability और scalability में अभी और सुधार की ज़रूरत है

Thunderbolt 5 पर RDMA प्रयोग का अवलोकन

  • Apple द्वारा उपलब्ध कराए गए Mac Studio क्लस्टर का उपयोग कर macOS 26.2 के RDMA over Thunderbolt फीचर का परीक्षण किया गया
    • RDMA कई Mac को एक बड़े RAM की तरह काम करने देता है, जिससे बड़े AI मॉडल प्रोसेस करने की गति बढ़ती है
  • परीक्षण में Exo 1.0 open source AI क्लस्टरिंग टूल का उपयोग किया गया
  • कुल 1.5TB एकीकृत मेमोरी वाले 4 Mac Studio की कीमत लगभग 40,000 डॉलर थी

Apple का HPC इतिहास और M3 Ultra की स्थिति

  • Apple के HPC से जुड़े प्रयास अतीत में Xserve और Xgrid के दौर के बाद लगभग न के बराबर रहे हैं
  • M3 Ultra Mac Studio लोकल AI मॉडल चलाने के लिए उपयुक्त performance दिखाता है, और RDMA support के साथ क्लस्टरिंग में latency 300μs से घटकर 50μs से कम हो जाती है
  • यह 250W से कम बिजली पर शांत तरीके से चलता है, और छोटे वैज्ञानिक गणना कार्यों तथा creative workloads के लिए भी उपयुक्त है

हार्डवेयर कॉन्फ़िगरेशन और नेटवर्किंग

  • नीचे के 2 सिस्टम 512GB RAM / 32-core CPU कॉन्फ़िगरेशन में थे, जबकि ऊपर के 2 सिस्टम 256GB RAM कॉन्फ़िगरेशन में थे
  • Thunderbolt 5 के माध्यम से 50~60Gbps effective bandwidth मिलती है, लेकिन Thunderbolt switch न होने के कारण हर Mac को सीधे दूसरे से जोड़ना पड़ता है
  • QSFP port इस्तेमाल करने वाले Nvidia DGX Spark की तुलना में networking stability कम है
  • Thunderbolt cable को स्थिर रखने के लिए ThunderLok-A मौजूद है, लेकिन इसे लगाने के लिए Mac Studio chassis में बदलाव चाहिए, इसलिए इसका उपयोग नहीं किया गया

M3 Ultra Mac Studio performance benchmark

  • Geekbench में यह Dell Pro Max(GB10) और AMD AI Max+ 395 से single-core और multi-core दोनों में बेहतर रहा
  • FP64 HPL benchmark में इसने 1 Tflop पार किया, जो Nvidia GB10 की लगभग 2 गुना performance है
  • बड़े AI मॉडल inference में भी यह अच्छा रहा और समान बिजली खपत पर इसकी efficiency अधिक थी
  • एकल M3 Ultra, Dell Pro Max के 2-node क्लस्टर से performance और efficiency दोनों में आगे रहा

क्लस्टर management और macOS constraints

  • macOS में SSH के जरिए system upgrade संभव नहीं, इसके लिए GUI ऑपरेशन चाहिए
  • remote management के लिए Screen Sharing का उपयोग किया गया
  • Linux की तुलना में क्लस्टर management automation कठिन है, और MDM tools की कमी भी असुविधा पैदा करती है

HPL और Llama.cpp परीक्षण

  • HPL में single node पर 1.3 Tflops मिले, जबकि 4-node कॉन्फ़िगरेशन में 3.7 Tflops के साथ लगभग 3 गुना सुधार मिला
  • Thunderbolt आधारित TCP कनेक्शन पर system crash हुए, और RDMA के बिना यह अस्थिर रहा
  • Llama.cpp परीक्षण में Thunderbolt 5 ने 2.5Gbps Ethernet की तुलना में कम latency दिखाई

RDMA सक्षम करना और Exo 1.0 परीक्षण

  • RDMA सक्षम करने की प्रक्रिया: recovery mode में जाना → rdma_ctl enable कमांड चलाना → reboot
  • Exo 1.0 RDMA support वाला एकमात्र टूल था, और इसके जरिए 600GB से बड़े मॉडल (Kimi K2 Thinking आदि) को कई Mac पर distributed run किया जा सका
  • Llama.cpp RPC तरीके से model layers को distribute करता है, लेकिन यह कम efficient है
  • Exo में node की संख्या बढ़ने पर performance बेहतर हुई, और Qwen3 235B मॉडल पर 32 tokens प्रति सेकंड हासिल किए गए
  • DeepSeek V3.1 और Kimi K2 Thinking(1 ट्रिलियन parameters) मॉडल भी सफलतापूर्वक चलाए गए

stability समस्याएँ और open source मुद्दे

  • परीक्षण pre-release software पर आधारित था, इसलिए अस्थिरता मौजूद थी
  • RDMA काम करने पर performance बहुत अच्छी थी, लेकिन विफल होने पर पूरे क्लस्टर को reboot करना पड़ता था
  • Exo development team कुछ समय निष्क्रिय रहने के बाद वापस लौटी, और इसे Apache 2.0 license के तहत जारी किया गया
  • Apple के साथ सहयोग के कारण गैर-सार्वजनिक development process को लेकर चिंता भी जताई गई

आगे की चुनौतियाँ और अनसुलझे सवाल

  • M5 Ultra लॉन्च होगा या नहीं, और machine learning performance कितनी बेहतर होगी
  • Mac Pro में PCIe expandability की वापसी से क्लस्टरिंग में सुधार की ज़रूरत
  • SMB Direct support मिलने पर high-speed file sharing की संभावना
  • Llama.cpp जैसे अन्य software में RDMA support के विस्तार की उम्मीद

निष्कर्ष

  • RDMA और Exo का संयोजन Mac Studio की AI·HPC उपयोग-क्षमता को काफी बढ़ाता है
  • लेकिन Thunderbolt 5 की संरचनात्मक सीमाएँ और macOS management constraints अभी भी bottleneck हैं
  • QSFP port जैसे networking expandability सुधारों की ज़रूरत है
  • AI उछाल खत्म होने के बाद भी Mac Studio एक शांत और शक्तिशाली workstation के रूप में मूल्यवान रहेगा

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.