6 पॉइंट द्वारा GN⁺ 2025-12-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • macOS 26.2 में नए जोड़े गए Thunderbolt 5 आधारित RDMA(Remote Direct Memory Access) फीचर का उपयोग करके कई Mac Studio को एक विशाल मेमोरी पूल की तरह चलाने का प्रयोग
  • Exo 1.0 open source क्लस्टरिंग टूल का उपयोग कर 1.5TB एकीकृत मेमोरी कॉन्फ़िगर की गई, जिससे बड़े AI मॉडल चलाने की गति बेहतर हुई
  • M3 Ultra Mac Studio एकल node पर भी उच्च compute performance और efficiency दिखाता है, और RDMA लागू करने पर मेमोरी access latency 300μs से घटकर 50μs से कम हो गई
  • Thunderbolt 5 की cable complexity, switch की कमी, और macOS management constraints जैसी क्लस्टर संचालन की सीमाएँ भी मौजूद हैं
  • RDMA और Exo का संयोजन Mac आधारित AI·HPC environment की scalability दिखाता है, लेकिन stability और scalability में अभी और सुधार की ज़रूरत है

Thunderbolt 5 पर RDMA प्रयोग का अवलोकन

  • Apple द्वारा उपलब्ध कराए गए Mac Studio क्लस्टर का उपयोग कर macOS 26.2 के RDMA over Thunderbolt फीचर का परीक्षण किया गया
    • RDMA कई Mac को एक बड़े RAM की तरह काम करने देता है, जिससे बड़े AI मॉडल प्रोसेस करने की गति बढ़ती है
  • परीक्षण में Exo 1.0 open source AI क्लस्टरिंग टूल का उपयोग किया गया
  • कुल 1.5TB एकीकृत मेमोरी वाले 4 Mac Studio की कीमत लगभग 40,000 डॉलर थी

Apple का HPC इतिहास और M3 Ultra की स्थिति

  • Apple के HPC से जुड़े प्रयास अतीत में Xserve और Xgrid के दौर के बाद लगभग न के बराबर रहे हैं
  • M3 Ultra Mac Studio लोकल AI मॉडल चलाने के लिए उपयुक्त performance दिखाता है, और RDMA support के साथ क्लस्टरिंग में latency 300μs से घटकर 50μs से कम हो जाती है
  • यह 250W से कम बिजली पर शांत तरीके से चलता है, और छोटे वैज्ञानिक गणना कार्यों तथा creative workloads के लिए भी उपयुक्त है

हार्डवेयर कॉन्फ़िगरेशन और नेटवर्किंग

  • नीचे के 2 सिस्टम 512GB RAM / 32-core CPU कॉन्फ़िगरेशन में थे, जबकि ऊपर के 2 सिस्टम 256GB RAM कॉन्फ़िगरेशन में थे
  • Thunderbolt 5 के माध्यम से 50~60Gbps effective bandwidth मिलती है, लेकिन Thunderbolt switch न होने के कारण हर Mac को सीधे दूसरे से जोड़ना पड़ता है
  • QSFP port इस्तेमाल करने वाले Nvidia DGX Spark की तुलना में networking stability कम है
  • Thunderbolt cable को स्थिर रखने के लिए ThunderLok-A मौजूद है, लेकिन इसे लगाने के लिए Mac Studio chassis में बदलाव चाहिए, इसलिए इसका उपयोग नहीं किया गया

M3 Ultra Mac Studio performance benchmark

  • Geekbench में यह Dell Pro Max(GB10) और AMD AI Max+ 395 से single-core और multi-core दोनों में बेहतर रहा
  • FP64 HPL benchmark में इसने 1 Tflop पार किया, जो Nvidia GB10 की लगभग 2 गुना performance है
  • बड़े AI मॉडल inference में भी यह अच्छा रहा और समान बिजली खपत पर इसकी efficiency अधिक थी
  • एकल M3 Ultra, Dell Pro Max के 2-node क्लस्टर से performance और efficiency दोनों में आगे रहा

क्लस्टर management और macOS constraints

  • macOS में SSH के जरिए system upgrade संभव नहीं, इसके लिए GUI ऑपरेशन चाहिए
  • remote management के लिए Screen Sharing का उपयोग किया गया
  • Linux की तुलना में क्लस्टर management automation कठिन है, और MDM tools की कमी भी असुविधा पैदा करती है

HPL और Llama.cpp परीक्षण

  • HPL में single node पर 1.3 Tflops मिले, जबकि 4-node कॉन्फ़िगरेशन में 3.7 Tflops के साथ लगभग 3 गुना सुधार मिला
  • Thunderbolt आधारित TCP कनेक्शन पर system crash हुए, और RDMA के बिना यह अस्थिर रहा
  • Llama.cpp परीक्षण में Thunderbolt 5 ने 2.5Gbps Ethernet की तुलना में कम latency दिखाई

RDMA सक्षम करना और Exo 1.0 परीक्षण

  • RDMA सक्षम करने की प्रक्रिया: recovery mode में जाना → rdma_ctl enable कमांड चलाना → reboot
  • Exo 1.0 RDMA support वाला एकमात्र टूल था, और इसके जरिए 600GB से बड़े मॉडल (Kimi K2 Thinking आदि) को कई Mac पर distributed run किया जा सका
  • Llama.cpp RPC तरीके से model layers को distribute करता है, लेकिन यह कम efficient है
  • Exo में node की संख्या बढ़ने पर performance बेहतर हुई, और Qwen3 235B मॉडल पर 32 tokens प्रति सेकंड हासिल किए गए
  • DeepSeek V3.1 और Kimi K2 Thinking(1 ट्रिलियन parameters) मॉडल भी सफलतापूर्वक चलाए गए

stability समस्याएँ और open source मुद्दे

  • परीक्षण pre-release software पर आधारित था, इसलिए अस्थिरता मौजूद थी
  • RDMA काम करने पर performance बहुत अच्छी थी, लेकिन विफल होने पर पूरे क्लस्टर को reboot करना पड़ता था
  • Exo development team कुछ समय निष्क्रिय रहने के बाद वापस लौटी, और इसे Apache 2.0 license के तहत जारी किया गया
  • Apple के साथ सहयोग के कारण गैर-सार्वजनिक development process को लेकर चिंता भी जताई गई

आगे की चुनौतियाँ और अनसुलझे सवाल

  • M5 Ultra लॉन्च होगा या नहीं, और machine learning performance कितनी बेहतर होगी
  • Mac Pro में PCIe expandability की वापसी से क्लस्टरिंग में सुधार की ज़रूरत
  • SMB Direct support मिलने पर high-speed file sharing की संभावना
  • Llama.cpp जैसे अन्य software में RDMA support के विस्तार की उम्मीद

निष्कर्ष

  • RDMA और Exo का संयोजन Mac Studio की AI·HPC उपयोग-क्षमता को काफी बढ़ाता है
  • लेकिन Thunderbolt 5 की संरचनात्मक सीमाएँ और macOS management constraints अभी भी bottleneck हैं
  • QSFP port जैसे networking expandability सुधारों की ज़रूरत है
  • AI उछाल खत्म होने के बाद भी Mac Studio एक शांत और शक्तिशाली workstation के रूप में मूल्यवान रहेगा

2 टिप्पणियां

 
kaydash 2025-12-21

मुझे impala याद आ गया।

 
GN⁺ 2025-12-19
Hacker News की राय
  • M5 Max/Ultra से क्या उम्मीदें हैं, इसका सार लिखा है
    उम्मीद है कि यह Thunderbolt की जगह DGX-स्तर के QSFP लिंक(200Gb/s या उससे अधिक) को सपोर्ट करे। RDMA आर्किटेक्चर अच्छा है, लेकिन इस स्तर की स्पीड न हो तो इसकी आर्थिक उपयोगिता कम हो जाती है
    Neural accelerator से prompt prefill समय कम करना चाहता हूँ। RTX 6000 स्तर तक न भी हो, तो 3090/4090 जितना काफी है
    Mac Studio के टॉप कॉन्फ़िगरेशन में 1TB unified memory की उम्मीद है। कई मशीनें जोड़ने की बजाय मेमोरी बढ़ाना ज़्यादा प्रभावी लगता है
    bandwidth भी +1TB/s तक बढ़नी चाहिए। हाल की 3 पीढ़ियों से यह 800GB/s पर ही रुकी हुई है
    overclocking फीचर भी होना चाहिए। Mac Studio कोई laptop नहीं है, इसलिए 600W से ज़्यादा बिजली खपत भी ठीक होनी चाहिए। अभी यह लगभग 250W तक सीमित है
    और यह RDMA सेटअप अधिकतम 4 Mac ही जोड़ सकता है, क्योंकि हर Mac को बाकी सभी से सीधे जुड़ना पड़ता है। इसलिए लगता है कि Apple को QSFP जैसे हाई-स्पीड लिंक में निवेश करना चाहिए

    • 1TB मेमोरी? हमारे जैसे आम यूज़रों के लिए खरीदने लायक RAM भी कुछ छोड़नी चाहिए, नहीं क्या? कुछ ऐसा एहसास होता है जैसे, “AI, मानवता को खुश कर दो!”
    • M4 पहले ही प्रति चैनल ज़रूरी स्पीड हासिल कर चुका है, और M5 उससे आगे है। अगर Ultra वर्ज़न आता है, तो 1TB/s bandwidth बिल्कुल संभव है। Max, Ultra का आधा होता है, इसलिए वहाँ शायद ऐसा न हो
    • Mac Studio का thermal design लगातार 650W स्तर की heat को संभालने के लिए नहीं बना है। यह स्तर शायद Mac Pro डिज़ाइन में ही संभव होगा
    • M3 Ultra Mac Studio के सामने वाले USB-C पोर्ट भी Thunderbolt 5 हैं, इसलिए कुल 6 पोर्ट हैं। आधिकारिक स्पेक्स देखें तो समझ नहीं आता कि 4 मशीनों की सीमा क्यों ज़रूरी है
    • Apple Neural Engine पहले से INT8 और FP16 ऑपरेशन सपोर्ट करता है। बस AI frameworks अभी इसका सही इस्तेमाल नहीं कर पा रहे हैं
      और यह भी पक्का नहीं कि सभी Mac का full mesh में जुड़ना ज़रूरी है। लगता है Thunderbolt, RDMA के ऊपर किसी network interface की तरह काम करता है
  • समझ नहीं आता कि Apple RDMA जैसी, जो server cluster के काम की सुविधा है, वह तो दे रहा है, लेकिन remote management या rackmount जैसी बुनियादी quality-of-life सुधारों को नज़रअंदाज़ कर रहा है
    लगता है कि अंदरूनी तौर पर वे M series server products इस्तेमाल कर रहे हों, और यह सुविधा उसी का byproduct हो सकती है

    • शायद Apple सचमुच कोई server-grade product तैयार कर रहा है, और RDMA पहले इसलिए जारी किया गया हो ताकि third-party software पहले से सपोर्ट जोड़ सके
    • Mac Studio, LLM inference के लिए एक अनोखी जगह रखता है। RDMA सामान्य server के लिए नहीं, बल्कि 4 Studio को जोड़कर LLM inferencing cluster बनाने के लिए है, ऐसा लगता है
    • पहले सुना था कि Apple ने Private Compute फीचर के लिए rack में M2 Mac Pro मशीनें लगाई थीं
    • सोचता हूँ क्या Apple अपना data center खुद चलाता है। मुझे लगा था कि ज़्यादातर काम outsourcing करके GCP को दिया गया है
    • यह बात मुझे पहले से हैरान करती रही है। development tooling इतनी कमज़ोर क्यों है, और Apple के अंदर लोग किस तरह का environment इस्तेमाल करते हैं। Thunderbolt cable से Mac Mini जोड़ना कुछ निराशाजनक लगता है
  • Jeff का काम सचमुच शानदार है। Thunderbolt-आधारित RDMA की खबर भी दिलचस्प लगी
    सबसे बढ़कर, Jeff की सकारात्मक ऊर्जा और लगातार योगदान के लिए आभार

  • Linux RDMA को सपोर्ट करता है, लेकिन Thunderbolt पर अभी यह संभव नहीं है। इसे लागू करने के लिए शायद काफ़ी काम करना पड़ेगा
    अच्छा होगा अगर सस्ते Strix Halo box (128GB DDR5-8000, USB4 के 2 पोर्ट) से 2–3 मशीनें जोड़कर बड़े मॉडल चला सकें

  • अभी Thunderbolt में switch नहीं हैं, इसलिए cluster का आकार सीमित है
    इसके बदले RoCE(RDMA over Converged Ethernet) इस्तेमाल किया जा सकता है या नहीं, यह जानना दिलचस्प होगा। सुना है RDMA, TCP से 7–10 गुना तेज़ होता है
    10G~80G Thunderbolt Ethernet adapters भी हैं, लेकिन latency समस्या हो सकती है
    अगर PCIe slot होता, तो बस Infiniband card लगाना काफी होता, लेकिन आखिरकार driver ही असली मुद्दा है

    • Thunderbolt को PCIe में बदलकर सामान्य NIC इस्तेमाल करना भी संभव है। Atto Thunderlink भी असल में Broadcom NIC को एक enclosure में पैक करने जैसा है
      Apple ने MLX5 driver को iPadOS तक में शामिल किया है, यह चौंकाने वाला है। संबंधित ब्लॉग देखें
    • macOS में Mellanox ConnectX cards के लिए driver शामिल है, लेकिन यह ibv_devices में सचमुच दिखता है या नहीं, यह पता नहीं
  • input(prefill) स्पीड और output(decode) स्पीड को अलग-अलग मापने वाला डेटा देखना चाहूँगा
    Exo की पोस्ट में लिखा था कि Mac hardware पर दोनों स्पीड काफ़ी अलग होती हैं

    • इससे जुड़ा कुछ डेटा इस GitHub issue में है।
      सोच रहा हूँ कि Exo टीम को benchmark फीचर जोड़ने का सुझाव दूँ
  • यह दिलचस्प था कि Thunderbolt 5 उतना जबरदस्त नहीं निकला जितना सोचा था
    2.5Gbps Ethernet की तुलना में TB5 सिर्फ लगभग 10% तेज़ था। M3 Studio 10Gbps Ethernet को सपोर्ट करता है, लेकिन उसका परीक्षण नहीं हुआ था
    TB5 में हर CPU को बाकी सभी से सीधे जुड़ना पड़ता है, इसलिए 4 मशीनों की सीमा है। वहीं Ethernet switch इस्तेमाल करने पर अधिक nodes जोड़े जा सकते हैं

    • इस वीडियो में 10Gbps Ethernet से परीक्षण किया गया है
    • पहले के llama RPC अनुभव के हिसाब से 10G Ethernet से स्पीड बढ़ोतरी बहुत मामूली थी। latency ज़्यादा महत्वपूर्ण है, लेकिन उसकी भी सीमा है
    • llama अभी भी पर्याप्त रूप से optimized नहीं है, इसलिए इसकी scalability कम थी। RDMA में Ethernet की तुलना में overhead कम है
  • cluster के हर node में 512GB RAM है। DeepSeek V3.1 मॉडल को 700GB RAM चाहिए
    हैरानी होती है कि एक node से दो node पर जाने पर inference speed सिर्फ 32% बढ़ी। 4 nodes पर भी बढ़त 50% से कम है
    लगता है कहीं न कहीं bottleneck है

    • network bandwidth 80Gbps है, इसलिए वही bottleneck है। Infiniband उससे 10 गुना तेज़ है
    • मॉडल के weights read-only हैं, इसलिए उन्हें SSD पर memory-map किया जा सकता है। असली सीमा activation memory है। MoE आर्किटेक्चर इसमें मदद कर सकता है
    • TB5 RDMA, system memory direct access की तुलना में काफ़ी धीमा है
  • सभी nodes के आपस में जुड़े होने की यह संरचना SGI के NUMALink की याद दिलाती है।
    SGI supercomputer में हर node बाकी सभी nodes से दो links के ज़रिए जुड़ा होता था। cables बहुत थीं, लेकिन framing या congestion control की चिंता नहीं करनी पड़ती थी

    • SGI hardware ने ccNUMA(cache-coherent NUMA) लागू किया था। IRIX OS काम और memory को भौतिक रूप से पास लाकर latency कम करता था
      आज के high-frequency trading systems भी CPU core और DIMM की स्थिति को ध्यान में रखकर processes को place करते हैं, बात वही है
    • NVL72 rack भी GPU के बीच दर्जनों links जोड़कर ऐसी ही संरचना रखता है
  • लेख में दिखी कुछ दिलचस्प डिटेल्स बहुत पसंद आईं
    Exo का रहस्यमय गायब हो जाना, Jeff का Mac के लिए SMB Direct चाहना, M3 Ultra की inference speed, और $2100 का Framework AI desktop वगैरह
    इसकी वजह से लगा जैसे किसी नए rabbit hole का पता चल गया हो