Nvidia DGX Spark को देखकर GB10 से काफ़ी उम्मीदें थीं, लेकिन रिव्यू देखने पर निराशा ज़्यादा हुई। लगता है कि memory bandwidth बाकी performance की रुकावट बन रही है.
कुछ मामलों में AMD Strix Halo के बराबर performance मिला, या उससे भी बेहतर निकला।
- (हालाँकि यह unified memory 64GB के साथ आता है, लेकिन option के तौर पर 128GB तक, और vRAM 96GB तक allocate किया जा सकता है)
FP4 support, CUDA, ConnectX-7, और expansion के समय अतिरिक्त 128GB memory जुड़ने की बात है, लेकिन मशीन की कीमत Strix Halo की तुलना में दोगुने से भी ज़्यादा है, इसलिए हिम्मत नहीं हो रही।
AMD ROCm का ecosystem, CUDA की तुलना में कमज़ोर है, फिर भी अब तक मैंने जो प्रोग्राम बनाए हैं वे ठीक से चल रहे हैं, इसलिए मेरा झुकाव उधर है (करीब 30 लाख won में 128GB 2TB SoC खरीदा जा सकता है)। बजट और power consumption को ध्यान में रखकर आपने सिस्टम कॉन्फ़िगरेशन कैसे किया, यह जानना चाहता हूँ।
मैं AMD Strix Halo लेने और OS के लिए Fedora-आधारित Bazzite पर जाने की सोच रहा हूँ। उसमें graphics driver पहले से ही इंस्टॉल रहता है, और Distrobox, mise इंस्टॉल करने पर मेरे बनाए प्रोग्राम और ज़रूरी मॉडल चल जाते दिखे।
9 टिप्पणियां
Singles' Day छूट में खरीदी गई Strix Halo मशीन आ गई, और मैंने Bazzite इंस्टॉल करके distrobox से कुछ image generation आज़माए। जैसा उम्मीद थी, वैसा ही performance मिला (LLM का performance बहुत ज़्यादा नहीं था)। इसे बस एक high-performance mini PC समझिए।
कहा जाता है कि integrated memory में 96GB से ज़्यादा को vRAM के रूप में allocate किया जा सकता है, लेकिन यह dynamic रूप से बदलता है इसलिए शायद पुष्टि नहीं हो रही, अब तक मैंने 96GB से ज़्यादा allocate होते नहीं देखा।
configuration के लिए मैंने https://strixhalo.wiki/ साइट को refer किया। वहाँ purchase guide (Strix Halo - Mac - DGS Spark - 6000) comparison table भी है, इसलिए उसे देखेंगे तो मदद मिलेगी.
Bazzite का प्रचार: OS को immutable image के रूप में manage किया जाता है, और बाकी programs को battery (flatpak, brew आदि) से manage किया जाता है। update command से firmware से लेकर सभी packages update हो जाते हैं। अगर लगे कि OS गड़बड़ हो गया है, तो बस user path को साफ़ कर दीजिए (OS को सामान्य तरीकों से छेड़ा नहीं जा सकता)। AMD drivers सब पहले से इंस्टॉल हैं, इसलिए ROMc तुरंत इस्तेमाल किया जा सकता है।
container launcher... के रूप में बना OS fedora coreOS है, और उस पर तरह-तरह की user settings जोड़कर बना Bazzite सामान्य उपयोग और development दोनों के लिए सुविधाजनक है और usability भी बहुत बढ़िया है। container (distrobox), wine, tailscale पहले से इंस्टॉल हैं। इसमें अगर mise भी जोड़ दें, तो मेरी नज़र में मनचाहे सारे features manage हो जाते हैं।
शुरू से सेटअप करते हुए guide बनाने का इरादा था, लेकिन पहले से इस्तेमाल किए जा रहे Bazzite के user account directory को पूरा का पूरा कॉपी कर दिया, तो सारी settings वैसे ही आ गईं—इसलिए setup guide... बना ही नहीं पाया।
मेरी व्यक्तिगत राय में Mac और Nvidia DGX Spark के मामले में unified memory वाला तरीका है, और बाकी में RAM और VRAM अलग-अलग रखने वाला तरीका ज़्यादा देखने को मिलता है.
इनमें कुछ products ऐसे भी हैं जहाँ integrated graphics card की VRAM allocation system RAM इस्तेमाल करने के तरीके से आती है.
गैर-विशेषज्ञों के लिए मैं Mac या Nvidia DGX Spark की सिफारिश करूंगा, और अगर आप खुद कुछ हद तक trial and error कर सकते हैं तो AMD इस्तेमाल करना बेहतर हो सकता है.
हर एक के अपने फायदे और नुकसान हैं.
Mac, Nvidia DGX Spark आदि के मामले में कमी यह है कि बाद में RAM upgrade संभव नहीं होता, इसलिए खरीदते समय पहले से configuration तय करनी पड़ती है.
AMD के मामले में RAM को खुद upgrade किया जा सकता है, यह इसका फायदा है, लेकिन VRAM allocation की एक सीमा मौजूद रहती है.
यानि अगर नज़रिए से देखें कि 128GB या उससे अधिक को VRAM की तरह इस्तेमाल करना है, तो Mac Studio सबसे फायदेमंद विकल्प है.
झंझट की गुंजाइश कम है, लेकिन Mac Studio inference के लिए ठीक है, जबकि training में कमज़ोर पड़ता है. (training में AMD से भी धीमा)
Nvidia DGX Spark के मामले में 128GB से अधिक memory configuration बनानी हो तो Nvidia की अलग cable भी खरीदनी पड़ती है, यह इसकी कमी है. लेकिन AI training के मामले में CUDA मूल रूप से इस्तेमाल होता है, इसलिए इसमें सबसे कम झंझट है. साथ ही performance के बारे में VRAM को छोड़ दें तो 5070-class होने की अफवाह है, और memory bandwidth की भी सीमा है...(अगर training को ध्यान में रखें तो यह एक ठीक-ठाक विकल्प है)
integrated graphics का इस्तेमाल करके VRAM allocation
हाल में memory prices बढ़ने की वजह से यह कुछ निराशाजनक विकल्प है, लेकिन फिर भी RAM options को देखें तो Mac से कहीं सस्ता है. हालांकि AMD ROCm की कमी के कारण खुद काफी मेहनत करनी पड़ती है, इसलिए गैर-विशेषज्ञों के लिए इसकी सिफारिश नहीं है (और VRAM को और बढ़ाना व्यावहारिक रूप से लगभग असंभव है...)
मेरा ख्याल है इसे इस तरह संक्षेप में व्यवस्थित किया जा सकता है.
अगर केवल cost-effectiveness देखें तो AMD अच्छा है...लेकिन अगर मन की शांति के साथ इस्तेमाल करना हो तो Mac Studio भी बुरा विकल्प नहीं है. अगर सिर्फ inference पर ध्यान दें तो यह पूरी तरह value-for-money के दायरे में आ जाता है...
AMD के मामले में RAM को सीधे upgrade किया जा सकना एक फ़ायदा है, लेकिन VRAM allocation में सीमाएँ मौजूद रहती हैं
-> यह हिस्सा बिना ठीक से व्यवस्थित किए लिखते-लिखते ग़लत लिखा गया था। system RAM और VRAM को अलग करने के मामले में कुछ में upgrade संभव होता है, और laptop के हिसाब से कई ऐसे भी होते हैं जिनमें upgrade नहीं किया जा सकता।
5070Ti Super का इंतज़ार छोड़कर मैं Radeon की तरफ आकर्षित हो गया, और यह कॉन्फ़िगरेशन बनाकर इस्तेमाल कर रहा हूँ.
पार्टिशन बाँटकर Ubuntu 24.10 इंस्टॉल किया और ROCm 7.1 लगाया, तो LLM inference और PyTorch स्तर तक इस्तेमाल होने वाले ComfyUI वाले काम में बिना किसी बड़ी समस्या के यह अच्छे से चल रहा है.
SageAttention का काम न करना थोड़ा खटकता है, लेकिन कीमत को देखें तो उसे नज़रअंदाज़ कर देता हूँ.
मैं Mac Studio का बड़ा मॉडल खरीदने के बारे में सोच रहा था, लेकिन Home LLM के मामले में इतने सारे विकल्प बढ़ गए हैं, यह मुझे पता नहीं था.
क्या मैं पूछ सकता हूँ कि आप Strix तरफ़ की सेटिंग कैसे कॉन्फ़िगर कर रहे हैं?
Strix halo अभी खरीदा नहीं है, लेकिन इसी तरह AMD GPU इस्तेमाल करने वाले एक gaming कंप्यूटर में 16GB vRAM का उपयोग करके लगभग 60 करोड़ मामलों की गणना की थी।
एक बार सेटअप करके, जो समझ में आया उसे खोजते हुए किया था, इसलिए याद ठीक-ठीक नहीं है।
मैं Bazzite इस्तेमाल कर रहा हूँ, इसलिए graphics driver पहले से इंस्टॉल था और उसमें कुछ खास नहीं था। ROCm और संबंधित modules को distrobox के अंदर Rocky Linux पर इंस्टॉल करने के बाद GPU इस्तेमाल करने वाली तरह-तरह की गणनाएँ कीं।
तेज़ memory bandwidth काफ़ी ऊँचा है, तो क्या Mac Studio पर भी विचार करना ठीक नहीं होगा? 128GB 2TB option जोड़ें तो यह 4000 डॉलर हो जाता है। Mac architecture वाला हिस्सा AMD पर जाने से बहुत अलग नहीं लगेगा।
मैं इस जवाब को संदर्भ के तौर पर रखूँगा।
इतने विनम्रता से जवाब देने के लिए धन्यवाद!
https://www.youtube.com/watch?v=Pww8rIzr1pg के आधार पर Gemini से तुलना करने को कहा, और यह परिणाम मिला
📊 128GB LLM रन विकल्प तुलना (नवंबर 2025, benchmark परिलक्षित)
कॉन्फ़िगरेशन विकल्प (128GB) T/s (अनुमानित) सिस्टम पावर (अनुमानित) T/W (पावर दक्षता) सिस्टम लागत (अनुमानित) Cost/T (लागत-प्रभावशीलता)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~520 lakh won 4.33 lakh won/T
4 x RTX 5080 32GB (नया) 240 T/s 1500 W 0.16 ~1,200 lakh won 5.0 lakh won/T
6 x RTX 3090 (used) 90 T/s 2300 W 0.04 ~700 lakh won 7.8 lakh won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~260 lakh won 8.67 lakh won/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~600 lakh won 27.3 lakh won/T
💡 विश्लेषण और निष्कर्ष (त्रुटि सुधार)
मैं अपनी गंभीर गलती सुधारते हुए, वीडियो की सामग्री को सही तरह से दर्शाकर फिर से विश्लेषण कर रहा हूँ।
4K बजट के भीतर DGX Spark की तुलना में quad 3090 का प्रदर्शन कहीं बेहतर है, ऐसा दिखाने वाला वीडियो
https://www.youtube.com/watch?v=md6a4ENM9pg
यह दावा कि Strix Halo Local LLM चलाने वाली मशीन के रूप में एक खराब खरीद है
https://reddit.com/r/LocalLLaMA/…
लगता है मुख्य तर्क यह है कि बिजली की खपत को महत्वपूर्ण मानदंड मानना मुश्किल है, और bandwidth की वजह से बड़े मॉडल मेमोरी में लोड कर लेने पर भी उनका व्यावहारिक उपयोग नहीं हो पाता...