Home लोकल LLM मशीन कॉन्फ़िगरेशन का अनुभव साझा

6 पॉइंट द्वारा popopo 2025-11-09 | 9 टिप्पणियां | WhatsApp पर शेयर करें

Nvidia DGX Spark को देखकर GB10 से काफ़ी उम्मीदें थीं, लेकिन रिव्यू देखने पर निराशा ज़्यादा हुई। लगता है कि memory bandwidth बाकी performance की रुकावट बन रही है.

कुछ मामलों में AMD Strix Halo के बराबर performance मिला, या उससे भी बेहतर निकला।

(हालाँकि यह unified memory 64GB के साथ आता है, लेकिन option के तौर पर 128GB तक, और vRAM 96GB तक allocate किया जा सकता है)

FP4 support, CUDA, ConnectX-7, और expansion के समय अतिरिक्त 128GB memory जुड़ने की बात है, लेकिन मशीन की कीमत Strix Halo की तुलना में दोगुने से भी ज़्यादा है, इसलिए हिम्मत नहीं हो रही।

AMD ROCm का ecosystem, CUDA की तुलना में कमज़ोर है, फिर भी अब तक मैंने जो प्रोग्राम बनाए हैं वे ठीक से चल रहे हैं, इसलिए मेरा झुकाव उधर है (करीब 30 लाख won में 128GB 2TB SoC खरीदा जा सकता है)। बजट और power consumption को ध्यान में रखकर आपने सिस्टम कॉन्फ़िगरेशन कैसे किया, यह जानना चाहता हूँ।

मैं AMD Strix Halo लेने और OS के लिए Fedora-आधारित Bazzite पर जाने की सोच रहा हूँ। उसमें graphics driver पहले से ही इंस्टॉल रहता है, और Distrobox, mise इंस्टॉल करने पर मेरे बनाए प्रोग्राम और ज़रूरी मॉडल चल जाते दिखे।

9 टिप्पणियां

popopo 2025-11-18

Singles' Day छूट में खरीदी गई Strix Halo मशीन आ गई, और मैंने Bazzite इंस्टॉल करके distrobox से कुछ image generation आज़माए। जैसा उम्मीद थी, वैसा ही performance मिला (LLM का performance बहुत ज़्यादा नहीं था)। इसे बस एक high-performance mini PC समझिए।

कहा जाता है कि integrated memory में 96GB से ज़्यादा को vRAM के रूप में allocate किया जा सकता है, लेकिन यह dynamic रूप से बदलता है इसलिए शायद पुष्टि नहीं हो रही, अब तक मैंने 96GB से ज़्यादा allocate होते नहीं देखा।

configuration के लिए मैंने https://strixhalo.wiki/ साइट को refer किया। वहाँ purchase guide (Strix Halo - Mac - DGS Spark - 6000) comparison table भी है, इसलिए उसे देखेंगे तो मदद मिलेगी.

Bazzite का प्रचार: OS को immutable image के रूप में manage किया जाता है, और बाकी programs को battery (flatpak, brew आदि) से manage किया जाता है। update command से firmware से लेकर सभी packages update हो जाते हैं। अगर लगे कि OS गड़बड़ हो गया है, तो बस user path को साफ़ कर दीजिए (OS को सामान्य तरीकों से छेड़ा नहीं जा सकता)। AMD drivers सब पहले से इंस्टॉल हैं, इसलिए ROMc तुरंत इस्तेमाल किया जा सकता है।

container launcher... के रूप में बना OS fedora coreOS है, और उस पर तरह-तरह की user settings जोड़कर बना Bazzite सामान्य उपयोग और development दोनों के लिए सुविधाजनक है और usability भी बहुत बढ़िया है। container (distrobox), wine, tailscale पहले से इंस्टॉल हैं। इसमें अगर mise भी जोड़ दें, तो मेरी नज़र में मनचाहे सारे features manage हो जाते हैं।

शुरू से सेटअप करते हुए guide बनाने का इरादा था, लेकिन पहले से इस्तेमाल किए जा रहे Bazzite के user account directory को पूरा का पूरा कॉपी कर दिया, तो सारी settings वैसे ही आ गईं—इसलिए setup guide... बना ही नहीं पाया।

minsuchae 2025-11-11

मेरी व्यक्तिगत राय में Mac और Nvidia DGX Spark के मामले में unified memory वाला तरीका है, और बाकी में RAM और VRAM अलग-अलग रखने वाला तरीका ज़्यादा देखने को मिलता है.
इनमें कुछ products ऐसे भी हैं जहाँ integrated graphics card की VRAM allocation system RAM इस्तेमाल करने के तरीके से आती है.
गैर-विशेषज्ञों के लिए मैं Mac या Nvidia DGX Spark की सिफारिश करूंगा, और अगर आप खुद कुछ हद तक trial and error कर सकते हैं तो AMD इस्तेमाल करना बेहतर हो सकता है.
हर एक के अपने फायदे और नुकसान हैं.

Mac, Nvidia DGX Spark आदि के मामले में कमी यह है कि बाद में RAM upgrade संभव नहीं होता, इसलिए खरीदते समय पहले से configuration तय करनी पड़ती है.
AMD के मामले में RAM को खुद upgrade किया जा सकता है, यह इसका फायदा है, लेकिन VRAM allocation की एक सीमा मौजूद रहती है.

यानि अगर नज़रिए से देखें कि 128GB या उससे अधिक को VRAM की तरह इस्तेमाल करना है, तो Mac Studio सबसे फायदेमंद विकल्प है.
झंझट की गुंजाइश कम है, लेकिन Mac Studio inference के लिए ठीक है, जबकि training में कमज़ोर पड़ता है. (training में AMD से भी धीमा)

Nvidia DGX Spark के मामले में 128GB से अधिक memory configuration बनानी हो तो Nvidia की अलग cable भी खरीदनी पड़ती है, यह इसकी कमी है. लेकिन AI training के मामले में CUDA मूल रूप से इस्तेमाल होता है, इसलिए इसमें सबसे कम झंझट है. साथ ही performance के बारे में VRAM को छोड़ दें तो 5070-class होने की अफवाह है, और memory bandwidth की भी सीमा है...(अगर training को ध्यान में रखें तो यह एक ठीक-ठाक विकल्प है)

integrated graphics का इस्तेमाल करके VRAM allocation
हाल में memory prices बढ़ने की वजह से यह कुछ निराशाजनक विकल्प है, लेकिन फिर भी RAM options को देखें तो Mac से कहीं सस्ता है. हालांकि AMD ROCm की कमी के कारण खुद काफी मेहनत करनी पड़ती है, इसलिए गैर-विशेषज्ञों के लिए इसकी सिफारिश नहीं है (और VRAM को और बढ़ाना व्यावहारिक रूप से लगभग असंभव है...)

मेरा ख्याल है इसे इस तरह संक्षेप में व्यवस्थित किया जा सकता है.
अगर केवल cost-effectiveness देखें तो AMD अच्छा है...लेकिन अगर मन की शांति के साथ इस्तेमाल करना हो तो Mac Studio भी बुरा विकल्प नहीं है. अगर सिर्फ inference पर ध्यान दें तो यह पूरी तरह value-for-money के दायरे में आ जाता है...

minsuchae 2025-11-11

AMD के मामले में RAM को सीधे upgrade किया जा सकना एक फ़ायदा है, लेकिन VRAM allocation में सीमाएँ मौजूद रहती हैं
-> यह हिस्सा बिना ठीक से व्यवस्थित किए लिखते-लिखते ग़लत लिखा गया था। system RAM और VRAM को अलग करने के मामले में कुछ में upgrade संभव होता है, और laptop के हिसाब से कई ऐसे भी होते हैं जिनमें upgrade नहीं किया जा सकता।

dhy0613 2025-11-11

5070Ti Super का इंतज़ार छोड़कर मैं Radeon की तरफ आकर्षित हो गया, और यह कॉन्फ़िगरेशन बनाकर इस्तेमाल कर रहा हूँ.

9800x3D
सेकंड-हैंड 7900 XTX
96GB RAM

पार्टिशन बाँटकर Ubuntu 24.10 इंस्टॉल किया और ROCm 7.1 लगाया, तो LLM inference और PyTorch स्तर तक इस्तेमाल होने वाले ComfyUI वाले काम में बिना किसी बड़ी समस्या के यह अच्छे से चल रहा है.

SageAttention का काम न करना थोड़ा खटकता है, लेकिन कीमत को देखें तो उसे नज़रअंदाज़ कर देता हूँ.

clastneo 2025-11-10

मैं Mac Studio का बड़ा मॉडल खरीदने के बारे में सोच रहा था, लेकिन Home LLM के मामले में इतने सारे विकल्प बढ़ गए हैं, यह मुझे पता नहीं था.
क्या मैं पूछ सकता हूँ कि आप Strix तरफ़ की सेटिंग कैसे कॉन्फ़िगर कर रहे हैं?

popopo 2025-11-10

Strix halo अभी खरीदा नहीं है, लेकिन इसी तरह AMD GPU इस्तेमाल करने वाले एक gaming कंप्यूटर में 16GB vRAM का उपयोग करके लगभग 60 करोड़ मामलों की गणना की थी।

एक बार सेटअप करके, जो समझ में आया उसे खोजते हुए किया था, इसलिए याद ठीक-ठीक नहीं है।

मैं Bazzite इस्तेमाल कर रहा हूँ, इसलिए graphics driver पहले से इंस्टॉल था और उसमें कुछ खास नहीं था। ROCm और संबंधित modules को distrobox के अंदर Rocky Linux पर इंस्टॉल करने के बाद GPU इस्तेमाल करने वाली तरह-तरह की गणनाएँ कीं।

तेज़ memory bandwidth काफ़ी ऊँचा है, तो क्या Mac Studio पर भी विचार करना ठीक नहीं होगा? 128GB 2TB option जोड़ें तो यह 4000 डॉलर हो जाता है। Mac architecture वाला हिस्सा AMD पर जाने से बहुत अलग नहीं लगेगा।

clastneo 2025-11-11

मैं इस जवाब को संदर्भ के तौर पर रखूँगा।
इतने विनम्रता से जवाब देने के लिए धन्यवाद!

popopo 2025-11-09

https://www.youtube.com/watch?v=Pww8rIzr1pg के आधार पर Gemini से तुलना करने को कहा, और यह परिणाम मिला

📊 128GB LLM रन विकल्प तुलना (नवंबर 2025, benchmark परिलक्षित)

वीडियो की सामग्री के आधार पर: Hardware Unboxed के benchmark को मानक मानते हुए, Strix Halo, M3 Max की तुलना में बेहतर है (लगभग 30~35% सुधार), और GB10 "Spark" सिस्टम इन APU/इंटीग्रेटेड chipset से कहीं बेहतर dedicated NPU/GPU performance दिखाता है। (Llama 3 70B Q4 inference aadhar par T/s)

कॉन्फ़िगरेशन विकल्प (128GB) T/s (अनुमानित) सिस्टम पावर (अनुमानित) T/W (पावर दक्षता) सिस्टम लागत (अनुमानित) Cost/T (लागत-प्रभावशीलता)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~520 lakh won 4.33 lakh won/T
4 x RTX 5080 32GB (नया) 240 T/s 1500 W 0.16 ~1,200 lakh won 5.0 lakh won/T
6 x RTX 3090 (used) 90 T/s 2300 W 0.04 ~700 lakh won 7.8 lakh won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~260 lakh won 8.67 lakh won/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~600 lakh won 27.3 lakh won/T

💡 विश्लेषण और निष्कर्ष (त्रुटि सुधार)

मैं अपनी गंभीर गलती सुधारते हुए, वीडियो की सामग्री को सही तरह से दर्शाकर फिर से विश्लेषण कर रहा हूँ।

"price-performance (Cost/T)" चैंपियन: NVIDIA "Spark" (GB10)  

    Cost/T (लागत-प्रभावशीलता): 4.33 lakh won/T  

    जैसा कि Hardware Unboxed वीडियो में दिखाया गया, $3999 का 'Spark' सिस्टम $2000 के 'Strix Halo' सिस्टम की तुलना में कहीं बेहतर LLM inference performance (T/s) देता है।  

    इसके कारण token प्रति सिस्टम build cost (Cost/T) सभी विकल्पों में सबसे कम है, इसलिए यह 'value for money' चैंपियन बनता है।  

    T/W (पावर दक्षता) भी 0.30 है, जो multi-GPU configuration की तुलना में कहीं अधिक efficient है।  

"absolute budget" चैंपियन: AMD Strix Halo (128GB)  

    Cost/T (लागत-प्रभावशीलता): 8.67 lakh won/T  

    इस सिस्टम की वैल्यू इसकी absolute speed (30 T/s) में नहीं, बल्कि **लगभग 260 lakh won($2000)** जैसी जबरदस्त 'न्यूनतम लागत' पर 128GB VRAM environment में प्रवेश कर पाने में है।  

    जैसा कि वीडियो में M3 Max से बेहतर साबित हुआ, यह व्यक्तिगत डेवलपर्स के लिए एक शानदार 'entry-level' विकल्प है।  

"absolute speed" चैंपियन: 4 x RTX 5080 32GB  

    T/s (स्पीड): 240 T/s  

    'Spark' या 'Strix Halo' जैसे integrated सिस्टम inference में शक्तिशाली हैं, लेकिन मॉडल को सीधे 'fine-tuning' करने में उनकी सीमाएँ हो सकती हैं।  

    यदि आप सबसे तेज inference speed के साथ-साथ मॉडल को सीधे train/modify करने की flexibility भी चाहते हैं, तो multi discrete GPU configuration (4 x 5080) अब भी सबसे शक्तिशाली विकल्प है।

popopo 2025-11-10

4K बजट के भीतर DGX Spark की तुलना में quad 3090 का प्रदर्शन कहीं बेहतर है, ऐसा दिखाने वाला वीडियो

https://www.youtube.com/watch?v=md6a4ENM9pg

यह दावा कि Strix Halo Local LLM चलाने वाली मशीन के रूप में एक खराब खरीद है

https://reddit.com/r/LocalLLaMA/…

लगता है मुख्य तर्क यह है कि बिजली की खपत को महत्वपूर्ण मानदंड मानना मुश्किल है, और bandwidth की वजह से बड़े मॉडल मेमोरी में लोड कर लेने पर भी उनका व्यावहारिक उपयोग नहीं हो पाता...

Home लोकल LLM मशीन कॉन्फ़िगरेशन का अनुभव साझा

संबंधित पढ़ाई

9 टिप्पणियां