13 पॉइंट द्वारा GN⁺ 2025-02-12 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • AI टूल्स के विकास में बहुत पैसा लगाया जा रहा है, और कई सेवाएँ घाटा सहकर चलाई जा रही हैं
  • बड़ी टेक कंपनियों की सेवाएँ बाज़ार पर कब्ज़ा करने के लिए मुफ़्त या सस्ते में दी जा रही हैं, और अंततः "विज्ञापन या राजनीतिक हितों के कारण AI मॉडल के प्रभावित होने की संभावना अधिक है"
  • इसका समाधान है "अपना खुद का AI मॉडल सीधे चलाना"
    • DeepSeek जैसी कंपनियाँ अपने मॉडल मुफ़्त में जारी करके बाज़ार को हिला रही हैं। ऐसे मॉडलों से पक्षपात हटाया जा सकता है, और इन्हें व्यक्तिगत हार्डवेयर पर चलाया जा सकता है

पर्सनल AI कंप्यूटर बनाने की चुनौतियाँ

  • LLM को लोकल में चलाने के लिए Nvidia का शक्तिशाली वीडियो कार्ड या Apple डिवाइस खरीदना पड़ता है
  • जितनी अधिक मेमोरी होगी, उतने बड़े मॉडल चल सकेंगे, और इससे आउटपुट की गुणवत्ता काफ़ी बेहतर होती है
    • Nvidia GPU या Apple डिवाइस की ज़रूरत (दोनों महंगे)
    • कम से कम 24GB या उससे अधिक VRAM या RAM चाहिए
  • लागत घटाने का तरीका: सेकंड-हैंड उपकरण खरीदना भी एक तरीका है, और मेमोरी बैंडविड्थ व अन्य स्पेसिफिकेशन भी महत्वपूर्ण हैं

कम-लागत AI कंप्यूटर बनाने की प्रक्रिया

  • लक्ष्य: लगभग 1700 यूरो में ऐसा सिस्टम बनाना जो AI मॉडल को लोकल में चला सके
  • अंतिम कॉन्फ़िगरेशन:
    • HP Z440 वर्कस्टेशन (Xeon 12-कोर, 128GB RAM)
    • Nvidia Tesla P40 GPU 2 (प्रत्येक 24GB VRAM, कुल 48GB)
    • NZXT C850 Gold पावर सप्लाई
    • Gainward GT 1030 (डमी GPU, डिस्प्ले आउटपुट के लिए)
    • कस्टम कूलिंग फैन और पावर अडैप्टर

मुख्य तकनीकी समस्याएँ और उनके समाधान

1. सर्वर GPU की कूलिंग समस्या

  • Tesla P40 सर्वर वातावरण के लिए डिज़ाइन किया गया है, इसलिए इसमें अपना फैन नहीं है
  • समाधान: 3D-प्रिंटेड फैन माउंट और फोर्स्ड एयरफ़्लो कंट्रोल
  • फैन की स्पीड नियंत्रित कर तापमान और शोर के बीच उचित संतुलन बनाया गया

2. HP वर्कस्टेशन की कम्पैटिबिलिटी समस्या

  • HP केवल अपने ही पार्ट्स के उपयोग को सीमित करता है
  • पावर सप्लाई और बोर्ड कनेक्शन के लिए अतिरिक्त अडैप्टर खरीदने पड़े

3. BIOS बूट समस्या

  • Tesla P40 में डिस्प्ले आउटपुट पोर्ट नहीं है → इसलिए बूट नहीं होता
  • सस्ता GT 1030 GPU जोड़कर समस्या हल की गई

परफ़ॉर्मेंस टेस्ट के नतीजे

1. इंफ़रेंस स्पीड (Tokens per second)

  • Mistral-Small (24B मॉडल): 15.23
  • Gemma2 (27B मॉडल): 13.90
  • Qwen2.5-Coder (32B मॉडल): 10.75
  • Llama3.3 (70B मॉडल): 5.35
  • DeepSeek-R1 (70B मॉडल): 5.30

2. बिजली की खपत

  • कंप्यूटर आइडल स्थिति में लगभग 80W उपयोग करता है
  • 32B मॉडल को लोड करने पर 123W, और चलाने पर 241W तक पहुँचता है
  • 70B मॉडल के मामले में, लोड के समय 166W और चलने के दौरान 293W तक खपत होती है
  • यानी, मॉडल का आकार बढ़ने के साथ बिजली की खपत भी बढ़ती है, और मॉडल को GPU में लोड करके रखने पर भी काफ़ी बिजली खर्च होती है। इसलिए केवल ज़रूरत पड़ने पर ही मॉडल को लोड रखकर चलाने की रणनीति महत्वपूर्ण है

निष्कर्ष: क्या पर्सनल AI सर्वर बनाना एक सार्थक विकल्प है?

  • पूरी तरह स्वतंत्र AI सिस्टम बनाने में सफलता
  • अपेक्षाकृत कम कीमत पर मिड-साइज़ मॉडल को लोकल में चलाना संभव
  • नवीनतम महंगे हार्डवेयर के बिना भी AI मॉडल चलाए जा सकते हैं, इस बात से संतोष
  • AI तकनीक में दीर्घकालिक बदलावों के लिए तैयार रहने वाला लचीला सिस्टम तैयार

3 टिप्पणियां

 
crawler 2025-02-13

GPU के बिना सिर्फ CPU और SSD से R1 चलाने वाली सेटिंग भी कहीं देखी थी, लेकिन यह थोड़ा अस्पष्ट सा लगता है।

 
dhy0613 2025-02-13

| उसी कीमत ($1799) पर 48GB unified memory और m4 pro वाला Mac Mini खरीदा जा सकता है। इसकी बिजली खपत कम है, यह शांत है, और संभव है कि यह इस सेटअप से बेहतर प्रदर्शन करे। यह लेख पढ़कर अच्छा लगा, लेकिन अगर मैं इसी स्थिति में होता, तो Mac खरीदता।

यही कहना चाहता था, लेकिन यह बात Hacker News की राय में पहले से ही है।

टोकन की कीमत लगातार सस्ती होती जा रही है, इसलिए अगर fine-tuning नहीं करनी है या image generation नहीं करना है, तो खास ज़रूरत है क्या... ऐसा भी लगता है।

 
GN⁺ 2025-02-12
Hacker News राय
  • मैंने eBay से K80 और M40 सस्ते में खरीदकर कुछ ऐसा ही किया था। K80 के drivers बहुत ही दर्दनाक थे। 24GB VRAM सिर्फ 50 डॉलर में मिलना आकर्षक है, लेकिन drivers की समस्याओं के कारण मैं इसकी सिफारिश नहीं करता। मेरे HP workstation में 1200-watt power supply थी, इसलिए मैं GPU इंस्टॉल कर सका। इन GPUs में अपना cooling नहीं होता, इसलिए मैंने 3D printer से bracket बनाया और Noctua fan लगाकर इसे 24/7 चलाया। यह उम्मीद से कहीं बेहतर चला और तापमान 60 डिग्री से ऊपर नहीं गया। इस तरीके से CPU को भी फायदा हुआ। fans case के आगे और पीछे लगे हैं; आगे वाला fan हवा अंदर खींचता है और पीछे वाला बाहर निकालता है। GPU के सामने भी दो fans हैं। workstation मैंने 600 डॉलर में refurbished खरीदा, GPUs 120 डॉलर में लिए, और fans लगभग 60 डॉलर में। मैंने अभी तक STL files अपलोड नहीं की हैं, क्योंकि यह बहुत ही खास उपयोग का मामला है.

  • इसी कीमत (1799 डॉलर) में 48GB unified memory और m4 pro वाला Mac Mini खरीदा जा सकता है। यह कम बिजली खाता है, शांत है, और संभव है कि इस setup से बेहतर performance दे। यह लेख पढ़कर अच्छा लगा, लेकिन अगर मैं इसी स्थिति में होता तो Mac खरीदता।

  • मैं local LLMs के लिए एक machine बनाना चाहता हूँ। मैंने MBP M3 Max पर 128GB RAM के साथ models टेस्ट किए हैं, और अब एक dedicated local server चाहता हूँ। मैं Proxmox आज़माना चाहता हूँ। OpenWebUI और LibreChat को local "app server" पर चला रहा हूँ और इससे संतुष्ट हूँ। लेकिन हर बार जब मैं और ताकतवर hardware खरीदने की सोचता हूँ, तो ROI कम लगता है। खासकर इतनी तेज़ी से बदलती industry में यह और भी सच है। privacy को नज़रअंदाज़ नहीं किया जा सकता, लेकिन online inference cost को मात देना मुश्किल है।

  • local पर host किए गए models खिलौने जैसे प्यारे और मज़ेदार jokes लिख सकते हैं, और कुछ निजी काम कर सकते हैं। लेकिन API के ज़रिए उपलब्ध models की तुलना में ये कमज़ोर पड़ते हैं। अच्छा होता अगर deepseek-r1-678b को local पर चला पाते, लेकिन अभी operating cost capital cost से ज़्यादा है।

  • बीच का रास्ता यह है कि ज़रूरत पड़ने पर GPU VPS किराए पर लिया जाए। H100 को 2 डॉलर प्रति घंटा पर इस्तेमाल किया जा सकता है। यह पूरी तरह local offline जितनी privacy नहीं देता, लेकिन SASS API से बेहतर है। उम्मीद है कि 1~3 साल में local पर कुछ उपयोगी चलाना लागत के हिसाब से फायदेमंद हो जाएगा।

  • जैसा कि दूसरे लोग कह रहे हैं, इसी कीमत में एक high-performance Mac इस्तेमाल किया जा सकता है और उसकी बिजली खपत भी कम होगी। मुझे हैरानी है कि Apple enterprise AI chip market में आकर Nvidia से प्रतिस्पर्धा क्यों नहीं करता। Apple शायद अपना ASIC डिज़ाइन कर सकता है।

  • "अपना AI खुद own करो" घर के hobby के रूप में शानदार है, लेकिन इसमें hardware पर बहुत समय और पैसा खर्च हो जाता है। मैं Mitko Vasilev की dream machine देखने की सलाह दूँगा। अगर आपका कोई साफ़ use case नहीं है, तो आपको बस छोटे models या धीमी token generation speed की ही ज़रूरत है। अगर लक्ष्य AI बनाना और सीखना है, तो ज़रूरत पड़ने पर GPU/TPU किराए पर लेना आर्थिक रूप से बेहतर है।

  • 660 यूरो में 2 Nvidia Tesla P40 cards खरीदना मुझे "budget" नहीं लगता। लोग सस्ते cards के साथ "छोटे" या "मध्यम" models चला सकते हैं। Nvidia Geforce RTX 3060 cards सेकंड-हैंड market में 200~250 यूरो में मिल सकते हैं। 48GB VRAM को budget कहना कुछ ज़्यादा है। यह setup semi-professional या professional उपयोग के लिए है। मध्यम या छोटे models चलाने में समझौता करना पड़ता है, लेकिन budget में रहना भी उतना ही ज़रूरी है।

  • ऐसी investment में समस्या यह है कि अगले महीने इससे बेहतर model आ जाएगा। हो सकता है ज़्यादा RAM चाहिए हो, या फिर मौजूदा सबसे अच्छे model से कम RAM में काम चल जाए। cloud infrastructure इस्तेमाल करने से यह समस्या हल हो सकती है। प्रति रन लागत ज़्यादा होगी, लेकिन अगर उपयोग बीच-बीच में हो तो कुल खर्च बच सकता है। जानना चाहूँगा कि HN users इस समस्या को कैसे संभालते हैं।

  • मैं जानना चाहता हूँ कि क्या किसी ने SBC cluster का उपयोग करके LLM inference चलाया है। उदाहरण के लिए, Radxa ROCK 5C में 32GB memory और NPU है और इसकी कीमत लगभग 300 यूरो है। मुझे modern LLM architecture की गहरी समझ नहीं है, लेकिन layers को कई nodes के बीच बाँटना संभव होना चाहिए। भेजे जाने वाले data की मात्रा बहुत ज़्यादा नहीं होगी। यह modern Mac या Nvidia GPU जैसा performance नहीं देगा, लेकिन शायद स्वीकार्य हो, और कम कीमत में बहुत memory पाने का एक तरीका हो सकता है। मैं CPU + GPU inference की मौजूदा स्थिति के बारे में भी उत्सुक हूँ। prompt processing compute और memory दोनों से सीमित है, लेकिन token generation मुख्य रूप से memory-bound है। क्या ऐसे tools हैं जो शुरुआती prompt processing के लिए कुछ layers को GPU पर लोड करें और उसके बाद CPU inference पर switch कर जाएँ? अपने आखिरी प्रयोग में मैं कुछ layers GPU पर और कुछ CPU पर चला सका था। मुझे लगता है कि सब कुछ GPU पर चलाकर, और memory-bound token generation के समय CPU पर switch करना शायद ज़्यादा efficient होगा।