मुझे $3,000 का Pi AI क्लस्टर बनाने का पछतावा है

(jeffgeerling.com)

3 पॉइंट द्वारा GN⁺ 2025-09-20 | 5 टिप्पणियां | WhatsApp पर शेयर करें

Raspberry Pi Compute Blade 10 और CM5 मॉड्यूल का उपयोग करके लगभग $3,000 का AI क्लस्टर बनाया गया, लेकिन प्रदर्शन और कीमत के मुकाबले मूल्य दोनों ही उम्मीद से कम रहे
HPC बेंचमार्क में एकल Pi की तुलना में 10 गुना प्रदर्शन वृद्धि (325 Gflops) मिली, लेकिन Framework desktop cluster से 4 गुना धीमा परिणाम सामने आया
AI टेस्ट में GPU acceleration समर्थित नहीं था, इसलिए CPU-आधारित inference पर निर्भर रहना पड़ा, और Llama 70B मॉडल चलाने पर token generation speed लगभग 0.85 t/s रही, जो बहुत कम थी
फिर भी, कम बिजली खपत, कम शोर, और high density जैसी खूबियों के कारण CI कार्य, सुरक्षा-सम्वेदनशील edge deployment, और Tor relay node जैसे विशेष उपयोगों में इसका महत्व हो सकता है
कुल मिलाकर, सीखने और प्रयोग के लिए यह दिलचस्प है, लेकिन सामान्य AI/HPC उपयोग के लिए उपयुक्त नहीं है, और यह blade server की सीमाएँ दिखाने वाला एक उदाहरण है

परिचय और क्लस्टर का अवलोकन

2 साल पहले, अप्रैल 2023 में 10 Compute Blade ऑर्डर किए गए थे, और हाल ही में सभी के पहुँचने पर क्लस्टर पूरा हुआ
इस बीच Raspberry Pi CM4 से CM5 में अपग्रेड हो चुका था, इसलिए 16GB CM5 Lite मॉड्यूल 10 और मंगवाए गए, जिससे कुल 160GB memory का कॉन्फ़िगरेशन पूरा हुआ
कुल लागत $3,000 (shipping सहित) रही, और यह व्यक्तिगत रूप से बनाया गया सबसे बड़ा Pi क्लस्टर था
Pi-आधारित blade computer में Xerxes Pi भी है, लेकिन उसके लॉन्च और डिलीवरी में देरी की आशंका अधिक है, और जिज्ञासा के कारण उसे भी समर्थन दिया गया
सवाल यह था कि क्या Pi क्लस्टर आज भी वास्तव में उपयोगी है, और प्रदर्शन, density, तथा efficiency की Framework desktop cluster से तुलना कर यह परखा गया कि यह निवेश योग्य है या नहीं

क्लस्टर निर्माण और बार-बार की गई मेहनत

कई बार SSD compatibility समस्या और overheating की वजह से क्लस्टर को तीन बार फिर से जोड़ना पड़ा
- पहली बार पुनर्निर्माण: अलग-अलग NVMe SSD इस्तेमाल किए गए, लेकिन compatibility और reliability समस्याएँ आईं, इसलिए सबको Patriot P300 SSD से बदलने के बाद स्थिरता बेहतर हुई
- दूसरी बार पुनर्निर्माण: गर्मी के कारण throttling हो रही थी, जिसे heatsink को मज़बूती से फिक्स करके हल किया गया

HPC (High Performance Computing) बेंचमार्क परिणाम

High Performance Linpack (Top500) benchmark से supercomputer प्रदर्शन मापा गया
- heatsink लगाने से पहले प्रदर्शन 275 Gflops था, और बाद में अधिकतम 325 Gflops तक बढ़ गया
- यह आँकड़ा 8GB CM5 single node की तुलना में 10 गुना प्रदर्शन है, जबकि बिजली खपत 130W रही
लेकिन $8,000 के Framework Desktop 4-node cluster की तुलना में Pi क्लस्टर 4 गुना धीमा था
energy efficiency (Gflops/W) में मामूली बढ़त होने के बावजूद, price-to-performance में यह Framework cluster से पीछे रहा
यह बड़े पैमाने की HPC के लिए उपयुक्त समाधान नहीं है

AI उपयोगिता परीक्षण और सीमाएँ

160GB memory होने के कारण AI cluster की उम्मीद थी, लेकिन Pi 5 के iGPU पर Vulkan के जरिए acceleration संभव नहीं था
AI inference पूरी तरह CPU तक सीमित रहा, और Arm Cortex A76 की सीमाओं के कारण प्रोसेसिंग प्रदर्शन काफी गिर गया
Llama 3.2:3B मॉडल के मामले में, एक node पर केवल 6 token प्रति सेकंड ही प्रोसेस हो पाए, जो अपेक्षाकृत धीमा है
सभी nodes का उपयोग कर बड़े मॉडल (Llama 3.3:70B) को distributed तरीके से चलाने पर भी गति 0.28~0.85 token/second तक ही रही, जो Framework cluster से कम-से-कम 5~25 गुना धीमी है
Exo, distributed-llama जैसे अन्य distributed AI tools भी वास्तविक उपयोग के लिए अस्थिर या कमज़ोर प्रदर्शन वाले रहे
कुल मिलाकर AI workloads के लिए यह उपयुक्त नहीं है

निष्कर्ष और व्यावहारिक उपयोग के सुझाव

Pi blade cluster प्रदर्शन/कीमत के हिसाब से प्रतिस्पर्धी विकल्प नहीं है, और सीखने, प्रयोग, या hobby के अलावा इसे सुझाना मुश्किल है
दूसरी ओर, आसान प्रबंधन, कम शोर, compactness, और node density तथा isolation में इसके फायदे हैं
व्यवहारिक रूप से इसे CI (continuous integration) कार्यों या उच्च-सुरक्षा/edge computing जैसे अलग-थलग वातावरण में सीमित रूप से विचार किया जा सकता है
Unredacted Labs इसे Tor exit relay जैसे बड़े node environment में efficiency और node density को अधिकतम करने के लिए इस्तेमाल कर रहा है
लेकिन अधिकांश सामान्य उपयोगकर्ताओं के लिए इसी लागत पर ज़्यादा प्रदर्शन और बेहतर efficiency वाले दूसरे विकल्प उपलब्ध हैं
निर्माता Gateworks ने भी कभी industrial GBlade बेचा था, लेकिन उसे बाज़ार में सफलता नहीं मिली और वह बंद कर दिया गया
maintenance और practicality के लिहाज़ से यह बड़े क्लस्टर संचालन की तुलना में सरल है, लेकिन कोई विशेष कारण न हो तो इसे सुझाना कठिन है

उपयोग किए गए पुर्ज़ों की सूची

(लेखक ने अलग से इस्तेमाल किए गए parts की सूची दी थी, लेकिन यह भी कहा कि ऐसी ही कॉन्फ़िगरेशन को ज्यों का त्यों दोहराने की सलाह नहीं दी जाती)

5 टिप्पणियां

euphcat 2025-09-22

Vulkan के बारे में सटीक रूप से कहें तो, सही बात यह है कि 'Pi 5 के iGPU द्वारा समर्थित Vulkan API को अभी llama.cpp में सपोर्ट नहीं किया गया है'। अगर इसका सपोर्ट होता, तो प्रदर्शन कितना मिलता, यह भी जानने की जिज्ञासा होती।

GN⁺ 2025-09-20

Hacker News की राय

जिन लोगों की distributed systems में रुचि है, उनके लिए मैं ज़ोरदार सिफारिश करूँगा कि नवीनतम 16-core AMD CPU वाली एक single machine पर 8 virtual machines चलाकर देखें। हर VM को 4 hyperthreads और कुल RAM का 1/8 हिस्सा दे सकते हैं, और Proxmox जैसे virtualization software के अंदर virtual network बनाकर cluster का अनुभव लिया जा सकता है। असल में एक बार में एक VM को सिर्फ़ एक click से रोकते हुए resiliency test भी किया जा सकता है। यह तरीका Pi cluster की तुलना में Perf/W और convenience दोनों में कहीं बेहतर है। parts assemble करने का stress भी नहीं, बस CPU, motherboard, m.2 SSD और RAM के दो sticks हों तो काम चल जाता है। बेशक, high-core machine पर virtualization के बिना सीधे चलाने पर सबसे अच्छा Perf/W मिलता है, लेकिन benchmarks में जो बात अक्सर छूट जाती है वह है idle W consumption। अगर cluster हमेशा on रहे और कम इस्तेमाल हो, तो यह भी बहुत महत्वपूर्ण है
- मुझे नहीं लगता कि CPU performance इतनी ज़्यादा होना ज़रूरी है। पुराना quad-core भी काफ़ी है
- इसी से जुड़ी बात, मुझे लगा था कि पुराने MPI programs को AMD multi-chip workstation जैसे environment में चलाने का चलन और बढ़ेगा, लेकिन ऐसा नहीं हुआ, यह थोड़ा surprising था
- सच कहूँ तो इतना CPU power चाहिए भी या नहीं, इस पर संदेह है। अगर distributed systems की practice करनी है, तो पुराने Linux box या एक Raspberry Pi पर भी सिर्फ़ Erlang install करके कुछ nodes बनाकर काफ़ी experiment किया जा सकता है
- कुछ साल पहले Raspberry Pi की भारी कमी के दौरान लोगों को ऐसे toy cluster बनाने के लिए उन्हें बेतहाशा ढूँढते देखना दुखद था। Pi का मूल उद्देश्य education था, लेकिन असल में अक्सर यह waste हो जाता है। मैं xcp-ng पर एक K8s "cluster" चलाता हूँ, और सच में इससे भी ज़्यादा simple तरीक़े संभव हैं। Docker Machine से भी एक line में कई hosts खड़े किए जा सकते थे। अब लगता है project बंद हो चुका है, लेकिन Docker Swarm हो तो hypervisor के बिना भी service scaling आसानी से की जा सकती है
- मैं इसी तरीके से Postgres hot standby और read replica की practice करता हूँ। Hadoop और Cassandra clusters भी मैंने इसी तरह सीखे। इन systems की setup और recovery simulation का अनुभव होने की वजह से मैं उसके बारे में बात कर सका, और उसी के दम पर मुझे ऐसी नई नौकरी मिली जहाँ salary दो-तीन गुना बढ़ गई। कुछ हद तक practical skill वाले developers को मैं ऐसी practice ज़रूर करने की ज़ोरदार सलाह दूँगा। career level-up में यह बहुत मददगार है
NormConf का session “Just use one big machine for model training and inference.” याद आ गया। यह वीडियो भी recommend करता हूँ। और पुराना classic paper “Scalability! But at what COST?” (लिंक) भी सच में दिलचस्प है। निष्कर्ष का सार यही है कि parallel processing की performance में Amdahl's Law से आगे भी ध्यान देने लायक बहुत कुछ है। scale-out systems में single node पर न होने वाला बहुत सारा अतिरिक्त काम जुड़ जाता है। सच तो यह है कि multithreading में भी sequential code की तुलना में काफ़ी extra work बढ़ जाता है। असली performance का रहस्य यह है कि “जो computation चलाया ही न जाए, वही सबसे तेज़ होता है”
मैंने सबसे पहले जो benchmark चलाया था वह top500 High Performance Linpack cluster benchmark था। पारंपरिक supercomputer performance measurement होने के कारण मुझे उससे लगाव है। thermal issues ठीक करने के बाद यह लगभग 130W पर 325 Gflops दे रहा था। top500 site की सूची 1993 से शुरू होती है, इसलिए मैं सोच रहा था कि क्या यह Pi cluster 70s के किसी अजीबोगरीब इतिहास खंड में घुस पाएगा, लेकिन यह तो काफ़ी recent निकला। 1993 (1st 131 Gflop/s, 10th 15.24Gflop/s) से 1997 (1st 1,830,40, 10th 326.4) तक देखें तो 2002~2003 के आसपास top500 से बाहर हो जाता दिखता है। यह Rpeak पर आधारित है, इसलिए Rmax के हिसाब से फिर से sort करना ज़्यादा सही होगा, लेकिन पूरा काम करना मुश्किल है, इसलिए छोड़ रहा हूँ। ऐसे toy cluster के लिए इसने काफ़ी अच्छा प्रदर्शन किया। “Apple Watch Apollo कंप्यूटर से तेज़ है” जैसे पुराने मज़ाकों का आदी होने के कारण मुझे लगा था यह उससे भी पुराने दौर तक पहुँच जाएगा
RPI की CPU performance हमेशा ख़राब रही है। शुरू से ही सस्ते Broadcom chips का उपयोग करके “educational” नाम से इसे बनाया गया था, यही Pi की मूल भावना थी। बच्चों के लिए Raspberry Pi पर LED blink कराते हुए circuits सीखना — यही इसका काम था। Pi cluster से high-performance computing करने का विचार शुरू से ही बेमानी था
इस लेख को बहुत literal तरीके से नहीं लेना चाहिए। लेखक एक सफल tech influencer है, जो महँगा gear खरीदकर दिखाता है, फिर उसकी कीमत पर दुख जताते हुए उसी से पैसा भी कमाता है। उसकी आर्थिक सोच मेरी आर्थिक सोच जैसी हो, यह ज़रूरी नहीं
- यह तो सही बात है, लेकिन असली point यह है कि अगर आप आज कुछ करना चाहते हैं, तो जवाब शायद Raspberry Pi नहीं है। price-to-specs बिल्कुल मेल नहीं खाते और market भी ठहरा हुआ है
- फिर भी मुझे Jeff के videos ताज़गीभरे लगते हैं। बाकी YouTubers बार-बार “YouTube वीडियो के लिए render time, color accuracy, camera quality, audio quality” जैसी तुलना में ही फँसे रहते हैं, लेकिन वह अलग है
- काश Dan Luu भी इस तरह का content बनाने लगते
- जिसे कुछ बनाना आता है, वह पहले से जानता है कि एक GPU से computing performance 10 गुना बढ़ सकती है
headline थोड़ी sensational लगी, लेकिन लेखक ने experiment और hardware assembly, दोनों से सच में काफ़ी मज़ा लिया लगता है। लेकिन “मैंने April 2023 में Compute Blades के 10-unit set का order दिया था, और वह अब जाकर पहुँचा” — यह शुरुआती पंक्ति काफ़ी निराशाजनक थी
- वही सबसे बड़ा regret है। मैंने अब तक 6 Kickstarter projects back किए हैं, और average delivery time लगभग 1 साल रहा है। फिर भी अजीब तरह से सब आख़िरकार deliver हुए। hardware startup चलाना सच में बहुत कठिन है, और मैंने कई बार देखा है कि छोटे idea से शुरू करके customer delivery से पहले आधे से ज़्यादा fail हो जाते हैं। किस्मत अच्छी हो तो prototype या sample किसी तरह बनाकर भेज देते हैं, लेकिन shipping और logistics में आख़िरकार बड़ा chaos हो जाता है
अगर Pi clusters सच में cost-versus-performance के हिसाब से competitive होते, तो data centers अब तक Pi से भरे पड़े होते
- यह कुछ-कुछ उस economist joke जैसा है कि “ज़मीन पर पड़े 20 dollar को कोई क्यों नहीं उठाता।” perfect market efficiency लंबी अवधि में काम कर सकती है, लेकिन short term में ज़्यादातर चीज़ें आदत और अनुभवजन्य intuition से चलती हैं
- यह मत भूलिए कि PlayStation को लेकर भी बिल्कुल ऐसी ही बातें कही गई थीं
- Pi cluster ... किसी भी काम के लिए सच में price-competitive नहीं लगता
- Mythic Beasts नाम की कंपनी rpi server rental service देती है(लिंक). बहुत छोटे niche market में इसका कुछ उपयोग निश्चित रूप से है
पिछले 10 सालों से supercomputers GPU इस्तेमाल कर रहे हैं, इसके पीछे कारण है। GPU कहीं ज़्यादा efficient हैं। अगर 32bit parallel processing चाहिए तो consumer GPU ले लीजिए, और 64bit चाहिए तो RTX 6000 Pro जैसे prosumer-grade GPU लगा दीजिए। आजकल कोई CPU cluster नहीं बनाता
- दुर्भाग्य से RTX 6000 Pro की double-precision performance भी सिर्फ़ 2 TFLOPS है, यानी single precision से 64 गुना धीमी। EPYC 9755 लगभग 10 TFLOPS दे सकता है, वह भी कम power पर। A100 में भी यही स्थिति है। अगर hobby स्तर पर HPC के लिए DP computation चाहिए, तो पुराने AMD cards शायद ज़्यादा अच्छे हैं। अब AMD/NVIDIA दोनों समझ चुके हैं कि scientific users high-precision performance के लिए भारी कीमत चुकाने को मजबूर हैं
- El Capitan supercomputer भी AMD CPU (जिसमें integrated GPU है) इस्तेमाल करता है और हाल की rankings में top पर है। Frontier भी काफ़ी मिलती-जुलती configuration के साथ पीछे है। अलग data bus और memory वाले discrete GPU ही हमेशा सबसे अच्छा उत्तर हों, यह ज़रूरी नहीं
Pi cluster असल में high performance पाने का साधन नहीं, बल्कि मज़ेदार hobbyist “weirdo” gear है। शुरू से ही बहुत कम लोग इससे cost-effective solution की उम्मीद करते हैं। लगता है YouTube-शैली की sensational headline blog तक आ गई है। अगर असली उद्देश्य Linux cluster की practice है, तो desktop CPU पर hypervisor install करके VM बनाना कहीं ज़्यादा किफ़ायती है। जब तक आपका लक्ष्य कई cables जोड़ने का भावनात्मक आनंद लेना नहीं है, तब तक system resource utilization और flexibility दोनों के लिहाज़ से यही तरीका ज़्यादा efficient है
- अगर सच में cost-effective practice करनी है, तो cloud इस्तेमाल करें। आम तौर पर practice ख़त्म होते ही लोगों की रुचि जल्दी खत्म हो जाती है, इसलिए desktop hardware की कीमत से पहले ही cloud billing रुक जाने की संभावना ज़्यादा होती है
- मैंने हिसाब लगाया, और 100B+ parameter models के साथ experiment करने का सबसे cost-effective तरीका है Mac Studio में नवीनतम Mx Ultra processor और maximum memory लेना
- पारंपरिक computing में जगह का नुकसान होता है, लेकिन power और cost के लिहाज़ से फ़ायदा मिलता है। लेकिन AI में GPU इस्तेमाल नहीं किए जा सके, और llama.cpp का clustering software अभी इतना mature नहीं है कि कोई ठोस निष्कर्ष निकाला जा सके। software बेहतर हुआ तो बात बदल सकती है
- मुझे लगता है कि ऐसी चर्चा में technical background न हो, तब भी निष्कर्ष साफ़ निकाला जा सकता है। हर कोई AI के लिए GPU इस्तेमाल कर रहा है, और NVIDIA का stock उछल रहा है — बस यही काफ़ी है। सच में क्या OP को लगा कि दुनिया सिर्फ़ इसलिए Raspberry Pi नहीं लगा रही क्योंकि लोगों को यह सूझा नहीं?
- कुछ Raspberry Pi products को घाटे में बेचा जाता है, इसलिए सिर्फ़ इसी वजह से “शायद यह price-competitive हो सकता है” जैसा भ्रम पैदा हो सकता है
लेखक की यह बात — “अगर आप blog पर आए हैं, तो शायद आपको वीडियो से ज़्यादा लेख पसंद हैं, इसलिए मैं सीधे मुद्दे पर आता हूँ” — पढ़कर अच्छा लगा

chcv0313 2025-09-20

इतना मज़े से खेल-खेलकर अब पछता रहे हो, lol। यह तो वैसा ही है जैसे किसी game का playtime 1000 घंटे से ऊपर हो और फिर कहो कि मज़ा ही नहीं आया।

gafani 2025-09-25

उपमा एकदम सटीक है lol

kandk 2025-09-22

हाहाहाहाहाहाहा