- 4 छोटे Raspberry Pi बोर्डों को distributed inference node के रूप में जोड़कर Qwen3 30B MoE के A3B Q40 quantized model को चलाने वाले setup और benchmark केस का परिचय
- नेटवर्क स्विच के जरिए 1 ROOT + 3 WORKER (सभी Raspberry Pi 5 8GB) के रूप में नेटवर्क कॉन्फ़िगरेशन
- टोकन generation speed evaluation चरण में 14.33 tok/s, prediction चरण में 13.04 tok/s मापी गई
- मॉडल Qwen3 MoE architecture पर आधारित है और इसमें 48 layers और 128 experts शामिल हैं
- कम-लागत हार्डवेयर पर high-performance language model चलाना संभव बनाकर, Raspberry Pi cluster की संभावनाएँ और cost-effective AI research को संभव किया गया
प्रोजेक्ट ओवरव्यू
- Distributed Llama v0.16.0 का उपयोग करके 4 Raspberry Pi 5 8GB पर Qwen3 30B A3B Q40 model चलाया गया
- कम-लागत डिवाइसों पर बड़े language model चलाने योग्य बनाने के लिए डिज़ाइन किया गया
- TP-Link LS1008G switch से नेटवर्क कनेक्शन
- मुख्य लक्ष्य high-performance computing resources के बिना भी AI model को दक्षता से चलाना है
- 4 डिवाइसों (1 root, 3 worker) में काम वितरित किया गया
- IP address: root (10.0.0.2), worker (10.0.0.1, 10.0.0.3, 10.0.0.4)
हार्डवेयर और नेटवर्क सेटअप
- कॉन्फ़िगरेशन: 4 Raspberry Pi 5 8GB से बना cluster
- हर डिवाइस TP-Link LS1008G switch से जुड़ा है
- root node और 3 worker node नेटवर्क के जरिए संचार करते हैं
- नेटवर्क initialization: सभी worker node (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) से सफलतापूर्वक कनेक्शन
- नेटवर्क non-blocking mode में चलता है
- डेटा ट्रांसफ़र: evaluation के दौरान transmit 12084kB, receive 20085kB
- CPU उपयोग: Neon Dotprod FP16 support के साथ optimized compute processing
मॉडल विवरण
- मॉडल: Qwen3 30B A3B Q40
- architecture: Qwen3 MoE (Mixture of Experts)
- layer count: 48
- expert count: 128, active expert 8
- dimensions: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
- tokenizer: vocab size 151669, model vocab size 151936 से हल्का mismatch
- सामान्य vocab size: 151643
- special vocab size: 26
- memory requirement: 5513MB
- अधिकतम sequence length: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000
बेंचमार्क प्रदर्शन
- evaluation चरण
- batch count: 32
- token count: 19
- token generation speed: 14.33 tok/s (69.80ms/tok)
- prediction चरण
- token count: 109
- token generation speed: 13.04 tok/s (76.69ms/tok)
- prediction detail log:
- हर prediction चरण में लगभग 49~70ms लगे, synchronization time 14~94ms
- transmit data 636kB, receive data 1057kB के रूप में स्थिर
- उदाहरण: "Of", "course", "Poland" जैसे token generate हुए
- thread count: 4
- buffer float type: Q80
- अधिकतम sequence length: 4096
सावधानियाँ·सीमाएँ (Notes & Caveats)
- Tokenizer vocab size और Model vocab size mismatch warning मौजूद है, इसलिए tokenizer consistency validation की ज़रूरत है
- A3B Q40 एक aggressive quantization है, इसलिए precision और response quality के trade-off को ध्यान में रखना होगा
- Pi 5 8GB × 4 कॉन्फ़िगरेशन में memory और compute limits हैं, इसलिए prompt length, concurrency, network quality के अनुसार उतार-चढ़ाव की संभावना बड़ी है
व्यावहारिक महत्व
- कम-लागत AI execution की संभावना दिखाने वाला प्रोजेक्ट
- कम-लागत SBC cluster पर 30B-स्तर MoE model के distributed execution का reproducible case होने के कारण, on-premise lightweight inference और development experiment की दहलीज़ कम करने वाला संदर्भ बन सकता है
- प्रति-टोकन नेटवर्क और synchronization log शामिल होने से distributed overhead को measure और tune करने के लिए सार्थक डेटा मिलता है
- distributed framework + quantized model का संयोजन edge/personal research environment में TCO के मुकाबले performance बढ़ा सकता है
3 टिप्पणियां
n-सीरीज़ mini PC भी काफ़ी सस्ते हैं, लेकिन अगर 16GB वाले 4 को एक साथ बाँधें... सोचने पर लगता है कि कीमत 8845 पर 32GB चढ़ाने जितनी हो जाएगी, हाहा
कमाल है। अच्छा लग रहा है कि आजकल कम-लोड LLM संचालन के बारे में जानकारी धीरे-धीरे ज़्यादा सामने आ रही है।
कमाल है..