4 Raspberry Pi 5 पर Qwen3 30B A3B के साथ 13 टोकन प्रति सेकंड हासिल

(github.com/b4rtaz)

18 पॉइंट द्वारा GN⁺ 2025-09-09 | 3 टिप्पणियां | WhatsApp पर शेयर करें

4 छोटे Raspberry Pi बोर्डों को distributed inference node के रूप में जोड़कर Qwen3 30B MoE के A3B Q40 quantized model को चलाने वाले setup और benchmark केस का परिचय
नेटवर्क स्विच के जरिए 1 ROOT + 3 WORKER (सभी Raspberry Pi 5 8GB) के रूप में नेटवर्क कॉन्फ़िगरेशन
टोकन generation speed evaluation चरण में 14.33 tok/s, prediction चरण में 13.04 tok/s मापी गई
मॉडल Qwen3 MoE architecture पर आधारित है और इसमें 48 layers और 128 experts शामिल हैं
कम-लागत हार्डवेयर पर high-performance language model चलाना संभव बनाकर, Raspberry Pi cluster की संभावनाएँ और cost-effective AI research को संभव किया गया

प्रोजेक्ट ओवरव्यू

Distributed Llama v0.16.0 का उपयोग करके 4 Raspberry Pi 5 8GB पर Qwen3 30B A3B Q40 model चलाया गया
- कम-लागत डिवाइसों पर बड़े language model चलाने योग्य बनाने के लिए डिज़ाइन किया गया
- TP-Link LS1008G switch से नेटवर्क कनेक्शन
मुख्य लक्ष्य high-performance computing resources के बिना भी AI model को दक्षता से चलाना है
- 4 डिवाइसों (1 root, 3 worker) में काम वितरित किया गया
- IP address: root (10.0.0.2), worker (10.0.0.1, 10.0.0.3, 10.0.0.4)

कॉन्फ़िगरेशन: 4 Raspberry Pi 5 8GB से बना cluster
- हर डिवाइस TP-Link LS1008G switch से जुड़ा है
- root node और 3 worker node नेटवर्क के जरिए संचार करते हैं
नेटवर्क initialization: सभी worker node (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) से सफलतापूर्वक कनेक्शन
- नेटवर्क non-blocking mode में चलता है
- डेटा ट्रांसफ़र: evaluation के दौरान transmit 12084kB, receive 20085kB
CPU उपयोग: Neon Dotprod FP16 support के साथ optimized compute processing

मॉडल: Qwen3 30B A3B Q40
- architecture: Qwen3 MoE (Mixture of Experts)
- layer count: 48
- expert count: 128, active expert 8
- dimensions: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
tokenizer: vocab size 151669, model vocab size 151936 से हल्का mismatch
- सामान्य vocab size: 151643
- special vocab size: 26
memory requirement: 5513MB
- अधिकतम sequence length: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000

evaluation चरण
- batch count: 32
- token count: 19
- token generation speed: 14.33 tok/s (69.80ms/tok)
prediction चरण
- token count: 109
- token generation speed: 13.04 tok/s (76.69ms/tok)
prediction detail log:
- हर prediction चरण में लगभग 49~70ms लगे, synchronization time 14~94ms
- transmit data 636kB, receive data 1057kB के रूप में स्थिर
- उदाहरण: "Of", "course", "Poland" जैसे token generate हुए
- thread count: 4
- buffer float type: Q80
- अधिकतम sequence length: 4096

Tokenizer vocab size और Model vocab size mismatch warning मौजूद है, इसलिए tokenizer consistency validation की ज़रूरत है
A3B Q40 एक aggressive quantization है, इसलिए precision और response quality के trade-off को ध्यान में रखना होगा
Pi 5 8GB × 4 कॉन्फ़िगरेशन में memory और compute limits हैं, इसलिए prompt length, concurrency, network quality के अनुसार उतार-चढ़ाव की संभावना बड़ी है

कम-लागत AI execution की संभावना दिखाने वाला प्रोजेक्ट
कम-लागत SBC cluster पर 30B-स्तर MoE model के distributed execution का reproducible case होने के कारण, on-premise lightweight inference और development experiment की दहलीज़ कम करने वाला संदर्भ बन सकता है
प्रति-टोकन नेटवर्क और synchronization log शामिल होने से distributed overhead को measure और tune करने के लिए सार्थक डेटा मिलता है
distributed framework + quantized model का संयोजन edge/personal research environment में TCO के मुकाबले performance बढ़ा सकता है

seohc 2025-09-10

n-सीरीज़ mini PC भी काफ़ी सस्ते हैं, लेकिन अगर 16GB वाले 4 को एक साथ बाँधें... सोचने पर लगता है कि कीमत 8845 पर 32GB चढ़ाने जितनी हो जाएगी, हाहा

ndrgrd 2025-09-10

कमाल है। अच्छा लग रहा है कि आजकल कम-लोड LLM संचालन के बारे में जानकारी धीरे-धीरे ज़्यादा सामने आ रही है।

developerjhp 2025-09-09

कमाल है..