18 पॉइंट द्वारा GN⁺ 2025-09-09 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • 4 छोटे Raspberry Pi बोर्डों को distributed inference node के रूप में जोड़कर Qwen3 30B MoE के A3B Q40 quantized model को चलाने वाले setup और benchmark केस का परिचय
  • नेटवर्क स्विच के जरिए 1 ROOT + 3 WORKER (सभी Raspberry Pi 5 8GB) के रूप में नेटवर्क कॉन्फ़िगरेशन
  • टोकन generation speed evaluation चरण में 14.33 tok/s, prediction चरण में 13.04 tok/s मापी गई
  • मॉडल Qwen3 MoE architecture पर आधारित है और इसमें 48 layers और 128 experts शामिल हैं
  • कम-लागत हार्डवेयर पर high-performance language model चलाना संभव बनाकर, Raspberry Pi cluster की संभावनाएँ और cost-effective AI research को संभव किया गया

प्रोजेक्ट ओवरव्यू

  • Distributed Llama v0.16.0 का उपयोग करके 4 Raspberry Pi 5 8GB पर Qwen3 30B A3B Q40 model चलाया गया
    • कम-लागत डिवाइसों पर बड़े language model चलाने योग्य बनाने के लिए डिज़ाइन किया गया
    • TP-Link LS1008G switch से नेटवर्क कनेक्शन
  • मुख्य लक्ष्य high-performance computing resources के बिना भी AI model को दक्षता से चलाना है
    • 4 डिवाइसों (1 root, 3 worker) में काम वितरित किया गया
    • IP address: root (10.0.0.2), worker (10.0.0.1, 10.0.0.3, 10.0.0.4)

हार्डवेयर और नेटवर्क सेटअप

  • कॉन्फ़िगरेशन: 4 Raspberry Pi 5 8GB से बना cluster
    • हर डिवाइस TP-Link LS1008G switch से जुड़ा है
    • root node और 3 worker node नेटवर्क के जरिए संचार करते हैं
  • नेटवर्क initialization: सभी worker node (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999) से सफलतापूर्वक कनेक्शन
    • नेटवर्क non-blocking mode में चलता है
    • डेटा ट्रांसफ़र: evaluation के दौरान transmit 12084kB, receive 20085kB
  • CPU उपयोग: Neon Dotprod FP16 support के साथ optimized compute processing

मॉडल विवरण

  • मॉडल: Qwen3 30B A3B Q40
    • architecture: Qwen3 MoE (Mixture of Experts)
    • layer count: 48
    • expert count: 128, active expert 8
    • dimensions: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • tokenizer: vocab size 151669, model vocab size 151936 से हल्का mismatch
    • सामान्य vocab size: 151643
    • special vocab size: 26
  • memory requirement: 5513MB
    • अधिकतम sequence length: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

बेंचमार्क प्रदर्शन

  • evaluation चरण
    • batch count: 32
    • token count: 19
    • token generation speed: 14.33 tok/s (69.80ms/tok)
  • prediction चरण
    • token count: 109
    • token generation speed: 13.04 tok/s (76.69ms/tok)
  • prediction detail log:
    • हर prediction चरण में लगभग 49~70ms लगे, synchronization time 14~94ms
    • transmit data 636kB, receive data 1057kB के रूप में स्थिर
    • उदाहरण: "Of", "course", "Poland" जैसे token generate हुए
    • thread count: 4
    • buffer float type: Q80
    • अधिकतम sequence length: 4096

सावधानियाँ·सीमाएँ (Notes & Caveats)

  • Tokenizer vocab size और Model vocab size mismatch warning मौजूद है, इसलिए tokenizer consistency validation की ज़रूरत है
  • A3B Q40 एक aggressive quantization है, इसलिए precision और response quality के trade-off को ध्यान में रखना होगा
  • Pi 5 8GB × 4 कॉन्फ़िगरेशन में memory और compute limits हैं, इसलिए prompt length, concurrency, network quality के अनुसार उतार-चढ़ाव की संभावना बड़ी है

व्यावहारिक महत्व

  • कम-लागत AI execution की संभावना दिखाने वाला प्रोजेक्ट
  • कम-लागत SBC cluster पर 30B-स्तर MoE model के distributed execution का reproducible case होने के कारण, on-premise lightweight inference और development experiment की दहलीज़ कम करने वाला संदर्भ बन सकता है
  • प्रति-टोकन नेटवर्क और synchronization log शामिल होने से distributed overhead को measure और tune करने के लिए सार्थक डेटा मिलता है
  • distributed framework + quantized model का संयोजन edge/personal research environment में TCO के मुकाबले performance बढ़ा सकता है

3 टिप्पणियां

 
seohc 2025-09-10

n-सीरीज़ mini PC भी काफ़ी सस्ते हैं, लेकिन अगर 16GB वाले 4 को एक साथ बाँधें... सोचने पर लगता है कि कीमत 8845 पर 32GB चढ़ाने जितनी हो जाएगी, हाहा

 
ndrgrd 2025-09-10

कमाल है। अच्छा लग रहा है कि आजकल कम-लोड LLM संचालन के बारे में जानकारी धीरे-धीरे ज़्यादा सामने आ रही है।

 
developerjhp 2025-09-09

कमाल है..