- Qwen3-30B-A3B-Instruct-2507 मॉडल Raspberry Pi 5(16GB) पर रियल-टाइम में चलता है और 8.03 TPS तथा 94.18% BF16 गुणवत्ता बनाए रखता है
- ByteShape की ShapeLearn bitlength learning विधि के जरिए हर डिवाइस की मेमोरी सीमा के भीतर speed और quality के संतुलन को ऑप्टिमाइज़ किया गया
- Unsloth और MagicQuant की तुलना में, समान quality पर अधिक TPS या समान TPS पर अधिक quality हासिल की गई
- CPU और GPU(खासकर RTX 5090·4080) दोनों में 4-bit के आसपास सबसे अच्छा performance zone देखा गया, और bit count घटाने से हमेशा speed नहीं बढ़ती
- कुल मिलाकर ByteShape मॉडल “मेमोरी को बजट मानकर TPS/quality को optimize करने” वाले approach से edge से data center तक efficient performance देते हैं
ShapeLearn आधारित optimization का overview
- ByteShape मॉडल चलाते समय यूज़र द्वारा महसूस की जाने वाली speed और response quality को केंद्र में रखकर optimization करता है
- ShapeLearn हर tensor के weight datatype(bitlength) को सीखकर TPS(प्रति सेकंड tokens) और output quality दोनों को एक साथ अधिकतम करता है
- लक्ष्य सिर्फ file size कम करना नहीं, बल्कि speed और quality के वास्तविक संतुलन को बेहतर बनाना है
- llama.cpp environment में bit count घटाने पर भी speed हमेशा नहीं बढ़ती, और kernel selection व overhead performance पर बड़ा असर डालते हैं
- ByteShape मेमोरी को “बस फिट हो जाने वाला budget” मानता है, और उसके बाद TPS व quality के आधार पर tuning करता है
Raspberry Pi 5 performance
- Raspberry Pi 5(16GB) पर 30B मॉडल 8.5 TPS, 92% से अधिक accuracy बनाए रखता है
- Q3_K_S-2.70bpw [KQ-2] मॉडल रियल-टाइम बातचीत के स्तर की response speed देता है
- accuracy-first मॉडल में ByteShape ने 1.1~1.3% relative error(लगभग 98.8% accuracy) के साथ Unsloth की तुलना में अधिकतम 1.87 गुना कम error rate हासिल किया
- उसी environment में 5~6 TPS बनाए रखता है, इसलिए accuracy-केंद्रित कामों के लिए उपयुक्त है
- speed-first मॉडल(Q3_K_S-3.25bpw [KQ-5]) भी Unsloth की तुलना में छोटा और तेज है, और accuracy में बढ़त बनाए रखता है
- Unsloth और MagicQuant के कई मॉडल मेमोरी सीमाओं के कारण Pi environment में चल ही नहीं पाते
Intel i7 (64GB) performance
- ऐसे environment में जहां सभी मॉडल मेमोरी में फिट हो जाते हैं, ByteShape ने Unsloth·MagicQuant की तुलना में अधिक quality और TPS हासिल किए
- quality-केंद्रित zone: ByteShape का IQ4_XS-4.67bpw [KQ-9] मॉडल Unsloth के Q6_K की तुलना में 1.44 गुना कम error rate और अधिक TPS देता है
- balanced zone: ByteShape का Q3_K_S-3.25bpw मॉडल Unsloth से 1.73 गुना कम error rate देता है, और MagicQuant की तुलना में accuracy व speed दोनों में बेहतर है
- सिर्फ ByteShape ही 26+ TPS zone और high-quality zone दोनों को एक साथ cover करता है
GPU performance comparison (RTX 5090 / RTX 4080)
- GPU में kernel selection और VRAM access efficiency performance तय करते हैं
- 4-bit के आसपास(~4bpw) TPS और quality का sweet spot पाया गया
- RTX 5090 (32GB)
- Unsloth, MagicQuant और ByteShape तीनों ने 4b zone में 302~303 TPS, 98.4~98.9% accuracy दी
- ByteShape का IQ4_XS-4.67bpw मॉडल 272.98 TPS और 99.75% accuracy के साथ सबसे अधिक accuracy हासिल करता है
- यह Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) और MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%) से बेहतर है
- RTX 4080 (16GB)
- VRAM सीमा के कारण 4b मॉडल संभव नहीं, लेकिन समान 16GB शर्तों में ByteShape ने Unsloth से TPS और accuracy दोनों में बेहतर प्रदर्शन किया
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% accuracy
- Unsloth Q3_K_XL की तुलना में 1.59 गुना कम error rate, 9.4% अधिक TPS
- Unsloth IQ2_M की तुलना में 2.54 गुना कम error rate
bit count और speed का paradox
- 3-bit से नीचे जाने पर भी speed बढ़ने की गारंटी नहीं है
- GPU 32-thread warp unit में काम करता है और खास data formats तथा access patterns के लिए optimize होता है
- VRAM 32-byte aligned block unit में read करता है, इसलिए छोटा data होने पर भी वही bandwidth इस्तेमाल होती है
- कम bitwidth से decoding overhead बढ़ने के कारण उल्टा speed कम हो सकती है
- उदाहरण: RTX 5090 में
iq4_xs को 54µs और iq3_xxs को 62µs लगते हैं → 25% capacity reduction के बदले 13% speed drop
- ShapeLearn इन hardware characteristics को ध्यान में रखकर tensor-वार datatype चुनता है, जिससे speed और accuracy दोनों सुनिश्चित होते हैं
evaluation method और निष्कर्ष
- सभी मॉडलों को एक ही evaluation harness पर TPS और normalized quality score(BF16 के मुकाबले) से मापा गया
- quality evaluation में MMLU, GSM8K, IFEval, LiveCodeBench V4 के नतीजों को जोड़ा गया
- मुख्य निष्कर्ष:
- “मेमोरी को लक्ष्य नहीं, constraint की तरह संभालो.”
- जब मॉडल डिवाइस पर फिट हो जाए, उसके बाद TPS और quality के balance curve का महत्व बढ़ जाता है
- ByteShape ने सभी डिवाइसों पर समान quality में अधिक speed, या समान speed में अधिक quality हासिल की
- Raspberry Pi 5 पर Q3_K_S-2.70bpw [KQ-2] मॉडल रियल-टाइम बातचीत के लिए उपयुक्त है
- बड़े CPU·GPU environments में भी यही सिद्धांत लागू होता है: “पहले फिट करो, फिर optimize करो.”
- ByteShape आगे भी और अधिक device-specific optimized models जारी करने की योजना रखता है
अभी कोई टिप्पणी नहीं है.