22 पॉइंट द्वारा GN⁺ 2026-01-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3-30B-A3B-Instruct-2507 मॉडल Raspberry Pi 5(16GB) पर रियल-टाइम में चलता है और 8.03 TPS तथा 94.18% BF16 गुणवत्ता बनाए रखता है
  • ByteShape की ShapeLearn bitlength learning विधि के जरिए हर डिवाइस की मेमोरी सीमा के भीतर speed और quality के संतुलन को ऑप्टिमाइज़ किया गया
  • Unsloth और MagicQuant की तुलना में, समान quality पर अधिक TPS या समान TPS पर अधिक quality हासिल की गई
  • CPU और GPU(खासकर RTX 5090·4080) दोनों में 4-bit के आसपास सबसे अच्छा performance zone देखा गया, और bit count घटाने से हमेशा speed नहीं बढ़ती
  • कुल मिलाकर ByteShape मॉडल “मेमोरी को बजट मानकर TPS/quality को optimize करने” वाले approach से edge से data center तक efficient performance देते हैं

ShapeLearn आधारित optimization का overview

  • ByteShape मॉडल चलाते समय यूज़र द्वारा महसूस की जाने वाली speed और response quality को केंद्र में रखकर optimization करता है
    • ShapeLearn हर tensor के weight datatype(bitlength) को सीखकर TPS(प्रति सेकंड tokens) और output quality दोनों को एक साथ अधिकतम करता है
    • लक्ष्य सिर्फ file size कम करना नहीं, बल्कि speed और quality के वास्तविक संतुलन को बेहतर बनाना है
  • llama.cpp environment में bit count घटाने पर भी speed हमेशा नहीं बढ़ती, और kernel selection व overhead performance पर बड़ा असर डालते हैं
  • ByteShape मेमोरी को “बस फिट हो जाने वाला budget” मानता है, और उसके बाद TPS व quality के आधार पर tuning करता है

Raspberry Pi 5 performance

  • Raspberry Pi 5(16GB) पर 30B मॉडल 8.5 TPS, 92% से अधिक accuracy बनाए रखता है
    • Q3_K_S-2.70bpw [KQ-2] मॉडल रियल-टाइम बातचीत के स्तर की response speed देता है
  • accuracy-first मॉडल में ByteShape ने 1.1~1.3% relative error(लगभग 98.8% accuracy) के साथ Unsloth की तुलना में अधिकतम 1.87 गुना कम error rate हासिल किया
    • उसी environment में 5~6 TPS बनाए रखता है, इसलिए accuracy-केंद्रित कामों के लिए उपयुक्त है
  • speed-first मॉडल(Q3_K_S-3.25bpw [KQ-5]) भी Unsloth की तुलना में छोटा और तेज है, और accuracy में बढ़त बनाए रखता है
  • Unsloth और MagicQuant के कई मॉडल मेमोरी सीमाओं के कारण Pi environment में चल ही नहीं पाते

Intel i7 (64GB) performance

  • ऐसे environment में जहां सभी मॉडल मेमोरी में फिट हो जाते हैं, ByteShape ने Unsloth·MagicQuant की तुलना में अधिक quality और TPS हासिल किए
  • quality-केंद्रित zone: ByteShape का IQ4_XS-4.67bpw [KQ-9] मॉडल Unsloth के Q6_K की तुलना में 1.44 गुना कम error rate और अधिक TPS देता है
  • balanced zone: ByteShape का Q3_K_S-3.25bpw मॉडल Unsloth से 1.73 गुना कम error rate देता है, और MagicQuant की तुलना में accuracy व speed दोनों में बेहतर है
  • सिर्फ ByteShape ही 26+ TPS zone और high-quality zone दोनों को एक साथ cover करता है

GPU performance comparison (RTX 5090 / RTX 4080)

  • GPU में kernel selection और VRAM access efficiency performance तय करते हैं
    • 4-bit के आसपास(~4bpw) TPS और quality का sweet spot पाया गया
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant और ByteShape तीनों ने 4b zone में 302~303 TPS, 98.4~98.9% accuracy दी
    • ByteShape का IQ4_XS-4.67bpw मॉडल 272.98 TPS और 99.75% accuracy के साथ सबसे अधिक accuracy हासिल करता है
    • यह Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) और MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%) से बेहतर है
  • RTX 4080 (16GB)
    • VRAM सीमा के कारण 4b मॉडल संभव नहीं, लेकिन समान 16GB शर्तों में ByteShape ने Unsloth से TPS और accuracy दोनों में बेहतर प्रदर्शन किया
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% accuracy
      • Unsloth Q3_K_XL की तुलना में 1.59 गुना कम error rate, 9.4% अधिक TPS
      • Unsloth IQ2_M की तुलना में 2.54 गुना कम error rate

bit count और speed का paradox

  • 3-bit से नीचे जाने पर भी speed बढ़ने की गारंटी नहीं है
    • GPU 32-thread warp unit में काम करता है और खास data formats तथा access patterns के लिए optimize होता है
    • VRAM 32-byte aligned block unit में read करता है, इसलिए छोटा data होने पर भी वही bandwidth इस्तेमाल होती है
    • कम bitwidth से decoding overhead बढ़ने के कारण उल्टा speed कम हो सकती है
  • उदाहरण: RTX 5090 में iq4_xs को 54µs और iq3_xxs को 62µs लगते हैं → 25% capacity reduction के बदले 13% speed drop
  • ShapeLearn इन hardware characteristics को ध्यान में रखकर tensor-वार datatype चुनता है, जिससे speed और accuracy दोनों सुनिश्चित होते हैं

evaluation method और निष्कर्ष

  • सभी मॉडलों को एक ही evaluation harness पर TPS और normalized quality score(BF16 के मुकाबले) से मापा गया
    • quality evaluation में MMLU, GSM8K, IFEval, LiveCodeBench V4 के नतीजों को जोड़ा गया
  • मुख्य निष्कर्ष:
    • “मेमोरी को लक्ष्य नहीं, constraint की तरह संभालो.”
    • जब मॉडल डिवाइस पर फिट हो जाए, उसके बाद TPS और quality के balance curve का महत्व बढ़ जाता है
    • ByteShape ने सभी डिवाइसों पर समान quality में अधिक speed, या समान speed में अधिक quality हासिल की
  • Raspberry Pi 5 पर Q3_K_S-2.70bpw [KQ-2] मॉडल रियल-टाइम बातचीत के लिए उपयुक्त है
  • बड़े CPU·GPU environments में भी यही सिद्धांत लागू होता है: “पहले फिट करो, फिर optimize करो.”
  • ByteShape आगे भी और अधिक device-specific optimized models जारी करने की योजना रखता है

1 टिप्पणियां

 
GN⁺ 2026-01-07
Hacker News की राय
  • मुझे लगता है कि यहाँ बड़ा market opportunity है
    मैं जो चाहता हूँ वह Alexa जैसा voice assistant है, लेकिन local inference और storage पर आधारित standardized components वाला system

    • conversational device: अच्छा speaker और voice control capability वाला Alexa/Google/Apple-टाइप device, या TV input device. अगर यह Wi-Fi extender या router की तरह भी काम करे तो अच्छा होगा. मैं हर कमरे में एक रखना चाहता हूँ ताकि सचमुच का mesh network बन सके
    • home cloud server: सस्ता CPU, थोड़ा RAM, और पर्याप्त storage वाला device, जो घर के apps और network backups को manage करने वाला central node बने
    • inference engine: यह standard तरीके से service advertise करे, और control node अपने-आप connect हो जाए तो अच्छा होगा. मैं ऐसा plug and play environment चाहता हूँ जो बस plug करते ही काम करे
      मुख्य बात privacy और interoperability है. अगर account registration या external server connection की ज़रूरत होगी, तो मैं इसे नहीं खरीदूँगा. मैं “Freddy, 10 मिनट का timer set कर दो” जैसे commands को local में process करना चाहता हूँ
    • अभी पूरी तरह plug and play product नहीं है, लेकिन मुझे Home Assistant और उसके Voice Preview Edition के साथ काफ़ी अच्छे नतीजे मिले हैं
      घर के अलग-अलग हिस्सों में कई low-cost Wi-Fi + microphone + speaker devices रखे जाते हैं, और voice processing बीच में रखे high-performance box पर होती है
      आखिरकार यह एक program की तरह काम करता है, इसलिए अगर थोड़ा ज़्यादा powerful machine में Wi-Fi card जोड़ दिया जाए तो वह Wi-Fi extender की भूमिका भी निभा सकता है
    • मैं भी इस idea से सहमत हूँ. Home Assistant(HA) में ChatGPT के साथ voice connection को seamless बनाना मुश्किल हो रहा है
      wake word का concept भी मुझे पसंद नहीं है. लगता है कि पूरे stack में अभी सुधार की काफी गुंजाइश है
    • और अगर toys में भी ऐसा system लागू हो तो मज़ेदार होगा
  • मैं सोच रहा हूँ कि क्या कोई अच्छा resource है जहाँ अलग-अलग models की आसानी से तुलना की जा सके
    मुझे gpt-oss-20b और gpt-oss-120b के parameter count के अंतर का पता है, लेकिन actual performance difference ठीक से नहीं पता
    मैंने सिर्फ Gemini या GPT जैसे बड़े models इस्तेमाल किए हैं, लेकिन मैं जानना चाहता हूँ कि मेरे hardware पर कितने छोटे models तक उपयोगी तौर पर चलाए जा सकते हैं

    • swe-rebench.com पर model-wise benchmarks compare किए जा सकते हैं
  • मैं यह देखने गया कि “real-time” performance वास्तव में कितनी है
    Pi 5(16GB) पर Q3_K_S-2.70bpw [KQ-2] model ने 8.03 TPS दर्ज किया, और BF16 quality का 94.18% बनाए रखा
    article में दूसरे hardware details भी दिए गए हैं

    • मुझे लगता है कि ऐसा Hacker News summary page होना चाहिए जो सिर्फ ऐसे core metrics निकालकर दिखाए
  • मैंने भी Pi 5(16GB) पर latest llama.cpp के साथ test किया, लेकिन segmentation fault (segfault) आया
    out-of-memory error message आया, और यह लगभग 10GB RAM इस्तेमाल करने के बाद बंद हो गया
    -c 4096 option के साथ context size घटाने पर load सफल हो गया

    • illama या ik_llama.cpp के 4-bit quantized models, या Microsoft BitNet भी आज़माने लायक हैं
      BitNet b1.58-2B-4T-gguf जैसे models low-spec devices या सिर्फ iGPU वाले office PC पर comparative testing के लिए अच्छे हो सकते हैं
    • हो सकता है कि swap memory भी जोड़ी गई हो
  • मैं सोच रहा हूँ कि accuracy को मापने का तरीका सामान्य perplexity से अलग है या नहीं
    BF16 से 2.8 तक घटाने पर quality loss सिर्फ 5% होना थोड़ा अजीब लगता है

  • GPT-OSS-20B लगभग 11.2GB का है, इसलिए 16GB memory वाले system पर भी इसे बिना quality loss के आराम से चलाया जा सकता है