1-bit Bonsai - व्यावसायिक रूप से व्यावहारिक पहला 1-बिट LLM

(prismml.com)

14 पॉइंट द्वारा GN⁺ 2026-04-02 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Caltech के शोध से निकले AI startup PrismML ने 1-bit Bonsai 8B मॉडल पेश किया है, जो मौजूदा 16-बिट समकक्ष मॉडलों की तुलना में लगभग 14 गुना छोटा, 1.15GB आकार में, smartphone और edge device पर व्यावहारिक AI inference संभव बनाता है
पूरे network (embedding, attention, MLP, LM head) को बिना किसी अपवाद के 1-बिट में बनाने वाले वास्तविक end-to-end 1-बिट design के साथ, यह उन गुणवत्ता-गिरावट समस्याओं को पार करता है जिनका सामना पहले low-bit models को instruction following, multi-step reasoning और tool use में करना पड़ता था
Intelligence Density मेट्रिक के आधार पर इसने 1.06/GB हासिल किया, जो समान parameter class में सबसे निकट प्रतिस्पर्धी मॉडल (Qwen3 8B, 0.10/GB) से लगभग 10.6 गुना बेहतर है
M4 Pro Mac पर 131 tok/s, RTX 4090 पर 368 tok/s, और iPhone 17 Pro Max पर लगभग 44 tok/s की गति से चलता है, जबकि energy efficiency 16-बिट मॉडलों की तुलना में लगभग 4~5 गुना बेहतर है
यदि 1-bit समर्पित hardware डिज़ाइन किया जाता है, तो single-digit multiple के अतिरिक्त performance और efficiency gains की संभावना खुलती है, जिससे on-device AI, robotics, secure enterprise जैसे नए deployment categories का विस्तार हो सकता है

PrismML और 1-bit Bonsai के आने की पृष्ठभूमि

पिछले 10 वर्षों में AI का विकास मॉडल को लगातार बड़ा बनाने की दिशा में हुआ है (ज़्यादा parameters, GPU, power, memory, cost)
इसके परिणामस्वरूप सबसे उन्नत intelligence, large-scale cluster और dedicated infrastructure तक सीमित रहने की संरचनात्मक बाधा में फँस गई
जबकि वास्तव में AI की ज़रूरत सिर्फ data center तक सीमित नहीं है; smartphone, laptop, vehicle, robot, secure enterprise, edge device जैसी कई जगहों पर इसकी आवश्यकता है
PrismML की शुरुआत Caltech research team से हुई और इसे Khosla Ventures, Cerberus, और Google का समर्थन मिला
Intelligence Density — यानी मॉडल आकार (GB) की प्रति इकाई उपलब्ध intelligence की मात्रा — को इसने मुख्य optimization metric के रूप में चुना

वास्तविक 1-बिट मॉडल आर्किटेक्चर

1-bit Bonsai 8B embedding, attention layer, MLP layer, और LM head सभी को 1-बिट में लागू करता है, और high-precision escape hatch के बिना पूरे 8.2 billion parameters में पूर्ण 1-बिट संरचना बनाए रखता है
मौजूदा low-bit models में instruction following, multi-step reasoning, और tool-use reliability में भारी performance loss होता था, जिससे उन्हें वास्तविक products की नींव के रूप में इस्तेमाल करना कठिन था
Bonsai यह साबित करता है कि 1-बिट मॉडल कोई संकीर्ण समझौता नहीं, बल्कि production-grade complete system भी हो सकता है

Intelligence Density का मापन

Intelligence Density को benchmarks के पूरे सेट में औसत error rate के negative logarithm को मॉडल size से विभाजित करने वाले मान के रूप में परिभाषित किया गया है
यह metric साधारण benchmark average की तुलना में अधिक वास्तविक intelligence स्तर को दर्शाता है: पहले से ऊँची accuracy पर अतिरिक्त सुधार को यह अधिक मूल्य देता है
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — यह सिर्फ थोड़ा बेहतर नहीं, बल्कि बिल्कुल अलग स्तर का परिणाम है
raw benchmark average में भी 1-bit Bonsai 8B प्रमुख 8B-श्रेणी मॉडलों के साथ प्रतिस्पर्धी performance बनाए रखता है, जबकि इसका memory footprint 1.15GB है, जो समान वर्ग की तुलना में लगभग 12~14 गुना छोटा है

आकार और गति

1.15GB आकार के कारण यह iPhone 17 Pro पर चल सकता है — जबकि मौजूदा 16-बिट 8B मॉडल किसी भी iPhone पर deploy नहीं किए जा सकते
डिवाइस-वार inference speed:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: लगभग 44 tok/s
50 ticket summary और assignment tasks के simulation में, 1-bit Bonsai 8B ने सभी 50 tasks पूरे किए, जबकि समान परिस्थितियों में 16-बिट 8B मॉडल केवल 6 पूरे कर सका
long-running agent workloads में उच्च throughput और कम memory use, agent द्वारा वास्तव में संभाले जा सकने वाले काम की मात्रा को बढ़ाते हैं

ऊर्जा दक्षता

1-bit Bonsai 8B ने 16-बिट full-precision models की तुलना में लगभग 4~5 गुना बेहतर energy efficiency हासिल की
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
AI को बुनियादी infrastructure के रूप में स्थापित होने के लिए energy efficiency में बड़ा सुधार अनिवार्य है

1-बिट समर्पित hardware की संभावना

वर्तमान performance gains मुख्यतः 1-बिट मॉडल के कम हुए memory footprint से आते हैं; inference के दौरान 1-बिट weight structure का पूरा लाभ उठाना अभी बाकी है
MLP जैसे linear layers में 1-बिट weights multiplication operations को addition में बदलना संभव बनाते हैं
यदि 1-बिट inference के लिए समर्पित hardware डिज़ाइन किया जाए, तो performance और energy efficiency को single-digit multiple तक और बेहतर किया जा सकता है

Bonsai 4B और 1.7B मॉडल

1-bit Bonsai 4B और 1-bit Bonsai 1.7B नाम के दो छोटे मॉडल भी साथ में जारी किए गए
20 प्रमुख instruct models (1.2GB~16.4GB रेंज) के साथ intelligence बनाम size scatter plot में, पूरी Bonsai family ने मौजूदा Pareto frontier को काफी बाएँ खिसका दिया
पहले का Pareto frontier Qwen3 0.6B, 1.7B, 4B, 8B और Ministral3 3B से बना था, लेकिन अब Bonsai family ने नई frontier परिभाषित की है

संकेंद्रित intelligence क्या संभव बनाती है

जब मॉडल इतने छोटे, तेज़ और efficient हो जाते हैं कि on-device चल सकें, तो AI product design space तुरंत बदल जाता है:
- बेहतर responsiveness: on-device inference के कारण network latency के बिना काम
- मजबूत privacy: sensitive data device के बाहर नहीं जाता
- बेहतर reliability: लगातार cloud connectivity पर निर्भरता कम
- आर्थिक व्यवहार्यता: ऐसे environments में भी AI का उपयोग संभव, जहाँ server-side deployment लागत के कारण संभव नहीं था
नई खुलने वाली categories: persistent on-device agents, real-time robotics, secure enterprise copilots, offline intelligence, और bandwidth, power, या regulatory constraints वाले environments के लिए AI-native products

प्लेटफ़ॉर्म समर्थन और रिलीज़ का तरीका

1-bit Bonsai 8B Apple devices (Mac, iPhone, iPad) पर MLX के माध्यम से, और NVIDIA GPU पर llama.cpp CUDA के माध्यम से native execution को सपोर्ट करता है
मॉडल weights अभी Apache 2.0 license के तहत जारी किए गए हैं
training, evaluation, और benchmarking process के पूरे technical details आधिकारिक whitepaper में उपलब्ध हैं

2 टिप्पणियां

runableapp 2026-04-02

अच्छी जानकारी है।

GN⁺ 2026-04-02

Hacker News की राय

इस बात पर ज़ोर दिया गया कि 1.125-बिट framing (1-बिट weights + 128 के समूह पर साझा 16-बिट scale) तकनीकी रूप से ईमानदार संख्या है
‘व्यावसायिक रूप से व्यवहार्य’ का मतलब inference cost के हिसाब से है या fine-tuning के आधार पर संभव है, इसे अलग करना चाहिए
अगर यह Microsoft के BitNet paper की तरह शुरू से 1-बिट लक्ष्य के साथ train किया गया model है, तो यह साधारण quantized model से बिल्कुल अलग चीज़ है
खासकर सामान्य hardware पर inference efficiency INT4 quantization से कहीं अधिक आकर्षक लगती है
लेकिन benchmark quantized large models से तुलना किए गए हैं, इसलिए असली दावे का सार कुछ दब-सा गया है
यह देखना चाहूँगा कि multi-step reasoning वाले कामों में भी performance बनी रहती है या नहीं
यह दिलचस्प है कि 1-बिट + FP16 scale (हर 128 bits पर 1) संरचना इतनी अच्छी तरह काम करती है
Cursor के ज़रिए web page tests बनवाकर देखे, और tool use capability काफ़ी प्रभावशाली लगी
π Monte Carlo simulation में logic सही था, लेकिन interface generation में असफल रहा, और कुछ manual fixes की ज़रूरत पड़ी
Pelican चित्र परिणाम बहुत abstract था
कोई official demo नहीं था, इसलिए local llama.cpp instance खुला छोड़ दिया
- लिंक की वजह से मैंने भी सीधे test किया, और response speed बहुत तेज़ थी
  R script, LaTeX formula generation जैसी कई requests आज़माईं, और खासकर Euler formula बिल्कुल सही बनाया
  छोटे 1-बिट model होने के बावजूद knowledge density ऊँची है और response तेज़ है
- एक art history major के रूप में, ‘साइकिल चलाता pelican’ आइडिया का मैं पूरी तरह समर्थन करता हूँ
- ngrok लिंक पर बहुत ज़्यादा load आने से वह block हो गया, इसलिए Google Colab version साझा किया
- यह जानने की जिज्ञासा है कि क्या Prism का llama.cpp fork चाहिए
- शुरुआती ChatGPT की तरह लगता है: ज़्यादातर सही, लेकिन कभी-कभी बकवास भी करता है
  अगर ‘thinking step’ जोड़ा जाए या search-based augmentation हो, तो यह बहुत ज़्यादा उपयोगी हो सकता है
मैंने अपना बनाया हुआ SQL debugging benchmark चलाया, और यह काफ़ी प्रभावशाली था
25 में से 8 pass, 0 fail, 17 error — यानी Qwen3.5-4B और Nanbeige4.1-3B के बीच का स्तर
पूरा test सिर्फ 200 सेकंड में खत्म हो गया, और speed के मामले में यह Granite 7B 4bit से कहीं अधिक efficient था
नतीजे SQL benchmark site पर देखे जा सकते हैं
- मैंने भी @freakynit का runpod इस्तेमाल किया
  निजी तौर पर Pomodoro app बनाने का test किया; completion quality कम थी, लेकिन कुछ क्षेत्रों में काफ़ी काम का लगा
  writing ability भी उम्मीद से बेहतर है, और em-dash का कम उपयोग दिलचस्प लगा
  HTML लिखने में यह कमज़ोर है, लेकिन 1-बिट model और Ngram-embedding को जोड़ने पर नई संभावनाएँ दिखती हैं
  अपने बनाए prototype code भी साझा किया
नए अपडेट किए गए Locally AI app से इसे iPhone पर भी चलाया जा सकता है
1.2GB के आकार के हिसाब से इसकी performance चौंकाने वाली है
Pelican SVG परिणाम में comments अच्छे थे, लेकिन चित्र खास नहीं था
- पता चला कि छोटे models time zone conversion में बहुत कमज़ोर हैं
  “ताइवान standard time में 9:30am, US Pacific time में कितने बजे होगा?” पूछा, लेकिन कोई model सही जवाब नहीं दे पाया
- यह जानने की जिज्ञासा है कि pelican के लिए साइकिल मांगी गई थी, या model ने उसे रचनात्मक रूप से खुद जोड़ दिया
8GiB model को RTX 3090 पर 5 घंटे तक public run किया गया
server link और run command साझा किए गए
5 parallel requests, लगभग 13K token limit, VRAM 4GiB उपयोग
190t/s की speed से output दिया, यानी performance बेहद तेज़ थी
- सलाह दी गई कि KV cache को precision loss के बिना बनाए रखना बेहतर है
- इस model से बात करना वाकई बहुत आनंददायक है
  conversation example में ‘car wash तक पैदल जाना चाहिए या drive करना चाहिए’ पूछने पर इसने रचनात्मक जवाब दिया
- update दिया गया कि spot instance खत्म होने से server बंद हो गया
- speed पर हैरानी जताई गई
- Pastebin परिणाम भी साझा किए गए, और कहा गया कि कमज़ोर models ऐसे नतीजे नहीं दे सकते
GPU नहीं था, इसलिए CPU पर चलाया; पुराने laptop पर भी 0.6t/s → AVX2 जोड़ने के बाद 12t/s तक सुधार हुआ
प्रदर्शन काफ़ी अच्छा लगा
- feedback मिला कि AVX2 build में भी यह धीमा था या सिर्फ बेमतलब output दे रहा था
  कारण यह था कि git checkout prism step छूट गया था; उसे ठीक करने के बाद यह सामान्य रूप से चला
- मज़ाक में कहा गया कि “not shabby” कहना कम करके आँकना है
लगता है कि बड़े models का भविष्य float से ज़्यादा bit-level में जाएगा
ज़्यादातर float values एक संकरे दायरे में सिमटी होती हैं, इसलिए वे inefficient हैं; आखिरकार implementation भी bit operations से ही होता है
लेकिन समस्या यह है कि GPU और theoretical foundation, दोनों real-number computation पर केंद्रित हैं
- low bit-width पर inference आसान है, लेकिन training कठिन और unstable होती है
  float format इसलिए बना हुआ है क्योंकि यह GPU stack के साथ आसानी से compatible है
- यह paper training को भी binary-based तरीके से करता है
  इसमें ‘Boolean variation’ नाम की अवधारणा लाई गई है, जिसमें differential को binary रूप में परिभाषित कर सीधे backpropagation किया जाता है
spiking neural network के साथ इसकी समानता दिलचस्प है
spike होने या न होने के आधार पर 1-बिट communication होता है, जबकि analog membrane potential का उपयोग होता है
5,000 Izhikevich neurons से quadruped control किया गया, और यह PPO से अधिक efficient था
1-बिट efficiency सिर्फ LLM तक सीमित विचार नहीं है
जिज्ञासा है कि अगर “-log error / model size” अनुपात 1 है, तो क्या इसका मतलब error rate लगभग 40% है
गणितीय तौर पर यह भी जोड़ा गया कि error/model size = 1/e होता है
Bonsai 8B model को 1.15GB में दे रहा है; जिज्ञासा है कि 27B या 35B models कितने बड़े होंगे
अगर scaling बनी रहती है, तो शायद 100B model भी 64GB RAM के भीतर आ सकता है
- लेकिन training cost अब भी समस्या है
  शायद इसकी लागत full-precision model जितनी ही होगी; अगर ऐसा न होता, तो अब तक इसका ज़िक्र ज़रूर किया गया होता

1-bit Bonsai - व्यावसायिक रूप से व्यावहारिक पहला 1-बिट LLM

PrismML और 1-bit Bonsai के आने की पृष्ठभूमि

वास्तविक 1-बिट मॉडल आर्किटेक्चर

Intelligence Density का मापन

आकार और गति

ऊर्जा दक्षता

1-बिट समर्पित hardware की संभावना

Bonsai 4B और 1.7B मॉडल

संकेंद्रित intelligence क्या संभव बनाती है

प्लेटफ़ॉर्म समर्थन और रिलीज़ का तरीका

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय