Bonsai Image 4B - लोकल डिवाइसों के लिए 1-bit/ternary इमेज जनरेशन मॉडल

(prismml.com)

3 पॉइंट द्वारा GN⁺ 2026-06-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

लैपटॉप और फोन जैसे लोकल हार्डवेयर पर उच्च-गुणवत्ता diffusion inference चलाने के लिए डिज़ाइन किया गया छोटा इमेज जनरेशन मॉडल परिवार
FLUX.2 Klein 4B आर्किटेक्चर को बनाए रखते हुए diffusion transformer weights को 1-bit या ternary representation में बदला गया
diffusion transformer का आकार मूल 7.75GB से घटकर 1-bit में 0.93GB और ternary में 1.21GB हो गया, जिससे memory budget का दबाव कम हुआ
iPhone 17 Pro Max पर 512×512 इमेज 9.4 सेकंड में बनती है, जबकि Mac M4 Pro पर लगभग 6 सेकंड लगते हैं और MFLUX की तुलना में अधिकतम 5.6 गुना तेज़ है
ternary वेरिएंट FLUX.2 Klein 4B की तुलना में 95% performance बनाए रखता है, और दोनों वेरिएंट Apache 2.0 ओपन weights और कोड के साथ जारी किए जाएंगे

लोकल इमेज जनरेशन के लिए Bonsai Image 4B

Bonsai Image 4B छोटा इमेज जनरेशन मॉडल परिवार है, जिसे लैपटॉप से लेकर फोन तक लोकल हार्डवेयर पर उच्च-गुणवत्ता diffusion inference चलाने के लिए डिज़ाइन किया गया है
यह FLUX.2 Klein 4B पर आधारित है, और आर्किटेक्चर को बरकरार रखते हुए diffusion transformer weights को 1-bit या ternary रूप में बदलता है
- 1-bit Bonsai Image 4B बाइनरी {−1, +1} transformer weights और FP16 group-wise scaling factor का उपयोग करता है, जिससे प्रति weight 1.125 effective bits मिलते हैं
- Ternary Bonsai Image 4B {−1, 0, +1} transformer weights और FP16 group-wise scaling factor का उपयोग करता है, जिससे प्रति weight 1.71 effective bits मिलते हैं
ternary वेरिएंट 1-bit से बड़ा है, लेकिन अतिरिक्त 0 state की वजह से visual quality और prompt fidelity बेहतर होती है
Bonsai Image 4B का लक्ष्य ओपन weights और लोकल inference के ज़रिए ऐसा deployment form देना है, जिससे उन डिवाइसों पर भी इमेज जनरेशन संभव हो सके जहाँ इस श्रेणी के मॉडल चलाना मुश्किल था
PrismML के अनुसार, Bonsai Image 4B इस parameter class के इमेज मॉडलों में iPhone पर सीधे चलने वाला पहला मॉडल है

लोकल रन के लिए memory reduction

लोकल इमेज जनरेशन की मुख्य सीमा यह है कि मॉडल डिवाइस के memory budget के भीतर फिट होना चाहिए
4B-class इमेज मॉडलों में diffusion transformer मॉडल का सबसे बड़ा हिस्सा होता है, और generation के दौरान हर denoising step पर बार-बार चलता है
transformer का आकार memory pressure, bandwidth requirement और लोकल inference speed पर सीधे असर डालता है
FLUX.2 Klein 4B का diffusion transformer 7.75GB है, जबकि 1-bit Bonsai Image 4B 0.93GB और Ternary Bonsai Image 4B 1.21GB है
1-bit वेरिएंट full-precision FLUX.2 Klein 4B की तुलना में 8.3 गुना, और ternary वेरिएंट 6.4 गुना छोटा है
बाइनरी layer खुद full-precision transformer weights की तुलना में लगभग 14 गुना कम हो जाती है, लेकिन precision-sensitive लगभग 5% projection layer को FP16 में रखा गया है
ternary layers लगभग 10 गुना reduction देती हैं, और अंतिम transformer आकार 1.21GB हो जाता है

deployment payload और runtime memory

compressed text encoder और FP16 VAE सहित Apple Silicon deployment payload में 1-bit 3.42GB और ternary 3.88GB है
full-precision FLUX.2 Klein 4B का deployment payload 15.97GB है
runtime में prompt encoding के बाद text encoder offload कर दिया जाता है, इसलिए औसत memory use पूरे payload से कम रहता है
512×512 इमेज जनरेशन के दौरान औसत active memory 1-bit में 1.5GB, ternary में 1.96GB, और मूल FLUX.2 Klein 4B में 11.74GB है
512×512 के आधार पर memory reduction 1-bit में 7.8 गुना और ternary में 6.0 गुना है
1024×1024 इमेज जनरेशन में औसत active memory 1-bit में 1.95GB, ternary में 2.38GB, और मूल FLUX.2 Klein 4B में 14.39GB है
1024×1024 के आधार पर memory reduction 1-bit में 7.4 गुना और ternary में 6.0 गुना है

supported hardware और execution performance

deployment stack Apple Silicon iPhone, iPad, Mac और CUDA GPU को support करता है
Apple हार्डवेयर पर MLX low-bit path और CUDA पर Gemlite low-bit GEMM kernel का उपयोग होता है
iPhone 17 Pro Max पर full-precision FLUX.2 Klein 4B pipeline डिवाइस के memory budget में फिट नहीं होती, लेकिन Bonsai Image के दोनों वेरिएंट on-device चलते हैं
Bonsai Image 4B iPhone 17 Pro Max पर 512×512 इमेज 9.4 सेकंड में बनाता है
Mac M4 Pro पर 512×512 इमेज लगभग 6 सेकंड में बनती है
Mac M4 Pro पर Bonsai Image 4B बेस full-precision MFLUX pipeline की तुलना में अधिकतम 5.6 गुना तेज़ है

benchmark performance

Bonsai Image 4B का मूल्यांकन GenEval, HPSv3, और DPG-Bench इन तीन benchmark से किया गया
GenEval object composition और attribute binding का मूल्यांकन करता है, HPSv3 human preference और aesthetic quality का, और DPG-Bench dense prompt following तथा semantic fidelity का मूल्यांकन करता है
Ternary Bonsai Image 4B ने 1.21GB diffusion transformer के साथ GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851 दर्ज किया
Ternary Bonsai Image 4B, FLUX.2 Klein 4B की तुलना में 95% performance बनाए रखते हुए diffusion transformer का आकार 6.4 गुना घटाता है
1-bit Bonsai Image 4B ने 0.93GB diffusion transformer के साथ GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 दर्ज किया
1-bit Bonsai Image 4B, FLUX.2 Klein 4B की तुलना में 88% performance बनाए रखते हुए diffusion transformer को 1GB से नीचे ले आता है
FLUX.2 Klein 4B ने 7.75GB diffusion transformer के साथ GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853 दर्ज किया
SDXL ने 5.14GB diffusion transformer के साथ GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74 दर्ज किया और FLUX.2 Klein 4B की तुलना में 67% performance दिखाई
BK-SDM-Small ने 0.98GB diffusion transformer के साथ GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559 दर्ज किया और FLUX.2 Klein 4B की तुलना में 42% performance दिखाई
Stable Diffusion 1.5 ने 1.72GB diffusion transformer के साथ GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601 दर्ज किया और FLUX.2 Klein 4B की तुलना में 51% performance दिखाई
PixArt-Σ XL 2 ने 1.2GB diffusion transformer के साथ GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769 दर्ज किया और FLUX.2 Klein 4B की तुलना में 83% performance दिखाई
दोनों Bonsai वेरिएंट आधुनिक 4B-class इमेज मॉडलों से प्रतिस्पर्धा करते हैं, जबकि diffusion transformer footprint को बहुत छोटा रखते हैं
समान memory footprint वाले छोटे मॉडलों की तुलना में इनका performance बेहतर है, जिससे वे उस memory range में आधुनिक diffusion transformer behavior लाते हैं जहाँ पहले छोटे और कम-performance वाले मॉडल होते थे

लोकल inference का प्रोडक्ट महत्व

इमेज जनरेशन सिर्फ मॉडल quality पर नहीं, बल्कि deployment method पर भी निर्भर करता है
cloud API कई प्रोडक्ट्स में अब भी उपयुक्त है, लेकिन cloud-only generation हर prompt को remote request बना देता है और हर iteration में serving cost तथा round-trip latency जोड़ देता है
इमेज जनरेशन स्वाभाविक रूप से iterative है, इसलिए user prompt बदलते हैं, परिणामों की तुलना करते हैं, variations बनाते हैं, खराब outputs हटाते हैं और फिर से कोशिश करते हैं
अगर हर कोशिश server-side job हो, तो हर creative loop में user को cost गिननी पड़ती है और इंतज़ार करना पड़ता है
लोकल inference मॉडल के डिवाइस में आने के बाद generation capability को सीधे product experience के भीतर रखने की अनुमति देता है
लोकल रन execution cost घटाता है, iteration speed बढ़ाता है, और उन environments में उपयोग आसान बनाता है जहाँ prompt और generated assets को private रखना ज़रूरी होता है
Bonsai Image 4B उस इमेज जनरेशन deployment model की दिशा में एक कदम है जो users के पास पहले से मौजूद हार्डवेयर पर, उनके और करीब जाता है

रिलीज़ और resources

1-bit Bonsai Image 4B और Ternary Bonsai Image 4B को ओपन weights और कोड के साथ जारी किया जाएगा
लाइसेंस Apache 2.0 है
PrismML ने iPhone पर Bonsai Image 4B को सीधे आज़माने के लिए iOS ऐप Bonsai Studio भी जारी किया है
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 टिप्पणियां

GN⁺ 2026-06-01

Hacker News टिप्पणियाँ

20 साल पहले शायद किसी ने यह उम्मीद नहीं की होगी कि इंटरनेट का भविष्य ऐसा होगा जहाँ हम जो देखते या पढ़ते हैं, उस पर भरोसा नहीं कर सकेंगे
उम्मीद है कि किसी दिन हम इस दौर को वैसे देख पाएँगे जैसे Mad Men में Draper परिवार पिकनिक का कचरा घास पर फेंककर चला जाता है — एक विचलित दौर की तरह
- 20 साल पहले शिक्षक कहते थे कि इंटरनेट पर किसी भी चीज़ पर भरोसा नहीं किया जा सकता, इसलिए Wikipedia का इस्तेमाल मत करो, और ऐप या वेबसाइट पर मिले किसी व्यक्ति के साथ कभी डेट पर मत जाओ। वे कहते थे ऐसे लोग 100% हत्यारे होते हैं, और यह भी कहा जाता था कि “इंटरनेट पोर्न के लिए है”
  समय के साथ बहुत-सी चीज़ें बेहतर होती हैं, और लोग नई तकनीक आने पर उसके सामाजिक जोखिमों को अक्सर बढ़ा-चढ़ाकर आँकते हैं
- वह पिकनिक वाला सीन: https://www.youtube.com/watch?v=FDIvzDGBLWU
- लगता है लोगों को Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) को लेकर हुई बहस याद नहीं है
  यह कंपनी एक यूनिवर्सिटी स्पिनआउट थी, जो सिर्फ आँकड़ों के आधार पर भरोसेमंद लगने वाली बेसबॉल रिपोर्टें और बाद में वित्तीय लेख लिख सकती थी। इससे स्थानीय न्यूज़ साइटें हर मैच पर लेख प्रकाशित कर सकती थीं, जो खेल प्रशंसकों के लिए फायदेमंद था और वेब ट्रैफ़िक बढ़ाने का अहम साधन माना गया, लेकिन इस पर बहुत आलोचना भी हुई कि यह “असली” नहीं है
  Slate ने 2012 में इस पर लिखा था: https://slate.com/technology/2012/03/narrative-science-robot...
  कंप्यूटर आने के समय से ही लोग उन्हें इंसानों जैसा सुनाने की कोशिश करते रहे हैं, और यह चिंता भी नई नहीं है कि जिससे मैं बात कर रहा हूँ या जिसे मैं पढ़ रहा हूँ, वह कहीं इंसान की नकल करने वाला रोबोट तो नहीं
- इसे “विचलित दौर” कहना अतिरंजित प्रतिक्रिया लगता है
- टेक्स्ट और इमेज में हमेशा से गलत जानकारी रही है, और फ़ोटोग्राफ़ी आने के समय से ही तस्वीरों में हेरफेर संभव रहा है
  हाँ, यह अब आसान ज़रूर हो गया है, लेकिन गुणात्मक रूप से यह कोई पूरी तरह अलग बदलाव नहीं है। 20 साल पहले इंटरनेट पर देखी चीज़ों पर ज्यों का त्यों भरोसा करना भी आज जितना ही हास्यास्पद होता
महँगे subscription की जगह hardware upgrade करके अपने AI को अपग्रेड करने वाला भविष्य सच में देखने का इंतज़ार है
जिन समस्याओं पर मैं काम करना चाहता हूँ, उनमें कई के लिए अरबों tokens चाहिए, और अभी कॉर्पोरेट प्रोजेक्ट sponsorship के बिना वे लगभग पहुँच से बाहर हैं। अगर Opus 4.6-स्तर की quality के साथ प्रति सेकंड दसियों हज़ार tokens निकालने वाली ASIC generation machine मिल जाए, तो वही काफ़ी होगा
- Taalas नाम की कंपनी कुछ ऐसा ही बना रही है। Opus 4.6-स्तर की quality नहीं है, लेकिन शायद वह बड़े मॉडल को लक्ष्य बना रही है
  फ़िलहाल यह LLama 8B मॉडल इस्तेमाल करती है, लगभग 17k tokens प्रति सेकंड पर चलती है, और https://chatjimmy.ai/ पर टेस्ट की जा सकती है
- क्या आप ऐसी किसी समस्या का एक उदाहरण दे सकते हैं?
- जिज्ञासा है कि hardware और बिजली की लागत subscription cost के मुकाबले कितनी होगी
- तर्क से देखें तो पाँच लोगों का संसाधन मिलाना एक व्यक्ति से अधिक शक्तिशाली होता है, इसलिए datacenter हमेशा जीतेगा
  क्योंकि उसका time utilization अधिक होता है। मैं भी हमेशा ऐसी कल्पना करता हूँ, लेकिन तर्क के हिसाब से यह एक भ्रम है। औसतन आप पूरे समूह से ज़्यादा उपयोग नहीं कर सकते, जो hardware का आपसे बेहतर उपयोग करता हो
  व्यक्तिगत hardware भी बेहतर होगा, लेकिन cutting edge हमेशा cloud में ही रहेगा
“1-bit” देखकर मेरे दिमाग में सबसे पहले 1-बिट model weights नहीं, बल्कि 1-बिट dithered black-and-white image generation आया
इसलिए मैं सोचने लगा कि अगर training images और workspace को Floyd-Steinberg, Atkinson, या किसी पसंदीदा algorithm से dither की गई 1-बिट images तक सीमित कर दिया जाए, तो diffusion image generator कितना शानदार, तेज़ और compressible हो सकता है
training काफ़ी तेज़ होगी, और शायद एक आधुनिक GPU में भी फिट हो जाए
- फिर भी मुझे लगता है कि पहले grayscale पर training करना और बाद में dither करना बेहतर होगा
- मेरे मन में भी बिल्कुल यही बात आई थी, और यहाँ काफ़ी दिलचस्प ideas explore किए जा सकते हैं
मैं सच में जानना चाहता हूँ, क्या यह किसी वास्तविक समस्या को हल करता है?
diffusion model के मामले में bottleneck storage या memory नहीं, बल्कि generation time लगता है। कई मॉडल 1080-generation के बाद की 8~12GB GPU या समान memory वाले Mac पर चल जाते हैं, और GPU performance के नज़रिए से वह वैसे भी लगभग निचली सीमा है। ऊपर से, ये मॉडल अपने आधार बने छोटे FLUX.2 मॉडल की तुलना में थोड़ा धीमे दिखते हैं
हाँ, यह iPhone जैसे अपेक्षाकृत मज़बूत GPU लेकिन सीमित memory वाले devices पर local model चलाने में मदद कर सकता है, लेकिन क्या यह सच में इतना आम requirement है?
- यह उपयोगी प्रगति है। अगर local-scale inference पर ठीक-ठाक quality मिल जाए, तो ऐसे products बनाए जा सकते हैं जो बिना लागत की चिंता के बार-बार फेंक देने लायक images generate करें
  अब तक मैंने जितने image generation products देखे हैं, वे सभी usage-based billing पर हैं, जिससे उनकी value बहुत सीमित हो जाती है। बस यह नहीं पता कि यह वास्तव में “ठीक-ठाक quality” के स्तर तक पहुँचा है या नहीं
- अभी GPU की माँग बेहद ऊँची है और supply सीमित है। हर बार जब inference को edge की तरफ धकेला जाता है, तो cloud resources दूसरे कामों के लिए खाली हो जाते हैं
  efficiency जितनी बढ़ती है, उतना ही अधिक काम मौजूदा resources से किया जा सकता है। अगर images को आधी compute से render किया जा सके, तो GPU भी आधे ही चाहिए होंगे
- 8~12GB 1080-generation GPU या समान memory वाले Mac निचली सीमा नहीं हैं। ज़्यादातर लोग उससे काफ़ी कम GPU power वाले laptop या mobile device इस्तेमाल करते हैं
- मौजूदा value व्यावहारिक उपयोग से ज़्यादा शैक्षणिक मूल्य के करीब लगती है
  cutting-edge मॉडल भी अभी बस मुश्किल से उपयोगी हैं, और image generation में तो सबसे अच्छे मॉडल भी अक्सर बहुत खराब नतीजे देते हैं। इसलिए क्षमता के लिहाज़ से cutting edge से बहुत पीछे रहने वाला छोटा 1-बिट मॉडल अभी तुरंत उपयोगी होना मुश्किल है
  लेकिन compute unit प्रति capability density को काफ़ी बढ़ा देना बहुत मायने रखता है। इससे cutting-edge मॉडल को बेहतर और सस्ते ढंग से चलाया जा सकता है, resource consumption घट सकता है, और personal laptop या phone जैसे edge devices पर किए जा सकने वाले कामों का दायरा भी बढ़ सकता है
  privacy के नज़रिए से भी बहुत-से काम device पर ही चलने चाहिए, और हर किसी के पास बड़ा dedicated GPU नहीं होता
- सही बात है। size और performance सिर्फ local LLM की समस्या नहीं, बल्कि OpenAI और Anthropic जैसी cutting-edge LLM कंपनियों के लिए भी मुद्दा हैं
  Anthropic जैसी कंपनियाँ अब भी inference पर भारी घाटा झेल रही हैं, और efficient तथा high-performance models में प्रगति से profitability में मदद मिलेगी
“जहाँ तक हमें पता है, Bonsai Image 4B इस parameter scale पर iPhone पर सीधे चलने वाला पहला image model है” — यह वाक्य गलत है। हालाँकि इसे पूरी तरह गलत न लगे, इस तरह सावधानी से लिखा गया है
FLUX.2 [klein] 4B, यानी उसी parameter scale का और लगभग वही मॉडल, Draw Things ऐप के ज़रिए iPhone पर चलता है। यह 8-बिट या 6-बिट quantization इस्तेमाल करता है, इसलिए कोई कह सकता है कि यह “सीधे” नहीं है, लेकिन वह तकनीकी caveat काफ़ी संदिग्ध लगता है
इसे diffusion model कहा जा रहा है, लेकिन इसका आधार Flux.2 एक rectified flow model है
- मेरी राय में “diffusion” शब्द का इस्तेमाल इस पूरे परिवार के लिए कर देना ठीक है
अजीब है। मैं UK से विज़िट कर रहा हूँ और मुझे यह दिखता है:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
एक दिन के भीतर कोई न कोई इस 1-बिट मॉडल के लिए LoRA train कर देगा ताकि Apple Watch पर hentai content generate किया जा सके
अगर आप local filesystem के साथ छेड़छाड़ किए बिना इसे चलाना चाहते हैं, तो https://github.com/kordless/bonsai-docker इस्तेमाल कर सकते हैं
मैंने web demo से code निकालकर उसे browser के अंदर AI workflow tool में web image generation node की तरह जोड़ दिया, और यह काफ़ी ठीक है
xenova के transformersjs 4.3 में इसे जोड़ने का इंतज़ार कर रहा हूँ, फिर मैं भी इसे जारी कर दूँगा। टेस्ट करने का इंतज़ार नहीं हुआ, इसलिए पहले ही आज़मा लिया
- क्या आप उस browser के अंदर वाले AI workflow tool के बारे में बता सकते हैं? हो सकता है मैं भी कुछ वैसा ही बना रहा हूँ, इसलिए इस क्षेत्र में दूसरे लोग क्या बना रहे हैं, यह जानने में बहुत दिलचस्पी है

Bonsai Image 4B - लोकल डिवाइसों के लिए 1-bit/ternary इमेज जनरेशन मॉडल

लोकल इमेज जनरेशन के लिए Bonsai Image 4B

लोकल रन के लिए memory reduction

deployment payload और runtime memory

supported hardware और execution performance

benchmark performance

लोकल inference का प्रोडक्ट महत्व

रिलीज़ और resources

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ