1 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Bonsai Image 4B एक छोटा इमेज जनरेशन मॉडल परिवार है, जिसे laptop और phone जैसे local hardware पर high-quality diffusion inference चलाने के लिए डिज़ाइन किया गया है
  • यह FLUX.2 Klein 4B architecture को बनाए रखते हुए diffusion transformer weights को 1-bit या ternary representation में बदलता है
  • diffusion transformer का आकार मूल 7.75GB से घटकर 1-bit में 0.93GB और ternary में 1.21GB हो जाता है, जिससे memory budget का दबाव कम होता है
  • iPhone 17 Pro Max पर यह 512×512 इमेज 9.4 सेकंड में बनाता है, जबकि Mac M4 Pro पर लगभग 6 सेकंड लेता है और MFLUX की तुलना में अधिकतम 5.6x तेज़ है
  • ternary वेरिएंट FLUX.2 Klein 4B के मुकाबले 95% performance बनाए रखता है, और दोनों वेरिएंट Apache 2.0 open weights और code के साथ जारी किए जाएंगे

लोकल इमेज जनरेशन के लिए Bonsai Image 4B

  • Bonsai Image 4B एक छोटा इमेज जनरेशन मॉडल परिवार है, जिसे laptop से लेकर phone तक local hardware पर high-quality diffusion inference चलाने के लिए डिज़ाइन किया गया है
  • यह FLUX.2 Klein 4B पर आधारित है, और architecture को बनाए रखते हुए diffusion transformer weights को 1-bit या ternary रूप में बदलता है
    • 1-bit Bonsai Image 4B binary {−1, +1} transformer weights और FP16 group-wise scaling factors का उपयोग करता है, जिससे प्रति weight 1.125 effective bits मिलते हैं
    • Ternary Bonsai Image 4B {−1, 0, +1} transformer weights और FP16 group-wise scaling factors का उपयोग करता है, जिससे प्रति weight 1.71 effective bits मिलते हैं
  • ternary वेरिएंट 1-bit से बड़ा है, लेकिन अतिरिक्त 0 state की वजह से visual quality और prompt fidelity बेहतर होती है
  • Bonsai Image 4B का लक्ष्य open weights और local inference के ज़रिए ऐसा deployment form देना है, जो उन डिवाइसों पर भी इमेज जनरेशन संभव बनाए जहाँ इस श्रेणी के मॉडल चलाना मुश्किल था
  • PrismML के अनुसार, Bonsai Image 4B इस parameter class के image models में iPhone पर सीधे चलने वाला पहला मॉडल है

लोकल रन के लिए memory reduction

  • local image generation की मुख्य सीमा यह है कि मॉडल को device memory budget के भीतर फिट होना चाहिए
  • 4B class के image models में diffusion transformer मॉडल का सबसे बड़ा हिस्सा होता है, और generation के दौरान हर denoising step पर बार-बार चलता है
  • transformer का आकार memory pressure, bandwidth demand, और local inference speed पर सीधे असर डालता है
  • FLUX.2 Klein 4B का diffusion transformer 7.75GB है, जबकि 1-bit Bonsai Image 4B 0.93GB और Ternary Bonsai Image 4B 1.21GB है
  • 1-bit वेरिएंट full-precision FLUX.2 Klein 4B की तुलना में 8.3x छोटा है, और ternary वेरिएंट 6.4x छोटा है
  • binary layers खुद full-precision transformer weights की तुलना में लगभग 14x कम हो जाती हैं, लेकिन precision-sensitive लगभग 5% projection layer को FP16 में रखा गया है
  • ternary layers लगभग 10x reduction देती हैं, और अंतिम transformer size 1.21GB बनता है

deployment payload और runtime memory

  • compressed text encoder और FP16 VAE सहित Apple Silicon deployment payload में 1-bit 3.42GB और ternary 3.88GB है
  • full-precision FLUX.2 Klein 4B का deployment payload 15.97GB है
  • runtime में prompt encoding के बाद text encoder offload हो जाता है, इसलिए average memory use पूरे payload से कम रहता है
  • 512×512 इमेज जनरेशन के दौरान average active memory 1-bit के लिए 1.5GB, ternary के लिए 1.96GB, और मूल FLUX.2 Klein 4B के लिए 11.74GB है
  • 512×512 के आधार पर memory reduction 1-bit के लिए 7.8x और ternary के लिए 6.0x है
  • 1024×1024 इमेज जनरेशन के दौरान average active memory 1-bit के लिए 1.95GB, ternary के लिए 2.38GB, और मूल FLUX.2 Klein 4B के लिए 14.39GB है
  • 1024×1024 के आधार पर memory reduction 1-bit के लिए 7.4x और ternary के लिए 6.0x है

समर्थित hardware और रनिंग performance

  • deployment stack Apple Silicon iPhone, iPad, Mac और CUDA GPU को support करता है
  • Apple hardware पर MLX low-bit path का उपयोग होता है, और CUDA पर Gemlite low-bit GEMM kernel का उपयोग होता है
  • iPhone 17 Pro Max पर full-precision FLUX.2 Klein 4B pipeline device memory budget के भीतर फिट नहीं होती, लेकिन Bonsai Image के दोनों वेरिएंट on-device चलते हैं
  • Bonsai Image 4B iPhone 17 Pro Max पर 512×512 इमेज 9.4 सेकंड में बनाता है
  • Mac M4 Pro पर यह 512×512 इमेज लगभग 6 सेकंड में बनाता है
  • Mac M4 Pro पर Bonsai Image 4B, base full-precision MFLUX pipeline की तुलना में अधिकतम 5.6x तेज़ है

benchmark performance

  • Bonsai Image 4B का मूल्यांकन GenEval, HPSv3, और DPG-Bench इन तीन benchmarks से किया गया
  • GenEval object composition और attribute binding को मापता है, HPSv3 human preference और aesthetic quality को मापता है, जबकि DPG-Bench dense prompt following और semantic fidelity को मापता है
  • Ternary Bonsai Image 4B ने 1.21GB diffusion transformer के साथ GenEval 0.723, HPSv3 12.22, और DPG-Bench 0.851 दर्ज किया
  • Ternary Bonsai Image 4B, FLUX.2 Klein 4B की तुलना में 95% performance बनाए रखते हुए diffusion transformer size को 6.4x घटाता है
  • 1-bit Bonsai Image 4B ने 0.93GB diffusion transformer के साथ GenEval 0.671, HPSv3 11.15, और DPG-Bench 0.822 दर्ज किया
  • 1-bit Bonsai Image 4B, FLUX.2 Klein 4B की तुलना में 88% performance बनाए रखते हुए diffusion transformer को 1GB से नीचे लाता है
  • FLUX.2 Klein 4B ने 7.75GB diffusion transformer के साथ GenEval 0.819, HPSv3 12.84, और DPG-Bench 0.853 दर्ज किया
  • SDXL ने 5.14GB diffusion transformer के साथ GenEval 0.3, HPSv3 10.05, और DPG-Bench 0.74 दर्ज किया, जो FLUX.2 Klein 4B के मुकाबले 67% performance दिखाता है
  • BK-SDM-Small ने 0.98GB diffusion transformer के साथ GenEval 0.297, HPSv3 3.05, और DPG-Bench 0.559 दर्ज किया, जो FLUX.2 Klein 4B के मुकाबले 42% performance दिखाता है
  • Stable Diffusion 1.5 ने 1.72GB diffusion transformer के साथ GenEval 0.396, HPSv3 4.2, और DPG-Bench 0.601 दर्ज किया, जो FLUX.2 Klein 4B के मुकाबले 51% performance दिखाता है
  • PixArt-Σ XL 2 ने 1.2GB diffusion transformer के साथ GenEval 0.541, HPSv3 11.93, और DPG-Bench 0.769 दर्ज किया, जो FLUX.2 Klein 4B के मुकाबले 83% performance दिखाता है
  • Bonsai के दोनों वेरिएंट modern 4B-class image models से प्रतिस्पर्धा करते हैं, जबकि diffusion transformer footprint को काफी छोटा रखते हैं
  • समान memory footprint वाले छोटे मॉडलों की तुलना में इनका performance अधिक है, जिससे modern diffusion transformer behavior उस memory range में आता है जहाँ पहले छोटे और कम प्रदर्शन वाले मॉडल ही फिट होते थे

local inference का प्रोडक्ट महत्व

  • image generation केवल model quality पर नहीं, बल्कि deployment method पर भी निर्भर करती है
  • cloud API कई products के लिए अब भी उपयुक्त है, लेकिन cloud-only generation हर prompt को remote request बना देती है, और हर iteration में serving cost और round-trip latency जोड़ती है
  • image generation स्वाभाविक रूप से iterative है, इसलिए users prompt बदलते हैं, results की तुलना करते हैं, variations बनाते हैं, असफल outputs हटाकर फिर कोशिश करते हैं
  • अगर हर प्रयास server-side काम हो, तो हर creative loop में user को लागत सोचना और इंतज़ार करना पड़ता है
  • local inference मॉडल के डिवाइस पर आने के बाद generation capability को सीधे product experience के भीतर रख सकती है
  • local execution लागत घटाता है, iteration speed बढ़ाता है, और उन वातावरणों में उपयोग आसान बनाता है जहाँ prompt और generated assets को private रखना ज़रूरी हो
  • Bonsai Image 4B उस image generation deployment model की दिशा में एक कदम है, जो user के पास पहले से मौजूद hardware पर generation को user के और करीब लाता है

रिलीज़ तरीका और resources

  • 1-bit Bonsai Image 4B और Ternary Bonsai Image 4B को open weights और code के साथ जारी किया जाएगा
  • license Apache 2.0 है
  • PrismML ने iPhone पर Bonsai Image 4B को सीधे आज़माने के लिए iOS app Bonsai Studio भी जारी किया है
  • Whitepaper
  • Hugging Face
  • WebGPU demo
  • Bonsai Studio for iPhone
  • GitHub

1 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News टिप्पणियाँ
  • 20 साल पहले शायद किसी ने यह उम्मीद नहीं की होगी कि इंटरनेट का भविष्य ऐसा होगा जहाँ हम जो देखते या पढ़ते हैं, उस पर भरोसा नहीं कर सकेंगे
    उम्मीद है कि किसी दिन हम इस दौर को वैसे देख पाएँगे जैसे Mad Men में Draper परिवार पिकनिक का कचरा घास पर फेंककर चला जाता है — एक विचलित दौर की तरह

    • 20 साल पहले शिक्षक कहते थे कि इंटरनेट पर किसी भी चीज़ पर भरोसा नहीं किया जा सकता, इसलिए Wikipedia का इस्तेमाल मत करो, और ऐप या वेबसाइट पर मिले किसी व्यक्ति के साथ कभी डेट पर मत जाओ। वे कहते थे ऐसे लोग 100% हत्यारे होते हैं, और यह भी कहा जाता था कि “इंटरनेट पोर्न के लिए है”
      समय के साथ बहुत-सी चीज़ें बेहतर होती हैं, और लोग नई तकनीक आने पर उसके सामाजिक जोखिमों को अक्सर बढ़ा-चढ़ाकर आँकते हैं
    • वह पिकनिक वाला सीन: https://www.youtube.com/watch?v=FDIvzDGBLWU
    • लगता है लोगों को Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) को लेकर हुई बहस याद नहीं है
      यह कंपनी एक यूनिवर्सिटी स्पिनआउट थी, जो सिर्फ आँकड़ों के आधार पर भरोसेमंद लगने वाली बेसबॉल रिपोर्टें और बाद में वित्तीय लेख लिख सकती थी। इससे स्थानीय न्यूज़ साइटें हर मैच पर लेख प्रकाशित कर सकती थीं, जो खेल प्रशंसकों के लिए फायदेमंद था और वेब ट्रैफ़िक बढ़ाने का अहम साधन माना गया, लेकिन इस पर बहुत आलोचना भी हुई कि यह “असली” नहीं है
      Slate ने 2012 में इस पर लिखा था: https://slate.com/technology/2012/03/narrative-science-robot...
      कंप्यूटर आने के समय से ही लोग उन्हें इंसानों जैसा सुनाने की कोशिश करते रहे हैं, और यह चिंता भी नई नहीं है कि जिससे मैं बात कर रहा हूँ या जिसे मैं पढ़ रहा हूँ, वह कहीं इंसान की नकल करने वाला रोबोट तो नहीं
    • इसे “विचलित दौर” कहना अतिरंजित प्रतिक्रिया लगता है
    • टेक्स्ट और इमेज में हमेशा से गलत जानकारी रही है, और फ़ोटोग्राफ़ी आने के समय से ही तस्वीरों में हेरफेर संभव रहा है
      हाँ, यह अब आसान ज़रूर हो गया है, लेकिन गुणात्मक रूप से यह कोई पूरी तरह अलग बदलाव नहीं है। 20 साल पहले इंटरनेट पर देखी चीज़ों पर ज्यों का त्यों भरोसा करना भी आज जितना ही हास्यास्पद होता
  • महँगे subscription की जगह hardware upgrade करके अपने AI को अपग्रेड करने वाला भविष्य सच में देखने का इंतज़ार है
    जिन समस्याओं पर मैं काम करना चाहता हूँ, उनमें कई के लिए अरबों tokens चाहिए, और अभी कॉर्पोरेट प्रोजेक्ट sponsorship के बिना वे लगभग पहुँच से बाहर हैं। अगर Opus 4.6-स्तर की quality के साथ प्रति सेकंड दसियों हज़ार tokens निकालने वाली ASIC generation machine मिल जाए, तो वही काफ़ी होगा

    • Taalas नाम की कंपनी कुछ ऐसा ही बना रही है। Opus 4.6-स्तर की quality नहीं है, लेकिन शायद वह बड़े मॉडल को लक्ष्य बना रही है
      फ़िलहाल यह LLama 8B मॉडल इस्तेमाल करती है, लगभग 17k tokens प्रति सेकंड पर चलती है, और https://chatjimmy.ai/ पर टेस्ट की जा सकती है
    • क्या आप ऐसी किसी समस्या का एक उदाहरण दे सकते हैं?
    • जिज्ञासा है कि hardware और बिजली की लागत subscription cost के मुकाबले कितनी होगी
    • तर्क से देखें तो पाँच लोगों का संसाधन मिलाना एक व्यक्ति से अधिक शक्तिशाली होता है, इसलिए datacenter हमेशा जीतेगा
      क्योंकि उसका time utilization अधिक होता है। मैं भी हमेशा ऐसी कल्पना करता हूँ, लेकिन तर्क के हिसाब से यह एक भ्रम है। औसतन आप पूरे समूह से ज़्यादा उपयोग नहीं कर सकते, जो hardware का आपसे बेहतर उपयोग करता हो
      व्यक्तिगत hardware भी बेहतर होगा, लेकिन cutting edge हमेशा cloud में ही रहेगा
  • “1-bit” देखकर मेरे दिमाग में सबसे पहले 1-बिट model weights नहीं, बल्कि 1-बिट dithered black-and-white image generation आया
    इसलिए मैं सोचने लगा कि अगर training images और workspace को Floyd-Steinberg, Atkinson, या किसी पसंदीदा algorithm से dither की गई 1-बिट images तक सीमित कर दिया जाए, तो diffusion image generator कितना शानदार, तेज़ और compressible हो सकता है
    training काफ़ी तेज़ होगी, और शायद एक आधुनिक GPU में भी फिट हो जाए

    • फिर भी मुझे लगता है कि पहले grayscale पर training करना और बाद में dither करना बेहतर होगा
    • मेरे मन में भी बिल्कुल यही बात आई थी, और यहाँ काफ़ी दिलचस्प ideas explore किए जा सकते हैं
  • मैं सच में जानना चाहता हूँ, क्या यह किसी वास्तविक समस्या को हल करता है?
    diffusion model के मामले में bottleneck storage या memory नहीं, बल्कि generation time लगता है। कई मॉडल 1080-generation के बाद की 8~12GB GPU या समान memory वाले Mac पर चल जाते हैं, और GPU performance के नज़रिए से वह वैसे भी लगभग निचली सीमा है। ऊपर से, ये मॉडल अपने आधार बने छोटे FLUX.2 मॉडल की तुलना में थोड़ा धीमे दिखते हैं
    हाँ, यह iPhone जैसे अपेक्षाकृत मज़बूत GPU लेकिन सीमित memory वाले devices पर local model चलाने में मदद कर सकता है, लेकिन क्या यह सच में इतना आम requirement है?

    • यह उपयोगी प्रगति है। अगर local-scale inference पर ठीक-ठाक quality मिल जाए, तो ऐसे products बनाए जा सकते हैं जो बिना लागत की चिंता के बार-बार फेंक देने लायक images generate करें
      अब तक मैंने जितने image generation products देखे हैं, वे सभी usage-based billing पर हैं, जिससे उनकी value बहुत सीमित हो जाती है। बस यह नहीं पता कि यह वास्तव में “ठीक-ठाक quality” के स्तर तक पहुँचा है या नहीं
    • अभी GPU की माँग बेहद ऊँची है और supply सीमित है। हर बार जब inference को edge की तरफ धकेला जाता है, तो cloud resources दूसरे कामों के लिए खाली हो जाते हैं
      efficiency जितनी बढ़ती है, उतना ही अधिक काम मौजूदा resources से किया जा सकता है। अगर images को आधी compute से render किया जा सके, तो GPU भी आधे ही चाहिए होंगे
    • 8~12GB 1080-generation GPU या समान memory वाले Mac निचली सीमा नहीं हैं। ज़्यादातर लोग उससे काफ़ी कम GPU power वाले laptop या mobile device इस्तेमाल करते हैं
    • मौजूदा value व्यावहारिक उपयोग से ज़्यादा शैक्षणिक मूल्य के करीब लगती है
      cutting-edge मॉडल भी अभी बस मुश्किल से उपयोगी हैं, और image generation में तो सबसे अच्छे मॉडल भी अक्सर बहुत खराब नतीजे देते हैं। इसलिए क्षमता के लिहाज़ से cutting edge से बहुत पीछे रहने वाला छोटा 1-बिट मॉडल अभी तुरंत उपयोगी होना मुश्किल है
      लेकिन compute unit प्रति capability density को काफ़ी बढ़ा देना बहुत मायने रखता है। इससे cutting-edge मॉडल को बेहतर और सस्ते ढंग से चलाया जा सकता है, resource consumption घट सकता है, और personal laptop या phone जैसे edge devices पर किए जा सकने वाले कामों का दायरा भी बढ़ सकता है
      privacy के नज़रिए से भी बहुत-से काम device पर ही चलने चाहिए, और हर किसी के पास बड़ा dedicated GPU नहीं होता
    • सही बात है। size और performance सिर्फ local LLM की समस्या नहीं, बल्कि OpenAI और Anthropic जैसी cutting-edge LLM कंपनियों के लिए भी मुद्दा हैं
      Anthropic जैसी कंपनियाँ अब भी inference पर भारी घाटा झेल रही हैं, और efficient तथा high-performance models में प्रगति से profitability में मदद मिलेगी
  • “जहाँ तक हमें पता है, Bonsai Image 4B इस parameter scale पर iPhone पर सीधे चलने वाला पहला image model है” — यह वाक्य गलत है। हालाँकि इसे पूरी तरह गलत न लगे, इस तरह सावधानी से लिखा गया है
    FLUX.2 [klein] 4B, यानी उसी parameter scale का और लगभग वही मॉडल, Draw Things ऐप के ज़रिए iPhone पर चलता है। यह 8-बिट या 6-बिट quantization इस्तेमाल करता है, इसलिए कोई कह सकता है कि यह “सीधे” नहीं है, लेकिन वह तकनीकी caveat काफ़ी संदिग्ध लगता है

  • इसे diffusion model कहा जा रहा है, लेकिन इसका आधार Flux.2 एक rectified flow model है

    • मेरी राय में “diffusion” शब्द का इस्तेमाल इस पूरे परिवार के लिए कर देना ठीक है
  • अजीब है। मैं UK से विज़िट कर रहा हूँ और मुझे यह दिखता है:
    Website Not Allowed
    “⁦‪prismml.com‬⁩” is a restricted website.

  • एक दिन के भीतर कोई न कोई इस 1-बिट मॉडल के लिए LoRA train कर देगा ताकि Apple Watch पर hentai content generate किया जा सके

  • अगर आप local filesystem के साथ छेड़छाड़ किए बिना इसे चलाना चाहते हैं, तो https://github.com/kordless/bonsai-docker इस्तेमाल कर सकते हैं

  • मैंने web demo से code निकालकर उसे browser के अंदर AI workflow tool में web image generation node की तरह जोड़ दिया, और यह काफ़ी ठीक है
    xenova के transformersjs 4.3 में इसे जोड़ने का इंतज़ार कर रहा हूँ, फिर मैं भी इसे जारी कर दूँगा। टेस्ट करने का इंतज़ार नहीं हुआ, इसलिए पहले ही आज़मा लिया

    • क्या आप उस browser के अंदर वाले AI workflow tool के बारे में बता सकते हैं? हो सकता है मैं भी कुछ वैसा ही बना रहा हूँ, इसलिए इस क्षेत्र में दूसरे लोग क्या बना रहे हैं, यह जानने में बहुत दिलचस्पी है