- FLUX.2 [klein] इमेज जनरेशन और एडिटिंग को एकीकृत करने वाला अल्ट्रा-फास्ट विज़ुअल जनरेशन मॉडल परिवार है, जो 1 सेकंड से कम inference speed और consumer GPU compatibility प्रदान करता है
- यह टेक्स्ट-टू-इमेज, इमेज एडिटिंग और मल्टी-रेफरेंस जनरेशन को एकल आर्किटेक्चर में सपोर्ट करता है, जबकि गुणवत्ता बड़े मॉडलों के स्तर की बनाए रखता है
- 9B मॉडल FLUX NCL license के तहत और 4B मॉडल Apache 2.0 license के तहत जारी किया गया है, जिससे डेवलपर एक्सेस और customization आसान होते हैं
- FP8·NVFP4 quantized versions NVIDIA के सहयोग से बनाए गए हैं, जो VRAM उपयोग को अधिकतम 55% तक घटाते हैं और speed को अधिकतम 2.7 गुना तक बढ़ाते हैं
- रियल-टाइम जनरेशन और इंटरैक्शन को लक्ष्य बनाने वाले ‘इंटरैक्टिव विज़ुअल इंटेलिजेंस’ विज़न की दिशा में यह एक कदम है, और रियल-टाइम डिज़ाइन व कंटेंट निर्माण टूल्स में उपयोग किया जा सकता है
FLUX.2 [klein] अवलोकन
- FLUX.2 [klein] Black Forest Labs द्वारा जारी किया गया सबसे तेज़ इमेज जनरेशन मॉडल परिवार है, जो जनरेशन और एडिटिंग को एक ही संरचना में एकीकृत करता है
- end-to-end inference speed 1 सेकंड से कम है, और यह उच्च-गुणवत्ता वाली इमेज को रियल-टाइम में जनरेट करता है
- यह केवल 13GB VRAM पर चल सकता है, इसलिए RTX 3090/4070 श्रेणी के GPU पर भी चलाया जा सकता है
- मॉडल नाम ‘klein’ जर्मन में ‘छोटा’ का अर्थ देता है, जो कॉम्पैक्ट संरचना और कम latency को दर्शाता है
- लेकिन प्रदर्शन बड़े मॉडलों की टक्कर का है, और यह टेक्स्ट-टू-इमेज जनरेशन, एडिटिंग और मल्टी-रेफरेंस जनरेशन तीनों को सपोर्ट करता है
मुख्य विशेषताएँ
- 0.5 सेकंड से कम inference में इमेज जनरेशन या एडिटिंग संभव
- फोटो-स्तरीय यथार्थवाद और उच्च विविधता प्रदान करता है
- एकीकृत मॉडल संरचना के साथ टेक्स्ट-टू-इमेज, इमेज-टू-इमेज और मल्टी-रेफरेंस कार्य एक ही मॉडल में संभव
- consumer GPU compatibility: 4B मॉडल लगभग 13GB VRAM पर काम करता है
- डेवलपर-फ्रेंडली: 4B मॉडल Apache 2.0 और 9B मॉडल FLUX NCL के तहत उपलब्ध
- API और open weights उपलब्ध होने से local execution और production deployment दोनों संभव
मॉडल संरचना
FLUX.2 [klein] 9B
- फ्लैगशिप मॉडल, जो गुणवत्ता और latency के संतुलन को परिभाषित करता है
- टेक्स्ट-टू-इमेज, single-reference editing और multi-reference generation में 5 गुना बड़े मॉडल के बराबर या उससे बेहतर प्रदर्शन
- 0.5 सेकंड से कम inference speed
- 9B flow model और 8B Qwen3 text embedder पर आधारित
- 4-step inference (step-distilled) संरचना से दक्षता को अधिकतम करता है
- लाइसेंस: FLUX NCL
FLUX.2 [klein] 4B
- Apache 2.0 license के तहत पूरी तरह जारी मॉडल
- RTX 3090/4070 जैसे consumer GPU पर चल सकता है
- text-to-image (T2I), image-to-image (I2I) और multi-reference generation सपोर्ट करता है
- छोटा होने के बावजूद आकार के अनुपात में उच्च गुणवत्ता देता है
- local development और edge deployment के लिए उपयुक्त
FLUX.2 [klein] Base 9B / 4B
- non-distilled (full-capacity) संस्करण, जो training signal को पूरी तरह संरक्षित रखते हैं
- fine-tuning, LoRA training और research pipelines के लिए उपयुक्त
- distilled मॉडल की तुलना में output diversity अधिक
- लाइसेंस: 4B Base के लिए Apache 2.0, 9B Base के लिए FLUX NCL
Quantized versions
- NVIDIA के साथ मिलकर FP8 और NVFP4 versions जारी किए गए
- FP8: अधिकतम 1.6 गुना तेज़ और VRAM में 40% की बचत
- NVFP4: अधिकतम 2.7 गुना तेज़ और VRAM में 55% की बचत
- RTX 5080/5090 पर 1024×1024 T2I benchmark चलाया गया
- वही licensing structure कायम: 4B के लिए Apache 2.0, 9B के लिए FLUX NCL
प्रदर्शन विश्लेषण
- FLUX.2 [klein] ने Qwen की तुलना में कम latency और VRAM उपयोग के साथ समान या बेहतर गुणवत्ता हासिल की
- यह Z-Image से बेहतर प्रदर्शन दिखाता है और टेक्स्ट-टू-इमेज व मल्टी-रेफरेंस एडिटिंग को एकल मॉडल में सपोर्ट करता है
- Base versions कुछ धीमे हैं, लेकिन customization और research suitability अधिक है
- speed measurement GB200 (bf16) वातावरण में किया गया
इंटरैक्टिव विज़ुअल इंटेलिजेंस विज़न
- FLUX.2 [klein] सिर्फ speed improvement से आगे बढ़कर रियल-टाइम इंटरैक्टिव विज़ुअल इंटेलिजेंस की दिशा में प्रगति है
- लक्ष्य है ऐसे सिस्टम जो AI को देखने, रचने और iterate करने में सक्षम बनाएं
- इससे रियल-टाइम डिज़ाइन टूल्स, विज़ुअल रीजनिंग और इंटरैक्टिव कंटेंट निर्माण जैसे नए अनुप्रयोग संभव हो सकते हैं
संसाधन और एक्सेस पथ
- अनुभव करें: Demo, Playground
- Hugging Face Space: klein 9B, klein 4B
- डेवलपर सामग्री: दस्तावेज़, GitHub, मॉडल weights
- अतिरिक्त जानकारी: आधिकारिक मॉडल पेज
2 टिप्पणियां
आह, तो Mac पर यह नहीं चलेगा। कह रहा है
No GPU or XPU foundहाहा,,Hacker News की राय
मैं अभी तक अपनी GenAI Showdown साइट में Klein को जोड़ नहीं पाया हूँ
लेकिन अगर यह Z-Image Turbo जैसा है, तो इसकी परफ़ॉर्मेंस बहुत शानदार होने की उम्मीद है
संदर्भ के लिए, Z-Image Turbo को 15 में से 4 अंक मिले थे, और यह देखते हुए कि इससे कहीं बड़ा मॉडल Flux.2 (32b) सिर्फ 1 अंक ही ज़्यादा ला पाया, यह काफ़ी प्रभावशाली है
लोकल मॉडल तुलना के नतीजे यहाँ देखे जा सकते हैं
structured data आधारित टेस्ट गलत आत्मविश्वास दे सकते हैं। अब साधारण text-to-image अच्छा benchmark नहीं रह गया है
यह देखकर हैरानी होती है कि मॉडल छोटे होते जा रहे हैं, फिर भी quality और efficiency बढ़ रही है
Z-Image Turbo वाकई कमाल का है, और मैं इस नए मॉडल को भी जल्द आज़माना चाहता हूँ
इससे जुड़ा पुराना thread यहाँ देखा जा सकता है
100GB का मॉडल डाउनलोड और चलाना मुश्किल है, लेकिन 4GB मॉडल ज़्यादातर developers तुरंत आज़मा सकते हैं
ख़ासकर इंसानों, artists, और कुछ खास objects को दर्शाने में अंतर साफ़ दिखता है
GPT 3.5 के बाद Deepseek ने बहुत कम लागत पर training की, और अब laptop पर भी 3.5 से बेहतर मॉडल चल रहे हैं। सवाल यह है कि यह और कितना छोटा हो सकता है
यह मॉडल pogo stick की image नहीं बना पाता
मैंने ‘pogo stick पर कूदते हुए बाघ’ की image बनाने की कोशिश की, लेकिन pogo stick खुद ही generate नहीं हुआ
ऐसी भौतिक manipulation अभी मॉडल नहीं कर पाते, इसलिए इससे जुड़े काम फिलहाल सुरक्षित लगते हैं
अलग-अलग मॉडल samples यहाँ देखे जा सकते हैं
छोटे मॉडलों को ‘pogo stick’ जैसे specific object दिखाने के लिए अतिरिक्त prompt चाहिए होता है
अगर मॉडल में काफ़ी reasoning क्षमता होती, तो वह external reference image के ज़रिए knowledge की कमी पूरी कर सकता था, लेकिन अभी ऐसा नहीं है
बाघ का उदाहरण, यह pogo stick नहीं है, Nano Banana Pro उदाहरण
FLUX.2 [klein] 4B, Klein family का सबसे तेज़ version है, और कहा गया है कि इसे real-time preview या latency-sensitive production environment के लिए डिज़ाइन किया गया है
जानना चाहता हूँ कि ऐसे environment आखिर कौन से होते हैं
ख़ासकर image editing में speed बहुत मायने रखती है
पहले मुझे लगा यह रात में स्क्रीन को नारंगी रंग देने वाले F.lux app की बात हो रही है
आजकल यह फीचर लगभग हर OS में built-in आता है, इसलिए अब उसकी ज़रूरत नहीं रही
अगर GenAI मॉडलों को compressed implementation की तरह देखें, तो text अच्छी तरह compress होता है, लेकिन image और video उतने नहीं
फिर भी, नए text-to-image और text-to-video मॉडल Llama-3 जैसे LLM से काफ़ी छोटे हैं
शायद इसकी वजह यह है कि हमने visual world के सिर्फ संकीर्ण मानव-केंद्रित हिस्से को train किया है। अभी भी बहुत बड़ा unexplored visual combination space मौजूद है
अगर loss compression इतना हो कि इंसान अंतर न कर पाए, तो image की तरफ़ compression और भी efficient हो सकती है
text आमतौर पर 4:1~6:1 तक जाता है, लेकिन image 10:1 या उससे अधिक पर भी देखने में lossless लग सकती है, और video temporal consistency की वजह से और भी efficient है
साथ ही, LLM में निहित meta knowledge की मात्रा को कम करके नहीं आँकना चाहिए
क्या किसी ने Flux 2 Klein इस्तेमाल किया है? यह जानने की जिज्ञासा है
मैं अब नए मॉडलों के पीछे नहीं भागता, और Nano Banana Pro के साथ ही पूरी app बना रहा हूँ
नतीजे मेरे लिए काफ़ी संतोषजनक हैं
picxstudio.com
मैंने Flux 1 का बहुत मज़ा लिया था, और अभी Z-Image Turbo के साथ खेल रहा हूँ
जब Invoke में Flux2 Klein जुड़ जाएगा, तब इसे आज़माऊँगा
GPT version की तुलना में इसकी interactive क्षमता कैसी है, यह जानना चाहता हूँ
यह बात पसंद आई कि यह छोटा version होते हुए भी open source के रूप में जारी किया गया है
इससे भारी budget के बिना भी इसे चलाना संभव है, और अवसर बढ़ते हैं
speed improvement भी काफ़ी प्रभावशाली है