- FLUX.2 [klein] इमेज जनरेशन और एडिटिंग को एकीकृत करने वाला अल्ट्रा-फास्ट विज़ुअल जनरेशन मॉडल परिवार है, जो 1 सेकंड से कम inference speed और consumer GPU compatibility प्रदान करता है
- यह टेक्स्ट-टू-इमेज, इमेज एडिटिंग और मल्टी-रेफरेंस जनरेशन को एकल आर्किटेक्चर में सपोर्ट करता है, जबकि गुणवत्ता बड़े मॉडलों के स्तर की बनाए रखता है
- 9B मॉडल FLUX NCL license के तहत और 4B मॉडल Apache 2.0 license के तहत जारी किया गया है, जिससे डेवलपर एक्सेस और customization आसान होते हैं
- FP8·NVFP4 quantized versions NVIDIA के सहयोग से बनाए गए हैं, जो VRAM उपयोग को अधिकतम 55% तक घटाते हैं और speed को अधिकतम 2.7 गुना तक बढ़ाते हैं
- रियल-टाइम जनरेशन और इंटरैक्शन को लक्ष्य बनाने वाले ‘इंटरैक्टिव विज़ुअल इंटेलिजेंस’ विज़न की दिशा में यह एक कदम है, और रियल-टाइम डिज़ाइन व कंटेंट निर्माण टूल्स में उपयोग किया जा सकता है
FLUX.2 [klein] अवलोकन
- FLUX.2 [klein] Black Forest Labs द्वारा जारी किया गया सबसे तेज़ इमेज जनरेशन मॉडल परिवार है, जो जनरेशन और एडिटिंग को एक ही संरचना में एकीकृत करता है
- end-to-end inference speed 1 सेकंड से कम है, और यह उच्च-गुणवत्ता वाली इमेज को रियल-टाइम में जनरेट करता है
- यह केवल 13GB VRAM पर चल सकता है, इसलिए RTX 3090/4070 श्रेणी के GPU पर भी चलाया जा सकता है
- मॉडल नाम ‘klein’ जर्मन में ‘छोटा’ का अर्थ देता है, जो कॉम्पैक्ट संरचना और कम latency को दर्शाता है
- लेकिन प्रदर्शन बड़े मॉडलों की टक्कर का है, और यह टेक्स्ट-टू-इमेज जनरेशन, एडिटिंग और मल्टी-रेफरेंस जनरेशन तीनों को सपोर्ट करता है
मुख्य विशेषताएँ
- 0.5 सेकंड से कम inference में इमेज जनरेशन या एडिटिंग संभव
- फोटो-स्तरीय यथार्थवाद और उच्च विविधता प्रदान करता है
- एकीकृत मॉडल संरचना के साथ टेक्स्ट-टू-इमेज, इमेज-टू-इमेज और मल्टी-रेफरेंस कार्य एक ही मॉडल में संभव
- consumer GPU compatibility: 4B मॉडल लगभग 13GB VRAM पर काम करता है
- डेवलपर-फ्रेंडली: 4B मॉडल Apache 2.0 और 9B मॉडल FLUX NCL के तहत उपलब्ध
- API और open weights उपलब्ध होने से local execution और production deployment दोनों संभव
मॉडल संरचना
FLUX.2 [klein] 9B
- फ्लैगशिप मॉडल, जो गुणवत्ता और latency के संतुलन को परिभाषित करता है
- टेक्स्ट-टू-इमेज, single-reference editing और multi-reference generation में 5 गुना बड़े मॉडल के बराबर या उससे बेहतर प्रदर्शन
- 0.5 सेकंड से कम inference speed
- 9B flow model और 8B Qwen3 text embedder पर आधारित
- 4-step inference (step-distilled) संरचना से दक्षता को अधिकतम करता है
- लाइसेंस: FLUX NCL
FLUX.2 [klein] 4B
- Apache 2.0 license के तहत पूरी तरह जारी मॉडल
- RTX 3090/4070 जैसे consumer GPU पर चल सकता है
- text-to-image (T2I), image-to-image (I2I) और multi-reference generation सपोर्ट करता है
- छोटा होने के बावजूद आकार के अनुपात में उच्च गुणवत्ता देता है
- local development और edge deployment के लिए उपयुक्त
FLUX.2 [klein] Base 9B / 4B
- non-distilled (full-capacity) संस्करण, जो training signal को पूरी तरह संरक्षित रखते हैं
- fine-tuning, LoRA training और research pipelines के लिए उपयुक्त
- distilled मॉडल की तुलना में output diversity अधिक
- लाइसेंस: 4B Base के लिए Apache 2.0, 9B Base के लिए FLUX NCL
Quantized versions
- NVIDIA के साथ मिलकर FP8 और NVFP4 versions जारी किए गए
- FP8: अधिकतम 1.6 गुना तेज़ और VRAM में 40% की बचत
- NVFP4: अधिकतम 2.7 गुना तेज़ और VRAM में 55% की बचत
- RTX 5080/5090 पर 1024×1024 T2I benchmark चलाया गया
- वही licensing structure कायम: 4B के लिए Apache 2.0, 9B के लिए FLUX NCL
प्रदर्शन विश्लेषण
- FLUX.2 [klein] ने Qwen की तुलना में कम latency और VRAM उपयोग के साथ समान या बेहतर गुणवत्ता हासिल की
- यह Z-Image से बेहतर प्रदर्शन दिखाता है और टेक्स्ट-टू-इमेज व मल्टी-रेफरेंस एडिटिंग को एकल मॉडल में सपोर्ट करता है
- Base versions कुछ धीमे हैं, लेकिन customization और research suitability अधिक है
- speed measurement GB200 (bf16) वातावरण में किया गया
इंटरैक्टिव विज़ुअल इंटेलिजेंस विज़न
- FLUX.2 [klein] सिर्फ speed improvement से आगे बढ़कर रियल-टाइम इंटरैक्टिव विज़ुअल इंटेलिजेंस की दिशा में प्रगति है
- लक्ष्य है ऐसे सिस्टम जो AI को देखने, रचने और iterate करने में सक्षम बनाएं
- इससे रियल-टाइम डिज़ाइन टूल्स, विज़ुअल रीजनिंग और इंटरैक्टिव कंटेंट निर्माण जैसे नए अनुप्रयोग संभव हो सकते हैं
संसाधन और एक्सेस पथ
अभी कोई टिप्पणी नहीं है.