- FLUX.2 वास्तविक creative workflow के लिए बना एक high-quality image generation मॉडल है, जो कई reference images के बीच character और style consistency बनाए रखते हुए text handling और brand guideline compliance को support करता है
- अधिकतम 4 megapixel resolution पर बारीक image editing संभव है, और lighting, layout, logo जैसे visual elements को स्थिर रूप से नियंत्रित किया जा सकता है
- open-core strategy के जरिए open-weight models और production-grade API दोनों उपलब्ध कराए जाते हैं, जिससे FLUX.1 में बने open ecosystem को FLUX.2 चरण तक आगे बढ़ाया जाता है
- multi-reference support, refined typography rendering, बेहतर prompt handling, real-world knowledge integration जैसी प्रमुख क्षमताएँ नई जोड़ी गई हैं
- मॉडल परिवार pro, flex, dev, klein, VAE से मिलकर बना है, और open-weight तथा commercial API दोनों रूपों में उपलब्ध है
- Black Forest Labs का लक्ष्य open research और commercial infrastructure को जोड़कर visual intelligence की open advancement को आगे बढ़ाना है
FLUX.2 का overview
- FLUX.2 सिर्फ demo के लिए नहीं, बल्कि वास्तविक production environment के लिए बना image generation मॉडल है
- कई reference images के आधार पर character और style consistency बनाए रखता है
- structured prompts का पालन करता है, और complex text को पढ़ और लिख सकता है
- brand guidelines, lighting, layout और logos को स्थिर रूप से संभालता है
- अधिकतम 4MP resolution पर detail और consistency बनाए रखते हुए image editing को support करता है
Black Forest Labs की open-core philosophy
- यह सिद्धांत प्रस्तुत किया गया है कि visual intelligence को researchers, creators और developers सभी को मिलकर आगे बढ़ाना चाहिए
- open-weight models और commercial-grade API endpoints साथ-साथ उपलब्ध कराए जाते हैं
- open models experimentation और cost reduction को बढ़ावा देते हैं, और transparency बढ़ाते हैं
- 2024 में स्थापना के बाद, FLUX.1 [dev] और FLUX.1 Kontext [pro] के जरिए open innovation की नींव बनाई गई
- FLUX.1 [dev] को दुनिया का सबसे लोकप्रिय open image model बताया गया है
- FLUX.1 Kontext [pro] का उपयोग Adobe, Meta जैसी प्रमुख teams द्वारा किया जाता है
FLUX.1 से FLUX.2 तक
- यदि FLUX.1 ने creative tool के रूप में अपनी क्षमता दिखाई थी, तो FLUX.2 का फोकस production workflow innovation पर है
- precision, efficiency, control और realism को मजबूत करके image generation की cost-effectiveness को काफी बेहतर बनाया गया है
- परिणामस्वरूप, इसके creative infrastructure के core component के रूप में स्थापित होने की संभावना है
प्रमुख features (What’s New)
- multi-reference support: एक साथ अधिकतम 10 images को reference करके character, product और style consistency बनाए रखता है
- सूक्ष्म detail और realism: product photography, visualization और photo-level results के लिए उपयुक्त
- text rendering में सुधार: complex typography, infographics, UI mockups आदि में readability बेहतर
- prompt handling मजबूत: multi-structure prompts और compositional constraints को सटीक रूप से दर्शाता है
- real-world knowledge expansion: lighting और spatial logic पर आधारित consistent scene composition
- high-resolution editing: अधिकतम 4MP resolution पर flexible input-output ratios को support करता है
FLUX.2 product family
- FLUX.2 [pro]
- image quality, prompt adherence और visual fidelity में closed top-tier models से प्रतिस्पर्धा करता है
- तेज generation speed और कम cost इसकी विशेषताएँ हैं, और यह BFL Playground, API और partner platforms पर उपलब्ध है
- FLUX.2 [flex]
- steps, guidance scale जैसे parameters को सीधे समायोजित करके quality, speed और text rendering को optimize करने वाला मॉडल
- विशेष रूप से precise typography expression में मजबूत
- FLUX.2 [dev]
- 32B open-weight model, जो text→image और multi-input image editing को एक single checkpoint में support करने वाला वर्तमान का सबसे शक्तिशाली public model बताया गया है
- Hugging Face पर weights उपलब्ध हैं, और इसमें NVIDIA तथा ComfyUI के साथ सहयोग से FP8 optimization implementation शामिल है
- FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra आदि पर API के रूप में उपलब्ध
- FLUX.2 [klein] (आगामी)
- Apache 2.0 open source model, जिसे FLUX.2 आधारित size distillation के जरिए lightweight और high-performance रूप में उपलब्ध कराया जाएगा
- FLUX.2 – VAE
- training ease, quality और compression ratio के संतुलित optimization वाला नया VAE, जो FLUX.2 backbone का मुख्य घटक है
- Hugging Face पर Apache 2.0 license के साथ उपलब्ध
प्रदर्शन और मूल्य
- FLUX.2 model family state-of-the-art image generation quality को competitive pricing पर उपलब्ध कराता है
- open-weight models में FLUX.2 [dev] ने text-image generation और single तथा multi-reference editing में सभी open alternatives की तुलना में बेहतर performance दर्ज की है
- सभी models को responsible development principles के अनुसार release से पहले और बाद में प्रबंधित किया जाता है
तकनीकी संरचना (How It Works)
- latent flow matching architecture पर आधारित, जो image generation और editing को एक ही संरचना में एकीकृत करता है
- Mistral-3 24B vision-language model और Rectified Flow Transformer का संयोजन
- VLM real-world knowledge और context understanding प्रदान करता है
- transformer spatial relationships, material properties और compositional logic को संभालता है
- अधिकतम 10 reference images को मिलाकर नया output generate किया जा सकता है
- model के latent space को फिर से train करके trainability, quality और compression ratio की त्रि-दुविधा (trilemma) को बेहतर बनाया गया है
अतिरिक्त सामग्री
भविष्य की दिशा (Into the New)
- FLUX.2 perception, generation, memory और reasoning को एकीकृत करने वाले multimodal model की ओर बढ़ने वाला एक चरण है
- यह visual intelligence infrastructure की foundational technology के रूप में दुनिया को देखने और समझने के तरीके को बदलने का लक्ष्य रखता है
- वर्तमान में Freiburg और San Francisco में hiring जारी है
1 टिप्पणियां
Hacker News राय
हाल में नए मॉडल इतने ज़्यादा और इतनी जल्दी आ रहे हैं कि GenAI comparison site को अपडेट करना लगभग सिसिफस जैसा लगने लगा है
फिर भी नए Flux 2 Pro Editing model के नतीजे अपलोड कर दिए हैं
इन्हें results page पर देखा जा सकता है
इस मॉडल ने BFL के Kontext से थोड़ा बेहतर स्कोर किया और कुल 12 में लगभग बीच का 6वां स्थान पाया
जल्द ही और बारीक मूल्यांकन के लिए numeric metrics जोड़ने वाला हूँ
अगर सिर्फ Flux 2 Pro, Nano Banana Pro, और Kontext की तुलना देखनी हो तो यह लिंक देख सकते हैं
वैसे BFL शायद ज़्यादा परिष्कृत editing के लिए JSON structure सपोर्ट करता है, इसलिए यह भी जानने की जिज्ञासा है कि उसे इस्तेमाल करने पर accuracy और बढ़ेगी या नहीं
Flux और Gemini Pro 3 को एक ही स्कोर मिलना benchmark की quality को कमज़ोर करता है
OpenAI models का अपना signature touch बहुत मज़बूत है, इसलिए style matching कमज़ोर पड़ता है, और Flux का प्रदर्शन style के हिसाब से बदलता है
Flux ने कई styles को औसत कर देने वाली training से बचने की कोशिश की, लेकिन यह visually appealing images बनाने के लक्ष्य से टकराता है
आखिरकार style consistency की समस्या अभी कुछ समय तक बनी रहेगी
Seedream भी काफ़ी प्रभावशाली है, इसलिए अगला version शायद Google से टक्कर लेने लायक हो
image generation अब लगभग solved problem जैसा लगने लगा है
नया model बस मध्यम स्तर तक ही पहुँच रहा है, और open source भी Chinese models जितना खुला नहीं है
Flux की image quality अब भी plastic skin, artificial texture जैसी लगती है
तकनीकी रूप से pass हो जाए, तब भी असली workflow में शायद Flux नहीं चुनूँगा
यह aesthetic sense की कमी वाले data team की समस्या भी हो सकती है
Google और Chinese ecosystem के बीच फँसा BFL मुश्किल स्थिति में है
RunwayML, PikaLabs, LumaLabs जैसी दूसरी media model कंपनियाँ भी इसी तरह की दिक्कतें झेल रही हैं
BFL को हाल में बड़ा investment मिला है, लेकिन फिर भी hyperscalers के साथ competition भारी पड़ता दिखता है
यह अच्छी बात है कि नया model open weights version में भी जारी किया गया है
लेकिन पहले announce किए गए SOTA video model का क्या हुआ, यह जानना चाहूँगा
YouTube वीडियो में भी इसका ज़िक्र था, लेकिन संबंधित पेज(bfl.ai/up-next) हटा दिया गया है
image models के use cases ज़्यादा हैं, और datasets भी कहीं अधिक समृद्ध हैं
image ही video की बुनियाद है, और नियंत्रित किए जा सकने वाले factors भी कहीं अधिक हैं
image models तेज़ feedback और productivity देते हैं, और style, pose, consistency control जैसे क्षेत्रों में अभी भी काफ़ी काम बाकी है
Midjourney aesthetic रूप से दबदबे वाला है, लेकिन control कम है
Flux प्लास्टिक जैसा लगता है, Imagen cartoonish है, OpenAI पुराना-सा महसूस होता है
आखिरकार मुकाबला aesthetics, control, reproducibility तीनों में करना होगा
video इस काम में distraction है
मैंने Flux 2 Pro को खुद test किया (Replicate लिंक)
Nano Banana से तुलना करने पर कोई बड़ा differentiator नहीं दिखा, और Flux 1.1 Pro के मुकाबले यह बस incremental improvement जैसा लगा
अगर Google कीमत बढ़ा दे या API बदल दे, तो कोई विकल्प नहीं रहता, लेकिन BFL local run option देता है
ESRGAN upscaling की तरह अनावश्यक details जुड़ जाती हैं (test link)
FLUX.1 Pro Kontext अभी भी artistic expression और instruction understanding में बहुत अच्छा है
यह Nano Banana comparison blog में भी देखा जा सकता है
FLUX.2 [dev] को RTX GPU पर fp8 optimized version के रूप में locally चलाया जा सकता है
open weights बनाए रखना अच्छा है, लेकिन model का आकार 12B से 32B हो गया है, इसलिए local use बोझिल हो गया है
distill version का इंतज़ार है
text encoder 48GB है, generation model 64GB है, यानी कुल 100GB से ज़्यादा
local users के लिए entry barrier काफ़ी बड़ा है
इस version का text encoder Mistral-Small-3.2-24B-Instruct-2506 है, जो पहले के CLIP/T5 combination से बेहतर है, लेकिन बहुत बड़ा है
अगर Apache 2.0 में distill किया गया model का इंतज़ार करके इसे release किया जाता, तो Nano Banana से ज़्यादा अच्छी differentiation हो सकती थी
pricing structure भी अजीब है — input के लिए MP पर $0.015, output के लिए पहले MP पर $0.03 और उसके बाद हर MP पर $0.015
Nano Banana Pro को competitor मिला, यह अच्छी बात है
इससे price competition बनाए रखने में मदद मिलेगी
Google, OpenAI, Claude — किसी का भी subscription उपलब्ध नहीं है
जानकारी के लिए, FLUX.2-DEV open source version commercial use के लिए नहीं है
पूरा license
मैंने “family guy cyberpunk 2077” prompt से Nano Banana Pro और Flux 2 Pro की तुलना की,
Google model game scene के ज़्यादा अनुकूल लगा, जबकि Flux बहुत realistic feel दे रहा था
Flux 2 Pro में भी यही रुझान दिखा
लेकिन LoRA ecosystem और tuning के लिए समय दिया जाए, तो Flux 1 Dev अब भी creative styling में मज़बूत है
18GB 4bit quant version diffusers में उपलब्ध है, इसलिए low VRAM environment में भी चलाया जा सकता है