2 पॉइंट द्वारा GN⁺ 2025-11-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • FLUX.2 वास्तविक creative workflow के लिए बना एक high-quality image generation मॉडल है, जो कई reference images के बीच character और style consistency बनाए रखते हुए text handling और brand guideline compliance को support करता है
  • अधिकतम 4 megapixel resolution पर बारीक image editing संभव है, और lighting, layout, logo जैसे visual elements को स्थिर रूप से नियंत्रित किया जा सकता है
  • open-core strategy के जरिए open-weight models और production-grade API दोनों उपलब्ध कराए जाते हैं, जिससे FLUX.1 में बने open ecosystem को FLUX.2 चरण तक आगे बढ़ाया जाता है
  • multi-reference support, refined typography rendering, बेहतर prompt handling, real-world knowledge integration जैसी प्रमुख क्षमताएँ नई जोड़ी गई हैं
  • मॉडल परिवार pro, flex, dev, klein, VAE से मिलकर बना है, और open-weight तथा commercial API दोनों रूपों में उपलब्ध है
  • Black Forest Labs का लक्ष्य open research और commercial infrastructure को जोड़कर visual intelligence की open advancement को आगे बढ़ाना है

FLUX.2 का overview

  • FLUX.2 सिर्फ demo के लिए नहीं, बल्कि वास्तविक production environment के लिए बना image generation मॉडल है
    • कई reference images के आधार पर character और style consistency बनाए रखता है
    • structured prompts का पालन करता है, और complex text को पढ़ और लिख सकता है
    • brand guidelines, lighting, layout और logos को स्थिर रूप से संभालता है
  • अधिकतम 4MP resolution पर detail और consistency बनाए रखते हुए image editing को support करता है

Black Forest Labs की open-core philosophy

  • यह सिद्धांत प्रस्तुत किया गया है कि visual intelligence को researchers, creators और developers सभी को मिलकर आगे बढ़ाना चाहिए
  • open-weight models और commercial-grade API endpoints साथ-साथ उपलब्ध कराए जाते हैं
    • open models experimentation और cost reduction को बढ़ावा देते हैं, और transparency बढ़ाते हैं
  • 2024 में स्थापना के बाद, FLUX.1 [dev] और FLUX.1 Kontext [pro] के जरिए open innovation की नींव बनाई गई
    • FLUX.1 [dev] को दुनिया का सबसे लोकप्रिय open image model बताया गया है
    • FLUX.1 Kontext [pro] का उपयोग Adobe, Meta जैसी प्रमुख teams द्वारा किया जाता है

FLUX.1 से FLUX.2 तक

  • यदि FLUX.1 ने creative tool के रूप में अपनी क्षमता दिखाई थी, तो FLUX.2 का फोकस production workflow innovation पर है
  • precision, efficiency, control और realism को मजबूत करके image generation की cost-effectiveness को काफी बेहतर बनाया गया है
  • परिणामस्वरूप, इसके creative infrastructure के core component के रूप में स्थापित होने की संभावना है

प्रमुख features (What’s New)

  • multi-reference support: एक साथ अधिकतम 10 images को reference करके character, product और style consistency बनाए रखता है
  • सूक्ष्म detail और realism: product photography, visualization और photo-level results के लिए उपयुक्त
  • text rendering में सुधार: complex typography, infographics, UI mockups आदि में readability बेहतर
  • prompt handling मजबूत: multi-structure prompts और compositional constraints को सटीक रूप से दर्शाता है
  • real-world knowledge expansion: lighting और spatial logic पर आधारित consistent scene composition
  • high-resolution editing: अधिकतम 4MP resolution पर flexible input-output ratios को support करता है

FLUX.2 product family

  • FLUX.2 [pro]
    • image quality, prompt adherence और visual fidelity में closed top-tier models से प्रतिस्पर्धा करता है
    • तेज generation speed और कम cost इसकी विशेषताएँ हैं, और यह BFL Playground, API और partner platforms पर उपलब्ध है
  • FLUX.2 [flex]
    • steps, guidance scale जैसे parameters को सीधे समायोजित करके quality, speed और text rendering को optimize करने वाला मॉडल
    • विशेष रूप से precise typography expression में मजबूत
  • FLUX.2 [dev]
    • 32B open-weight model, जो text→image और multi-input image editing को एक single checkpoint में support करने वाला वर्तमान का सबसे शक्तिशाली public model बताया गया है
    • Hugging Face पर weights उपलब्ध हैं, और इसमें NVIDIA तथा ComfyUI के साथ सहयोग से FP8 optimization implementation शामिल है
    • FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra आदि पर API के रूप में उपलब्ध
  • FLUX.2 [klein] (आगामी)
    • Apache 2.0 open source model, जिसे FLUX.2 आधारित size distillation के जरिए lightweight और high-performance रूप में उपलब्ध कराया जाएगा
  • FLUX.2 – VAE
    • training ease, quality और compression ratio के संतुलित optimization वाला नया VAE, जो FLUX.2 backbone का मुख्य घटक है
    • Hugging Face पर Apache 2.0 license के साथ उपलब्ध

प्रदर्शन और मूल्य

  • FLUX.2 model family state-of-the-art image generation quality को competitive pricing पर उपलब्ध कराता है
  • open-weight models में FLUX.2 [dev] ने text-image generation और single तथा multi-reference editing में सभी open alternatives की तुलना में बेहतर performance दर्ज की है
  • सभी models को responsible development principles के अनुसार release से पहले और बाद में प्रबंधित किया जाता है

तकनीकी संरचना (How It Works)

  • latent flow matching architecture पर आधारित, जो image generation और editing को एक ही संरचना में एकीकृत करता है
  • Mistral-3 24B vision-language model और Rectified Flow Transformer का संयोजन
    • VLM real-world knowledge और context understanding प्रदान करता है
    • transformer spatial relationships, material properties और compositional logic को संभालता है
  • अधिकतम 10 reference images को मिलाकर नया output generate किया जा सकता है
  • model के latent space को फिर से train करके trainability, quality और compression ratio की त्रि-दुविधा (trilemma) को बेहतर बनाया गया है

अतिरिक्त सामग्री

भविष्य की दिशा (Into the New)

  • FLUX.2 perception, generation, memory और reasoning को एकीकृत करने वाले multimodal model की ओर बढ़ने वाला एक चरण है
  • यह visual intelligence infrastructure की foundational technology के रूप में दुनिया को देखने और समझने के तरीके को बदलने का लक्ष्य रखता है
  • वर्तमान में Freiburg और San Francisco में hiring जारी है

1 टिप्पणियां

 
GN⁺ 2025-11-27
Hacker News राय
  • हाल में नए मॉडल इतने ज़्यादा और इतनी जल्दी आ रहे हैं कि GenAI comparison site को अपडेट करना लगभग सिसिफस जैसा लगने लगा है
    फिर भी नए Flux 2 Pro Editing model के नतीजे अपलोड कर दिए हैं
    इन्हें results page पर देखा जा सकता है
    इस मॉडल ने BFL के Kontext से थोड़ा बेहतर स्कोर किया और कुल 12 में लगभग बीच का 6वां स्थान पाया
    जल्द ही और बारीक मूल्यांकन के लिए numeric metrics जोड़ने वाला हूँ
    अगर सिर्फ Flux 2 Pro, Nano Banana Pro, और Kontext की तुलना देखनी हो तो यह लिंक देख सकते हैं
    वैसे BFL शायद ज़्यादा परिष्कृत editing के लिए JSON structure सपोर्ट करता है, इसलिए यह भी जानने की जिज्ञासा है कि उसे इस्तेमाल करने पर accuracy और बढ़ेगी या नहीं

    • अच्छा होगा अगर scoring system को साधारण pass/fail के बजाय 0~10 range scale में बदला जाए
      Flux और Gemini Pro 3 को एक ही स्कोर मिलना benchmark की quality को कमज़ोर करता है
    • तुलना उपयोगी है, लेकिन style diversity की कमी है
      OpenAI models का अपना signature touch बहुत मज़बूत है, इसलिए style matching कमज़ोर पड़ता है, और Flux का प्रदर्शन style के हिसाब से बदलता है
      Flux ने कई styles को औसत कर देने वाली training से बचने की कोशिश की, लेकिन यह visually appealing images बनाने के लक्ष्य से टकराता है
      आखिरकार style consistency की समस्या अभी कुछ समय तक बनी रहेगी
    • अभी के लिए Google साफ़ तौर पर आगे है
      Seedream भी काफ़ी प्रभावशाली है, इसलिए अगला version शायद Google से टक्कर लेने लायक हो
      image generation अब लगभग solved problem जैसा लगने लगा है
    • साइट पर typo है: s/sttae/state/g को ठीक करना होगा
    • शक है कि BFL के पास Google और ByteDance(SeeDream) जैसे दिग्गजों से लगातार मुकाबला करने की ऊर्जा बची भी है या नहीं
      नया model बस मध्यम स्तर तक ही पहुँच रहा है, और open source भी Chinese models जितना खुला नहीं है
      Flux की image quality अब भी plastic skin, artificial texture जैसी लगती है
      तकनीकी रूप से pass हो जाए, तब भी असली workflow में शायद Flux नहीं चुनूँगा
      यह aesthetic sense की कमी वाले data team की समस्या भी हो सकती है
      Google और Chinese ecosystem के बीच फँसा BFL मुश्किल स्थिति में है
      RunwayML, PikaLabs, LumaLabs जैसी दूसरी media model कंपनियाँ भी इसी तरह की दिक्कतें झेल रही हैं
      BFL को हाल में बड़ा investment मिला है, लेकिन फिर भी hyperscalers के साथ competition भारी पड़ता दिखता है
  • यह अच्छी बात है कि नया model open weights version में भी जारी किया गया है
    लेकिन पहले announce किए गए SOTA video model का क्या हुआ, यह जानना चाहूँगा
    YouTube वीडियो में भी इसका ज़िक्र था, लेकिन संबंधित पेज(bfl.ai/up-next) हटा दिया गया है

    • startup के तौर पर इन्होंने video के बजाय image models पर फोकस करने के लिए pivot किया
      image models के use cases ज़्यादा हैं, और datasets भी कहीं अधिक समृद्ध हैं
    • जो सुना है उसके मुताबिक video model training बड़े पैमाने की असफलता रही और project रद्द कर दिया गया
    • image models अब भी मुख्य तकनीकी धुरी हैं
      image ही video की बुनियाद है, और नियंत्रित किए जा सकने वाले factors भी कहीं अधिक हैं
      image models तेज़ feedback और productivity देते हैं, और style, pose, consistency control जैसे क्षेत्रों में अभी भी काफ़ी काम बाकी है
      Midjourney aesthetic रूप से दबदबे वाला है, लेकिन control कम है
      Flux प्लास्टिक जैसा लगता है, Imagen cartoonish है, OpenAI पुराना-सा महसूस होता है
      आखिरकार मुकाबला aesthetics, control, reproducibility तीनों में करना होगा
      video इस काम में distraction है
  • मैंने Flux 2 Pro को खुद test किया (Replicate लिंक)
    Nano Banana से तुलना करने पर कोई बड़ा differentiator नहीं दिखा, और Flux 1.1 Pro के मुकाबले यह बस incremental improvement जैसा लगा

    • prompt consistency बेहतर हुई है, लेकिन image quality ज़्यादा artificial लगती है
    • Flux 2 prompt guide में default रूप से JSON prompts और HEX color specification की सिफारिश की गई है
    • prompt upsampling चालू करने पर reasoning बेहतर होती है, लेकिन बंद होने पर अजीब नतीजे आ जाते हैं
    • Flux 2 API की IP sensitivity ज़्यादा है, इसलिए कुछ मामलों में upsampling चालू करने पर ही request pass होती है (उदाहरण)
    • लागत और speed Nano Banana जैसी है, लेकिन image input feature इस्तेमाल करने पर Flux 2 Pro ज़्यादा महँगा पड़ता है
    • Flux 1.1 और 2 के results में objective superiority नहीं है
    • Flux को locally run कर पाने की संभावना अपने आप में एक फ़ायदा है
      अगर Google कीमत बढ़ा दे या API बदल दे, तो कोई विकल्प नहीं रहता, लेकिन BFL local run option देता है
    • Flux 2 Pro का high-resolution(4K) output कभी-कभी उल्टा समस्या पैदा करता है
      ESRGAN upscaling की तरह अनावश्यक details जुड़ जाती हैं (test link)
    • Flux 2 Dev version में IP censorship नहीं है
  • FLUX.1 Pro Kontext अभी भी artistic expression और instruction understanding में बहुत अच्छा है
    यह Nano Banana comparison blog में भी देखा जा सकता है

  • FLUX.2 [dev] को RTX GPU पर fp8 optimized version के रूप में locally चलाया जा सकता है
    open weights बनाए रखना अच्छा है, लेकिन model का आकार 12B से 32B हो गया है, इसलिए local use बोझिल हो गया है
    distill version का इंतज़ार है

    • Hugging Face page देखने पर
      text encoder 48GB है, generation model 64GB है, यानी कुल 100GB से ज़्यादा
      local users के लिए entry barrier काफ़ी बड़ा है
  • इस version का text encoder Mistral-Small-3.2-24B-Instruct-2506 है, जो पहले के CLIP/T5 combination से बेहतर है, लेकिन बहुत बड़ा है
    अगर Apache 2.0 में distill किया गया model का इंतज़ार करके इसे release किया जाता, तो Nano Banana से ज़्यादा अच्छी differentiation हो सकती थी
    pricing structure भी अजीब है — input के लिए MP पर $0.015, output के लिए पहले MP पर $0.03 और उसके बाद हर MP पर $0.015

    • Qwen-Image-Edit-2511 अगले हफ़्ते Apache 2.0 में जारी होने वाला है, इसलिए लगता है BFL ने जल्दीबाज़ी में release किया
    • CLIP असल में लगभग meaningless choice था. उसके weights को 0 कर देने पर भी result लगभग वही रहा
    • CLIP+T5 combination उस समय कई image generation models में इस्तेमाल हो रहा था. यह कोई अजीब choice नहीं थी
    • GTM strategy संभालने की कोशिश में लगता है European market को नुकसान हुआ
  • Nano Banana Pro को competitor मिला, यह अच्छी बात है
    इससे price competition बनाए रखने में मदद मिलेगी

    • Hong Kong जैसे उन क्षेत्रों में जहाँ US models का उपयोग सीमित है, ऐसे alternatives खास तौर पर ज़रूरी हैं
      Google, OpenAI, Claude — किसी का भी subscription उपलब्ध नहीं है
    • European companies को अच्छा करते देखना भी सुखद है
  • जानकारी के लिए, FLUX.2-DEV open source version commercial use के लिए नहीं है
    पूरा license

  • मैंने “family guy cyberpunk 2077” prompt से Nano Banana Pro और Flux 2 Pro की तुलना की,
    Google model game scene के ज़्यादा अनुकूल लगा, जबकि Flux बहुत realistic feel दे रहा था

    • Flux photo-centric dataset पर tuned है, इसलिए artistic styles में कमज़ोर है
      Flux 2 Pro में भी यही रुझान दिखा
      लेकिन LoRA ecosystem और tuning के लिए समय दिया जाए, तो Flux 1 Dev अब भी creative styling में मज़बूत है
  • 18GB 4bit quant version diffusers में उपलब्ध है, इसलिए low VRAM environment में भी चलाया जा सकता है