3 पॉइंट द्वारा GN⁺ 2025-05-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Black Forest Labs का FLUX.1 Kontext एक नवीनतम जनरेटिव AI मॉडल है, जो टेक्स्ट और इमेज को एक साथ इनपुट लेकर संदर्भ को समझता है और मौजूदा इमेज की विशेषताओं व स्टाइल को बनाए रखते हुए तुरंत संशोधन और जनरेशन कर सकता है
  • मौजूदा टेक्स्ट-टू-इमेज जनरेशन एल्गोरिद्म की तुलना में, यह टेक्स्ट·ऑब्जेक्ट कंसिस्टेंसी, लोकल एडिटिंग, स्टाइल रेफरेंस, और हाई-स्पीड रिस्पॉन्स जैसे क्षेत्रों में बेहतर प्रदर्शन दिखाता है
  • उपयोगकर्ता सिर्फ टेक्स्ट इनपुट कर सकते हैं, या इमेज और टेक्स्ट को मिलाकर केवल किसी खास हिस्से को बदल सकते हैं, सिर्फ स्टाइल लागू कर सकते हैं, या मल्टी-स्टेप एडिटिंग कर सकते हैं — यानी कई तरह के इंटरैक्टिव इमेज वर्कफ़्लो संभव हैं
  • FLUX.1 Kontext [pro] कई बार एडिट करने के बाद भी इमेज कंसिस्टेंसी बनाए रखता है और उद्योग-स्तरीय सर्वोच्च गति पर काम करता है
  • ओपन सोर्स मॉडल का [dev] वर्ज़न हल्का 12B diffusion transformer है, जिसे रिसर्च और customization उद्देश्यों के लिए private beta के रूप में जारी किया गया है

FLUX.1 Kontext परिचय

  • FLUX.1 Kontext केवल टेक्स्ट से इमेज बनाने वाले मौजूदा मॉडलों की सीमाओं से आगे बढ़कर, टेक्स्ट और इमेज को साथ में इनपुट लेकर संदर्भ-आधारित इमेज जनरेशन और एडिटिंग सक्षम करने वाला एक generative flow matching मॉडल है
  • टेक्स्ट प्रॉम्प्ट और इमेज का एक साथ उपयोग करके, इमेज के विशिष्ट तत्वों को हटाया/जोड़ा/बदला जा सकता है, और स्टाइल या विशेषताओं को बरकरार रखते हुए नए दृश्य भी बनाए जा सकते हैं

मुख्य फीचर्स

  • कैरक्टर कंसिस्टेंसी: एक ही व्यक्ति, ऑब्जेक्ट या स्टाइल को अलग-अलग दृश्यों और वातावरणों में भी लगातार एक जैसा बनाए रखता है
  • लोकल एडिटिंग: टेक्स्ट कमांड के जरिए इमेज के सिर्फ किसी खास हिस्से को बदला जा सकता है (उदा.: चेहरे का कोई खास तत्व हटाना, सिर्फ लिखे हुए शब्द बदलना आदि)
  • स्टाइल रेफरेंस: रेफरेंस इमेज की विशिष्ट स्टाइल को नए दृश्य पर लागू किया जा सकता है
  • इंटरैक्टिव स्पीड: मौजूदा मॉडलों की तुलना में अधिकतम 8 गुना तेज inference speed के साथ रीयल-टाइम एडिटिंग और जनरेशन का समर्थन

टेक्स्ट-इमेज और इमेज-टू-इमेज एडिटिंग का एकीकरण

  • FLUX.1 Kontext केवल एक बार की एडिटिंग तक सीमित नहीं है, बल्कि कई चरणों वाली दोहराई गई निर्देश श्रृंखला में भी इमेज क्वालिटी और विशेषताओं को बनाए रखता है
  • प्रॉम्प्ट और पिछली इमेज के परिणामों का लगातार उपयोग करके, उपयोगकर्ता चरण-दर-चरण इच्छित परिणाम तक पहुंच सकते हैं

FLUX.1 Kontext मॉडल लाइनअप

  • FLUX.1 Kontext [pro]
    • तेज iterative एडिटिंग और जनरेशन के लिए विशेष रूप से तैयार फ्लैगशिप मॉडल
    • टेक्स्ट और रेफरेंस इमेज को साथ में लेकर, टार्गेट एरिया एडिटिंग और जटिल दृश्य परिवर्तन को तेज और कंसिस्टेंट तरीके से पूरा करता है
  • FLUX.1 Kontext [max]
    • प्रायोगिक सर्वोच्च-स्पेक मॉडल, जिसमें प्रॉम्प्ट समझ, typography, और हाई-स्पीड कंसिस्टेंट एडिटिंग क्षमता बेहतर की गई है
  • FLUX.1 Kontext [dev]
    • रिसर्च और customization उद्देश्यों के लिए हल्का (12B) मॉडल, जिसे private beta के रूप में जारी किया गया है
    • सार्वजनिक उपलब्धता के समय इसे FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace जैसे प्रमुख AI infrastructure partners के जरिए उपलब्ध कराया जाएगा

समर्थन और एक्सेस

  • FLUX.1 Kontext सीरीज़ को KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI जैसी विभिन्न सेवाओं और FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg जैसे infrastructure प्लेटफ़ॉर्म पर इस्तेमाल किया जा सकता है
  • रीयल-टाइम अनुभव और डेमो के लिए FLUX Playground(https://playground.bfl.ai/) के जरिए, बिना किसी अलग integration के आसानी से मॉडल का प्रदर्शन परखा जा सकता है और परिणाम देखे जा सकते हैं

प्रदर्शन मूल्यांकन

  • स्व-निर्मित बेंचमार्क KontextBench में 6 तरह के इमेज जनरेशन और एडिटिंग कार्यों पर SOTA मॉडलों के साथ तुलना की गई
  • टेक्स्ट एडिटिंग और कैरक्टर प्रिज़र्वेशन में उद्योग-स्तर के शीर्ष स्कोर दर्ज किए गए
  • inference speed ने भी मौजूदा शीर्ष प्रदर्शन वाले मॉडलों की तुलना में बहुत कम latency हासिल की
  • सौंदर्य गुणवत्ता, प्रॉम्प्ट समझ, typography, realism आदि कई मानकों पर भी प्रतिस्पर्धी क्षमता साबित की

सीमाएँ और आगे की चुनौतियाँ

  • मल्टी-स्टेप (6 बार से अधिक) दोहराव वाली एडिटिंग में विज़ुअल नॉइज़ (artifact) उत्पन्न हो सकता है, जिससे इमेज क्वालिटी घट सकती है
  • कभी-कभी यह किसी खास प्रॉम्प्ट के विस्तृत निर्देशों का पूरी तरह सही पालन नहीं कर पाता
  • world knowledge और context understanding की सीमाओं के कारण संदर्भ की दृष्टि से गलत इमेज जनरेट हो सकती हैं
  • मॉडल को हल्का करने और distillation प्रक्रिया के दौरान इमेज क्वालिटी कम हो सकती है

1 टिप्पणियां

 
GN⁺ 2025-05-30
Hacker News की राय
  • मैंने खुद इसे इस्तेमाल करके एक मज़ेदार "context slip" अनुभव किया। संबंधित इमेज मैंने एक prompt से ऐसी इमेज बनाई जिसमें एक spaceship किसी दूरस्थ ग्रह पर उतर रहा था, और फिर एडिट में कहा, "spaceship को और colorful बनाओ और इमेज में बड़ा दिखाओ।" लेकिन नतीजे में spaceship एक container ship में बदल गया। चैट हिस्ट्री मौजूद थी, इसलिए उसे समझना चाहिए था कि मैं spaceship चाहता हूँ, लेकिन इसने अहम context मिस कर दिया और अजीब परिणाम दे दिया।

  • मैं Replicate के FLUX Kontext Pro endpoint पर खुद टेस्ट कर रहा हूँ। Replicate पर FLUX Kontext के अलग-अलग image editing use cases दिखाने वाला एक ऐप भी है: FLUX Kontext Apps। image quality साधारण image-to-image generation के मामले में GPT-4o image generation के स्तर जैसी लगती है। generation speed भी करीब 4 सेकंड है, जो काफ़ी तेज़ है। prompt engineering उदाहरणों के बाहर थोड़ी मुश्किल महसूस होती है, लेकिन लगता है समय के साथ बेहतर होगी। style change या detail-level requests लागू तो हो जाते हैं, लेकिन जितना ज़्यादा specific निर्देश दो, उतनी ही यह detailed requirements को ignore करने की प्रवृत्ति दिखाता है।

    • अगर देखें कि यह original attributes कितने अच्छे से preserve करता है, तो FLUX मॉडल 4o से ज़्यादा सटीक लगता है। अगर किसी मौजूदा 3D animal character में सिर्फ lighting बदलने को कहो, तो 4o character का चेहरा बिगाड़ देता है और body या details भी बदल देता है, जबकि FLUX pose या lighting काफ़ी बदलने पर भी visible form को लगभग पूरी तरह एक जैसा रखता है।
    • image-to-image experiments में यह GPT-4o से ज़्यादा प्रभावशाली है। 4o sepia tone पर बहुत अटका रहता है, और बार-बार edits करने पर तो और भी साफ़ दिखता है कि आउटपुट 4o का है। इसके मुकाबले FLUX.1 Kontext Max कहीं ज़्यादा व्यापक और विविध color expression देता है, और छोटे-छोटे details भी पकड़ लेता है जिन्हें 4o मिस कर सकता है। सिर्फ prompt से नई इमेज generate करना मैंने अभी तक टेस्ट नहीं किया, लेकिन prompt के ज़रिए existing image edit करने में FLUX कहीं बेहतर लगता है।
    • मुझे यह बहुत पसंद है कि Replicate हमेशा नए models तुरंत उपलब्ध करा देता है। इतनी तेज़ी से बदलते AI दौर में नए research-version models का तुरंत API के रूप में deploy होना और production scale पर इस्तेमाल हो पाना शानदार है। लगता है Replicate जैसे deployers इन models की रिलीज़ का impact कई गुना बढ़ा देते हैं।
    • करीब 4 सेकंड लगते हैं, यह किस GPU और VRAM के हिसाब से है? क्या आप Huggingface UI की बात कर रहे हैं?
  • कुछ samples ऐसे लगते हैं जैसे सिर्फ बहुत अच्छे results चुनकर दिखाए गए हों। क्या किसी ने “Kontext Apps” का professional headshot ऐप इस्तेमाल किया है? Kontext Apps लिंक मैंने अपनी कई तस्वीरें डालीं, लेकिन हर बार पूरी तरह अलग इंसान बन गया। अंतिम headshot result प्रोफेशनल तो ज़रूर लगता है।

    • मैंने flux playground में एक थकी हुई gym selfie पर headshot prompt चलाया, और इसने वही expression, पसीना, skin tone वगैरह जैसे मेरे ज़्यादातर features बनाए रखे। जैसे बस background बदला हो। फिर जब मैंने इसे बढ़ाकर कहा, "इसे social media के लिए अच्छा headshot बना दो, smile, अच्छी posture और कपड़े, बिना पसीने की साफ़ skin वगैरह," तो बस कपड़े बदल गए और एक अजीब सी smile जुड़ गई। ऐसे images में आम तौर पर लगभग यही तरह का result मिलता है।
    • क्या input और output images का aspect ratio एक जैसा था? लगता है ratio जबरन बदलने पर अजीब behavior आता है।
    • चेहरा जैसी identity preserve करना अभी तक किसी ने पूरी तरह solve नहीं किया है। हाथों की तरह, यह भी एक वैज्ञानिक चुनौती है।
  • मैं सोच रहा हूँ कि FLUX Kontext मॉडल को अपनी GenAI image comparison site में जोड़ूँ या नहीं। Max version को prompt fidelity में लगभग दोगुना score मिलता है, फिर भी यह OpenAI के gpt-image-1 से काफ़ी पीछे है (image quality को छोड़कर)। leaderboard में gpt-image-1 पहले स्थान पर है। Flux 1.D को मैं local GenAI capability के baseline के लिए बनाए हुए हूँ। comparison site मैंने हाल ही में Hunyuan का Image 2.0 मॉडल भी जोड़ा है, लेकिन real-time मॉडल होने की वजह से इसका score कम आता है। संदर्भ के लिए, Black Forest Labs का यह मॉडल text-to-image से ज़्यादा existing images के iterative editing और revision पर केंद्रित लगता है।

    • कृपया “Flux 1.1 Pro Ultra” भी site में जोड़ें। कहा जाता है कि इस series में वही सबसे ताकतवर है, और prompt fidelity भी Flux Dev से कहीं बेहतर है। तब शायद इसे सबसे अच्छे open source models में से एक के रूप में fairly compare किया जा सकेगा। site खुद भी मज़ेदार है और prompts भी दिलचस्प हैं।
    • मेरा सुझाव: इस तरह के scene prompts को पुराने किसी भी मॉडल ने कभी सही तरह से नहीं किया। हाल के समय में शायद इसमें काफ़ी सुधार हुआ हो…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      इतना data होने के बावजूद results इतने खराब क्यों हैं, यह हैरान करता है। यह काफ़ी iconic scene है।
    • मैंने site में जोड़ने का अनुरोध किया है, और मैं इसे ध्यान से देख रहा हूँ।
  • क्या input image सिर्फ एक तक सीमित है? मैं कई images देकर ऐसे composite prompts आज़माना चाहता हूँ जैसे "A image की item को B image में रखो" या "A character को B landscape में डाल दो।"

    • experimental “multi” mode में कई images input की जा सकती हैं।
    • Fal पर multi-image interface आज़मा सकते हैं, और शायद Replicate पर भी हो (मैंने verify नहीं किया)। इस मॉडल की performance कमाल की है। gpt-image-1 से नीचे है, लेकिन सच में बहुत करीब है। मुझे लगता है image और video में अब monopoly wall टूट जाएगी। पहले चिंता थी कि Google या OpenAI creative market पर कब्ज़ा कर लेंगे, लेकिन अब कोई भी खुद बना सकेगा।
  • जिन लोगों को technical paper में दिलचस्पी है, उनके लिए official report साझा कर रहा हूँ।

    • implementation दूसरी open models की तरह काफ़ी सीधी-सादी लगती है (HiDream-E1, ICEdit, DreamO आदि)। असली फ़र्क data curation में है, और paper में यही हिस्सा बहुत संक्षेप में बताया गया है।
    • ज़्यादातर लोगों को paper में दिलचस्पी नहीं होती; वे open-weight model डाउनलोड करके खुद चलाना चाहते हैं। ज़्यादातर लोग लेकर इस्तेमाल करते हैं, योगदान बहुत कम करते हैं।
  • अगर मैं इसे locally खुद modify या train करना चाहूँ, तो कितनी expertise चाहिए होगी? RTX 4090, Windows पर Flux 1 dev के साथ खुद LoRa tuning करने की कोशिश में दो दिन लगा चुका हूँ, लेकिन ठीक से नहीं हो रहा। कितना गहराई तक जाना पड़ता है, entry barrier कम है या नहीं, यह जानना चाहता हूँ। क्या beginner भी कर सकता है, या यह सिर्फ experienced लोगों के लिए है?

    • open source model अभी रिलीज़ नहीं हुआ है, और Flux 1 Dev पर LoRA training से यह आसान होने वाला नहीं है।
    • SimpleTuner script इस्तेमाल करने की सलाह दूँगा। Python libraries की ज़्यादा जानकारी के बिना भी मैं खुद LoRa tuning कर पाया था।
    • आम तौर पर comfyui में configured versions आसानी से मिल जाते हैं। कुछ YouTubers इन्हें patreon support rewards वगैरह के रूप में भी बाँटते हैं।
    • RTX 4090 + Windows पर दिक्कत आना शायद Windows OS की वजह से है। असली performance Linux पर नज़र आती है।
  • मुझे remove from face वाला उदाहरण ठीक से समझ नहीं आया। अगर दूसरी face photo नहीं है, तो क्या आखिर में यह सिर्फ कोई stereotypical image इस्तेमाल नहीं कर रहा?

    • यह वास्तव में कुछ restore नहीं कर रहा, बस पूरी तरह generated image है। वहाँ कोई असली चेहरा है ही नहीं।
    • उदाहरण को ध्यान से देखें तो जब कोई specific object चेहरे को आंशिक रूप से ढकता है, मॉडल inference से उसे restore करने की कोशिश कर सकता है।
    • यह इस पर निर्भर करता है कि base model किस stage पर है; कुछ identity models सिर्फ partial geometry से भी चेहरा काफ़ी बारीकी से interpolate कर सकते हैं।
    • पहले उदाहरण का slideshow ही bugged लगता है। snowflakes चेहरे का ज़्यादातर हिस्सा ढक रहे हैं।
    • असली photos इस्तेमाल करने पर मॉडल अक्सर चेहरा बदल देता है, इसलिए शायद वे उदाहरण के लिए ऐसा photo चुनते हैं जिसमें चेहरा दिखता ही न हो।
  • किसी ने पूछा कि क्या यह chess images generate कर सकता है। chess AI prediction link

  • एक टिप्पणी में अंदाज़ा लगाया गया कि open developer version कब आएगा—एक हफ़्ते के भीतर, या एक-दो महीने और लगेंगे?