- Black Forest Labs का FLUX.1 Kontext एक नवीनतम जनरेटिव AI मॉडल है, जो टेक्स्ट और इमेज को एक साथ इनपुट लेकर संदर्भ को समझता है और मौजूदा इमेज की विशेषताओं व स्टाइल को बनाए रखते हुए तुरंत संशोधन और जनरेशन कर सकता है
- मौजूदा टेक्स्ट-टू-इमेज जनरेशन एल्गोरिद्म की तुलना में, यह टेक्स्ट·ऑब्जेक्ट कंसिस्टेंसी, लोकल एडिटिंग, स्टाइल रेफरेंस, और हाई-स्पीड रिस्पॉन्स जैसे क्षेत्रों में बेहतर प्रदर्शन दिखाता है
- उपयोगकर्ता सिर्फ टेक्स्ट इनपुट कर सकते हैं, या इमेज और टेक्स्ट को मिलाकर केवल किसी खास हिस्से को बदल सकते हैं, सिर्फ स्टाइल लागू कर सकते हैं, या मल्टी-स्टेप एडिटिंग कर सकते हैं — यानी कई तरह के इंटरैक्टिव इमेज वर्कफ़्लो संभव हैं
- FLUX.1 Kontext [pro] कई बार एडिट करने के बाद भी इमेज कंसिस्टेंसी बनाए रखता है और उद्योग-स्तरीय सर्वोच्च गति पर काम करता है
- ओपन सोर्स मॉडल का [dev] वर्ज़न हल्का 12B diffusion transformer है, जिसे रिसर्च और customization उद्देश्यों के लिए private beta के रूप में जारी किया गया है
FLUX.1 Kontext परिचय
- FLUX.1 Kontext केवल टेक्स्ट से इमेज बनाने वाले मौजूदा मॉडलों की सीमाओं से आगे बढ़कर, टेक्स्ट और इमेज को साथ में इनपुट लेकर संदर्भ-आधारित इमेज जनरेशन और एडिटिंग सक्षम करने वाला एक generative flow matching मॉडल है
- टेक्स्ट प्रॉम्प्ट और इमेज का एक साथ उपयोग करके, इमेज के विशिष्ट तत्वों को हटाया/जोड़ा/बदला जा सकता है, और स्टाइल या विशेषताओं को बरकरार रखते हुए नए दृश्य भी बनाए जा सकते हैं
मुख्य फीचर्स
- कैरक्टर कंसिस्टेंसी: एक ही व्यक्ति, ऑब्जेक्ट या स्टाइल को अलग-अलग दृश्यों और वातावरणों में भी लगातार एक जैसा बनाए रखता है
- लोकल एडिटिंग: टेक्स्ट कमांड के जरिए इमेज के सिर्फ किसी खास हिस्से को बदला जा सकता है (उदा.: चेहरे का कोई खास तत्व हटाना, सिर्फ लिखे हुए शब्द बदलना आदि)
- स्टाइल रेफरेंस: रेफरेंस इमेज की विशिष्ट स्टाइल को नए दृश्य पर लागू किया जा सकता है
- इंटरैक्टिव स्पीड: मौजूदा मॉडलों की तुलना में अधिकतम 8 गुना तेज inference speed के साथ रीयल-टाइम एडिटिंग और जनरेशन का समर्थन
टेक्स्ट-इमेज और इमेज-टू-इमेज एडिटिंग का एकीकरण
- FLUX.1 Kontext केवल एक बार की एडिटिंग तक सीमित नहीं है, बल्कि कई चरणों वाली दोहराई गई निर्देश श्रृंखला में भी इमेज क्वालिटी और विशेषताओं को बनाए रखता है
- प्रॉम्प्ट और पिछली इमेज के परिणामों का लगातार उपयोग करके, उपयोगकर्ता चरण-दर-चरण इच्छित परिणाम तक पहुंच सकते हैं
FLUX.1 Kontext मॉडल लाइनअप
- FLUX.1 Kontext [pro]
- तेज iterative एडिटिंग और जनरेशन के लिए विशेष रूप से तैयार फ्लैगशिप मॉडल
- टेक्स्ट और रेफरेंस इमेज को साथ में लेकर, टार्गेट एरिया एडिटिंग और जटिल दृश्य परिवर्तन को तेज और कंसिस्टेंट तरीके से पूरा करता है
- FLUX.1 Kontext [max]
- प्रायोगिक सर्वोच्च-स्पेक मॉडल, जिसमें प्रॉम्प्ट समझ, typography, और हाई-स्पीड कंसिस्टेंट एडिटिंग क्षमता बेहतर की गई है
- FLUX.1 Kontext [dev]
- रिसर्च और customization उद्देश्यों के लिए हल्का (12B) मॉडल, जिसे private beta के रूप में जारी किया गया है
- सार्वजनिक उपलब्धता के समय इसे FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace जैसे प्रमुख AI infrastructure partners के जरिए उपलब्ध कराया जाएगा
समर्थन और एक्सेस
- FLUX.1 Kontext सीरीज़ को KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI जैसी विभिन्न सेवाओं और FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg जैसे infrastructure प्लेटफ़ॉर्म पर इस्तेमाल किया जा सकता है
- रीयल-टाइम अनुभव और डेमो के लिए FLUX Playground(https://playground.bfl.ai/) के जरिए, बिना किसी अलग integration के आसानी से मॉडल का प्रदर्शन परखा जा सकता है और परिणाम देखे जा सकते हैं
प्रदर्शन मूल्यांकन
- स्व-निर्मित बेंचमार्क KontextBench में 6 तरह के इमेज जनरेशन और एडिटिंग कार्यों पर SOTA मॉडलों के साथ तुलना की गई
- टेक्स्ट एडिटिंग और कैरक्टर प्रिज़र्वेशन में उद्योग-स्तर के शीर्ष स्कोर दर्ज किए गए
- inference speed ने भी मौजूदा शीर्ष प्रदर्शन वाले मॉडलों की तुलना में बहुत कम latency हासिल की
- सौंदर्य गुणवत्ता, प्रॉम्प्ट समझ, typography, realism आदि कई मानकों पर भी प्रतिस्पर्धी क्षमता साबित की
सीमाएँ और आगे की चुनौतियाँ
- मल्टी-स्टेप (6 बार से अधिक) दोहराव वाली एडिटिंग में विज़ुअल नॉइज़ (artifact) उत्पन्न हो सकता है, जिससे इमेज क्वालिटी घट सकती है
- कभी-कभी यह किसी खास प्रॉम्प्ट के विस्तृत निर्देशों का पूरी तरह सही पालन नहीं कर पाता
- world knowledge और context understanding की सीमाओं के कारण संदर्भ की दृष्टि से गलत इमेज जनरेट हो सकती हैं
- मॉडल को हल्का करने और distillation प्रक्रिया के दौरान इमेज क्वालिटी कम हो सकती है
1 टिप्पणियां
Hacker News की राय
मैंने खुद इसे इस्तेमाल करके एक मज़ेदार "context slip" अनुभव किया। संबंधित इमेज मैंने एक prompt से ऐसी इमेज बनाई जिसमें एक spaceship किसी दूरस्थ ग्रह पर उतर रहा था, और फिर एडिट में कहा, "spaceship को और colorful बनाओ और इमेज में बड़ा दिखाओ।" लेकिन नतीजे में spaceship एक container ship में बदल गया। चैट हिस्ट्री मौजूद थी, इसलिए उसे समझना चाहिए था कि मैं spaceship चाहता हूँ, लेकिन इसने अहम context मिस कर दिया और अजीब परिणाम दे दिया।
मैं Replicate के FLUX Kontext Pro endpoint पर खुद टेस्ट कर रहा हूँ। Replicate पर FLUX Kontext के अलग-अलग image editing use cases दिखाने वाला एक ऐप भी है: FLUX Kontext Apps। image quality साधारण image-to-image generation के मामले में GPT-4o image generation के स्तर जैसी लगती है। generation speed भी करीब 4 सेकंड है, जो काफ़ी तेज़ है। prompt engineering उदाहरणों के बाहर थोड़ी मुश्किल महसूस होती है, लेकिन लगता है समय के साथ बेहतर होगी। style change या detail-level requests लागू तो हो जाते हैं, लेकिन जितना ज़्यादा specific निर्देश दो, उतनी ही यह detailed requirements को ignore करने की प्रवृत्ति दिखाता है।
कुछ samples ऐसे लगते हैं जैसे सिर्फ बहुत अच्छे results चुनकर दिखाए गए हों। क्या किसी ने “Kontext Apps” का professional headshot ऐप इस्तेमाल किया है? Kontext Apps लिंक मैंने अपनी कई तस्वीरें डालीं, लेकिन हर बार पूरी तरह अलग इंसान बन गया। अंतिम headshot result प्रोफेशनल तो ज़रूर लगता है।
मैं सोच रहा हूँ कि FLUX Kontext मॉडल को अपनी GenAI image comparison site में जोड़ूँ या नहीं। Max version को prompt fidelity में लगभग दोगुना score मिलता है, फिर भी यह OpenAI के gpt-image-1 से काफ़ी पीछे है (image quality को छोड़कर)। leaderboard में gpt-image-1 पहले स्थान पर है। Flux 1.D को मैं local GenAI capability के baseline के लिए बनाए हुए हूँ। comparison site मैंने हाल ही में Hunyuan का Image 2.0 मॉडल भी जोड़ा है, लेकिन real-time मॉडल होने की वजह से इसका score कम आता है। संदर्भ के लिए, Black Forest Labs का यह मॉडल text-to-image से ज़्यादा existing images के iterative editing और revision पर केंद्रित लगता है।
क्या input image सिर्फ एक तक सीमित है? मैं कई images देकर ऐसे composite prompts आज़माना चाहता हूँ जैसे "A image की item को B image में रखो" या "A character को B landscape में डाल दो।"
जिन लोगों को technical paper में दिलचस्पी है, उनके लिए official report साझा कर रहा हूँ।
अगर मैं इसे locally खुद modify या train करना चाहूँ, तो कितनी expertise चाहिए होगी? RTX 4090, Windows पर Flux 1 dev के साथ खुद LoRa tuning करने की कोशिश में दो दिन लगा चुका हूँ, लेकिन ठीक से नहीं हो रहा। कितना गहराई तक जाना पड़ता है, entry barrier कम है या नहीं, यह जानना चाहता हूँ। क्या beginner भी कर सकता है, या यह सिर्फ experienced लोगों के लिए है?
मुझे remove from face वाला उदाहरण ठीक से समझ नहीं आया। अगर दूसरी face photo नहीं है, तो क्या आखिर में यह सिर्फ कोई stereotypical image इस्तेमाल नहीं कर रहा?
किसी ने पूछा कि क्या यह chess images generate कर सकता है। chess AI prediction link
एक टिप्पणी में अंदाज़ा लगाया गया कि open developer version कब आएगा—एक हफ़्ते के भीतर, या एक-दो महीने और लगेंगे?