टेक्स्ट-आधारित इमेज एडिटिंग मॉडल्स के प्रदर्शन के तुलनात्मक विश्लेषण का सार

  • मुख्य बिंदु:
    • नवीनतम टेक्स्ट-आधारित इमेज एडिटिंग मॉडल्स के 7 प्रकारों की 12 तरह के एडिटिंग टास्क करने की क्षमता का मूल्यांकन किया गया।
    • Seedream 4 ने 12 में से 9 सफलताओं के साथ सबसे बेहतर प्रदर्शन दिखाया, जबकि Gemini 2.5 Flash 7 सफलताओं के साथ उसके बाद रहा।
    • मूल्यांकन सिंगल प्रॉम्प्ट (One-shot) तरीके और Non-masked एडिटिंग जैसे सख्त नियमों के तहत किया गया।
    • मॉडल्स ने spatial position swap और विशिष्ट तत्वों को चुनिंदा रूप से हटाने जैसे जटिल निर्देशों में कम सफलता दर दिखाई।

Ⅰ. परिचय

  • मूल्यांकन का उद्देश्य: टेक्स्ट निर्देश (Text-instructed) के अनुसार इमेज संशोधन पर फोकस करते हुए विभिन्न नवीनतम (SOTA) इमेज एडिटिंग मॉडल्स के प्रदर्शन का तुलनात्मक विश्लेषण किया गया।
  • मूल्यांकन के लिए मॉडल्स (7 प्रकार): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 अतिरिक्त मॉडल को सूची से बाहर रखा गया)।
  • मूल्यांकन टास्क: कुल 12 तरह के अलग-अलग कठिनाई स्तर और प्रकार के एडिटिंग प्रॉम्प्ट तथा चैलेंज प्रस्तुत किए गए।
  • प्रतियोगिता के नियम:
    • सिंगल-अटेम्प्ट सिद्धांत (Single-attempt): लगातार सुधारात्मक प्रॉम्प्ट का उपयोग करके एक ही इमेज को बार-बार एडिट करना अनुमति नहीं थी; लक्ष्य केवल एक ही प्रयास में हासिल करना था।
    • शुद्ध टेक्स्ट-आधारित निर्देश एडिटिंग (Purely text-based): इमेज एडिटिंग केवल टेक्स्ट निर्देशों के आधार पर होनी चाहिए, इसलिए img2img या inpainting के लिए manual masking जैसी सुविधाएँ अनुमति नहीं थीं।

Ⅱ. मुख्य भाग: मॉडल-वार प्रदर्शन और प्रमुख टास्क विश्लेषण

1. समग्र मॉडल सफलता दर की तुलना

  • सर्वश्रेष्ठ प्रदर्शन: Seedream 4 ने 12 टास्क में से 9 में सफलता के साथ सबसे उत्कृष्ट प्रदर्शन किया।
  • दूसरा सर्वश्रेष्ठ प्रदर्शन: Gemini 2.5 Flash ने 7 सफलताओं के साथ अगला स्थान हासिल किया।
  • मध्य स्तर: Qwen-Image-Edit ने 6 और FLUX.1 Kontext [dev] ने 5 सफलताएँ दर्ज कीं।
  • निचला स्तर: OpenAI gpt-image-1 केवल 4 और OmniGen2 सिर्फ 1 सफलता तक सीमित रहा।

2. विशिष्ट एडिटिंग प्रकारों पर मॉडल प्रदर्शन विश्लेषण

2.1. Spatial awareness और position adjustment टास्क: कम सफलता दर
  • 'SHRDLU' (ब्लॉक्स की स्थिति बदलना): सभी 6 मॉडल असफल रहे (0/6). अधिकांश मॉडल्स ने स्थिति बदलने के बजाय केवल ब्लॉक्स के रंग बदले; Gemini 2.5 Flash और Seedream 4 ने भी सिर्फ रंग ही बदले।
  • 'झुकी हुई Leaning Tower of Pisa को सीधा करना': 6 में से 2 सफलताएँ (2/6). इसमें बुनियादी spatial awareness की आवश्यकता थी, और बाकी परिवेश को सुरक्षित रखते हुए केवल विशेष ऑब्जेक्ट को vertical रूप से ठीक करने में कठिनाई हुई।
2.2. सूक्ष्म तत्वों के परिवर्तन और संरक्षण वाले टास्क: मिश्रित परिणाम
  • 'Jaws को Paws में बदलना आदि multi-edit': 6 में से 5 सफलताएँ (5/6). इसमें कई बदलाव एक साथ करने थे, और OmniGen2 एडिटिंग में सफल रहा लेकिन मूल की aesthetic style को बनाए रखने में असफल रहा।
  • 'दाढ़ी वाले पुरुष के सिर पर बाल जोड़ना': 6 में से 4 सफलताएँ (4/6). Gemini 2.5 Flash का परिणाम ठीक था, लेकिन बाल बहुत नुकीले दिखे; OpenAI gpt-image-1 ने पूरी इमेज को ही बदल दिया।
  • 'Hanafuda कार्ड बदलना': 6 में से 3 सफलताएँ (3/6). इसमें केवल एक विशेष कार्ड (King of Spades) को बदलते हुए दूसरे कार्ड (Ace of Spades) को वैसा ही रखना था, यानी selective editing की क्षमता की जाँच; Qwen-Image-Edit ने अनचाहे रूप से Ace of Spades भी बदल दिया।
2.3. डिटेल संरक्षण और जटिल ऑब्जेक्ट मैनिपुलेशन टास्क: सबसे बड़ी चुनौती
  • 'जिराफ़ की गर्दन की लंबाई कम करना': 6 में से 1 सफलता (1/6). अधिकांश मॉडल जिराफ़ की गर्दन छोटी करने में असफल रहे, और Qwen-Image-Edit ने तो असामान्य तरीके से पूरी गर्दन ही हटा दी।
  • 'M&M की भूरी कैंडी हटाना': 6 में से 1 सफलता (1/6). केवल एक विशेष रंग की कैंडी को चुनिंदा रूप से हटाने (या रंग बदलने) में कठिनाई हुई, और Gemini 2.5 Flash ने कैंडी की नई व्यवस्था बना दी।
  • 'पुराने साइनबोर्ड पर कंगारू को sandworm silhouette से बदलना': 6 में से 1 सफलता (1/6). मौजूदा साइनबोर्ड की खरोंच, जंग आदि पुरानी texture को सुरक्षित रखते हुए नया तत्व जोड़ने की क्षमता कमजोर रही।

Ⅲ. निष्कर्ष

  • सर्वश्रेष्ठ मॉडल्स की विशेषता: Seedream 4 और Gemini 2.5 Flash ने कुल मिलाकर अच्छा प्रदर्शन दिखाया, लेकिन जटिल और सूक्ष्म टेक्स्ट निर्देशों को पूरी तरह समझने और सही ढंग से लागू करने में अभी भी सीमाएँ हैं।
  • मुख्य असफलता प्रकार: मॉडल्स ने spatial relations की सटीक समझ और इमेज के भीतर सूक्ष्म विशिष्ट तत्वों की selective editing और preservation वाले टास्क में लगातार कम सफलता दर दर्ज की।
  • भविष्य की दिशा:
    • GPT-image-1 में अक्सर पूरी इमेज को अनजाने में बदल देने की प्रवृत्ति दिखी, इसलिए एडिटिंग क्षेत्र को localize करने की सटीकता बेहतर करनी होगी।
    • 'FLUX.1 Kontext [dev]' और 'Kontext Max' जैसे कुछ मॉडल्स में यह असामान्य परिणाम दिखा कि बड़ा मॉडल छोटे development version मॉडल से भी खराब प्रदर्शन कर रहा था; इससे training data के प्रकार (फोटो vs. illustration) का प्रदर्शन पर प्रभाव विश्लेषित करने की आवश्यकता सामने आती है।
    • जो टास्क एक ही प्रॉम्प्ट से कठिन हैं (जैसे कार्ड डिज़ाइन बदलना), उनके लिए multiple images को input के रूप में लेकर reference करने वाली परीक्षण पद्धति विकसित करने की आवश्यकता है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.