1 पॉइंट द्वारा GN⁺ 2025-10-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कई image generation AI models को एक ही prompt पर टेस्ट करके सटीकता, रचनात्मकता और consistency का आकलन करने वाला एक प्रयोगात्मक प्रोजेक्ट
  • OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 सहित कुल 14 मॉडल शामिल हुए
  • सभी मॉडलों ने inpainting या editing features के बिना, केवल दिए गए विवरण के आधार पर इमेज बनाई
  • हर टेस्ट में स्पष्ट न्यूनतम pass criteria रखा गया, और visual elements की पूर्ति के आधार पर success rate की गणना की गई
  • नतीजे मॉडलों के बीच performance gap को दिखाते हैं, और यह भी कि जटिल concepts को समझना या गणितीय संरचनाएं बनाना अब भी कठिन है

प्रयोग का अवलोकन

  • यह सख्त नियमों पर आधारित एक तुलनात्मक benchmark experiment है, जिसमें हर मॉडल की शुद्ध generation क्षमता का मूल्यांकन किया गया
    • inpainting, remix, बाद के correction instructions जैसी सभी सुविधाएं प्रतिबंधित थीं
    • हर मॉडल को प्रति prompt केवल कुछ दर्जन attempts की अनुमति थी
  • मूल्यांकन का केंद्र सटीक visual conditions को पूरा करना था

मुख्य टेस्ट परिणाम

  • The Prussian Ring Toss
    • Prussian सैनिक एक-दूसरे के spike helmets पर ring फेंक रहे हैं
    • 6 में से 5 मॉडलों ने शर्तें पूरी कीं, यह सबसे ऊंची success rate थी
  • Nine-Pointed Star
    • 9 नुकीले बिंदुओं वाला तारा सही ढंग से बनाना था
    • अधिकांश मॉडल सम-आकृति की ओर सिमट गए और असफल रहे, केवल 3 सफल हुए
  • Spheron
    • Alexander the Great को ‘Hippity Hop’ खिलौने पर सवार होकर युद्ध करते दिखाने वाली oil painting शैली की छवि
    • ऐतिहासिक संदर्भ और आधुनिक object को जोड़ने की क्षमता का मूल्यांकन, केवल 4 मॉडल सफल हुए
  • Cubed⁵
    • लाल–नीला–हरा–बैंगनी–पीला क्रम में 5 पारदर्शी glass cubes को लंबवत ढेर करने का दृश्य
    • 5 मॉडलों ने इसे सही ढंग से पुन:निर्मित किया, vertical aspect ratio का परिणाम की गुणवत्ता पर बड़ा प्रभाव पड़ा
  • Cephalopodic Puppet Show
    • octopus की 8 भुजाओं में से हर एक पर sock puppet चढ़ा हुआ दृश्य
    • concept understanding की मांग करने वाला टेस्ट, जिसमें केवल आधे मॉडल शर्तें पूरी कर पाए

अतिरिक्त टेस्ट उदाहरण

  • Quantum Entangled Einstein: Einstein और quantum mechanics से जुड़ा आइडिया बल्ब चित्रण → 3/6 सफल
  • The Yarrctic Circle: बर्फ की कृत्रिम टांग लगाए Arctic pirate की इमेज → 6/6 सभी सफल
  • The Labyrinth: प्रवेश, निकास और मार्ग स्पष्ट वाला 2D maze बनाना → 1/6 सफल
  • A Dicey Situation: 20-पक्षीय पासे (D20) पर केवल अभाज्य संख्याओं वाले फलक दिखाना → 0/6 सभी असफल

विश्लेषण और संकेत

  • साधारण visual style की तुलना में तार्किक संरचना और नियम-आधारित चित्रण में गलतियां अधिक बार हुईं
  • खासकर text, numbers, symmetric structures, color order जैसी सटीक शर्तों वाले prompts में failure rate अधिक था
  • इसके उलट भावनात्मक या कल्पनाशील narrative prompts में अपेक्षाकृत अधिक consistency दिखाई दी
  • कुल मिलाकर, GenAI models अब भी जटिल अवधारणाओं की समझ और संरचनात्मक पुनरुत्पादन की सीमाएं दिखाते हैं

सारांश

  • यह प्रयोग text-to-image models के बीच ‘वास्तविक समझ’ को परखने की एक दिलचस्प कोशिश है
  • Midjourney और OpenAI 4o जैसे नवीनतम मॉडल भी कुछ तार्किक दृश्यों में पूरी तरह विफल रहे
  • नतीजे दिखाते हैं कि “text को समझना” और “उसके अर्थ को सटीक रूप से visualise करना” दो अलग समस्याएं हैं
  • आगे मॉडल विकास की एक प्रमुख चुनौती भाषाई संदर्भ और visual structure के बीच बेहतर सामंजस्य लगती है

1 टिप्पणियां

 
GN⁺ 2025-10-28
Hacker News राय
  • GPT-4o इस्तेमाल करते समय यह बात बेहद चिढ़ाने वाली लगती है कि कंपनी नैतिक निर्णायक की तरह बर्ताव करती है और यूज़र की रिक्वेस्ट अक्सर ठुकरा देती है
    यहाँ तक कि कानूनी कामों को भी “अनुमति नहीं है” कहकर रोकना ऐसा लगता है जैसे 1964 की सेंसरशिप को कोई कॉरपोरेशन लागू कर रहा हो
    GPT-5 तो हर बातचीत की शुरुआत “अच्छा सवाल है”, “बहुत बढ़िया अवलोकन है” जैसी चापलूसी भरी पंक्तियों से करता है, जो और भी ज़्यादा असहनीय है
    • लोगों ने Altman की ChatGPT में NSFW की अनुमति देने पर आलोचना की, लेकिन मुझे लगता है कि यह कॉरपोरेट सेंसरशिप में ढील की सही दिशा है
      यूज़र preference डेटा को RLHF से सिखाने पर मॉडल में चापलूसी की बीमारी जैसा साइड इफेक्ट आ जाता है
      अभी बड़े LLM लगभग सभी ऐसे ही हैं, लेकिन फिर भी मुझे लगता है कि वे GPT-4o से बेहतर हैं
    • चीनी मॉडल इस्तेमाल करके देखें तो वे कहीं ज़्यादा कम प्रतिबंधित लगते हैं, हालाँकि कुछ अपवाद ज़रूर हैं
    • मैंने कभी कोई enterprise software नहीं देखा जो NSFW की अनुमति देता हो
      ChatGPT एक enterprise प्रोडक्ट है, इसलिए अगर वह हिंसक या कामुक इमेज बना सके तो बड़ी कंपनियाँ उसे कभी नहीं खरीदेंगी
      Fortune 500 कंपनियों में software procurement की भूमिका में काम करने के अपने अनुभव के आधार पर मैं इस पर 100% आश्वस्त हूँ
  • लेख में तारीख नहीं थी, यह अजीब लगा, लेकिन Wayback देखने पर पता चला कि text-to-image पेज अप्रैल में और image editing पेज सितंबर में जोड़ा गया था
    तारीख न होने से पहली नज़र में लगता है कि दोनों एक ही समय बनाए गए थे
    • शायद SEO वालों ने समझाया होगा कि बिना तारीख वाले लेख सर्च इंजन में बेहतर चलते हैं
      उम्मीद है उनके तकिए के दोनों तरफ हमेशा गर्म रहें
    • सही है, यह काफ़ी पुरानी चीज़ है। आजकल AI में एक हफ़्ता भी बीत जाए तो चीज़ें पुरानी हो जाती हैं
  • शुरुआत में “image editing” शब्द थोड़ा भ्रमित करने वाला लगा
    असल में यह नई इमेज जनरेट करने का फीचर है, लेकिन इसे जैसे मौजूदा इमेज को एडिट करने के अर्थ में इस्तेमाल किया गया है
    Qwen3-VL-30B-A3B जैसे multimodal मॉडल मौजूदा इमेज को अच्छी तरह एडिट कर लेते हैं। imagegpt.com भी ठीक था, लेकिन पता नहीं वह कौन-सा मॉडल इस्तेमाल करता है
    • ऐसा फ़ीडबैक कई बार मिला है, इसलिए लगा कि ऊपर की navigation bar को और ज़्यादा स्पष्ट बनाना चाहिए
      वैसे Qwen3-VL इमेज generation या editing के लिए नहीं, बल्कि image reasoning मॉडल है
      संभव है कि backend में Qwen-Image-Edit इस्तेमाल किया गया हो
    • जिस साइट को मैंने देखा, उसमें यह मौजूदा इमेज को एडिट करने जैसा लगा
      उदाहरण के लिए “गंजे आदमी के सिर पर बाल जोड़ो” जैसा prompt देने पर नतीजा मूल तस्वीर का संशोधित रूप दिखता है
      तकनीकी रूप से यह नई इमेज जनरेट करने की प्रक्रिया है, लेकिन Photoshop में Save As करने जैसी अवधारणा लगती है
  • असली लिंक https://genai-showdown.specr.net/image-editing है
    • हाँ, यही editing वाला लिंक है। दूसरा text-to-image के लिए है
  • मेरा अंदाज़ा है कि मॉडल अंदरूनी तौर पर कई बार इमेज जनरेट करते होंगे और सिर्फ सबसे अच्छा रिज़ल्ट दिखाते होंगे
    GPT-4o का temperature कम होने से उसकी consistency ज़्यादा लेकिन creativity कम होती है, जबकि Midjourney ज़्यादा temperature के साथ समृद्ध बैकग्राउंड और texture बनाता है
    4o का sepia tone post-processing भी हो सकता है
    असल में यह काफ़ी संभव है कि अंतिम इमेज को निखारने के लिए कई चरणों वाला workflow इस्तेमाल होता हो
    • अगर आप लोकल में खुद image मॉडल चलाकर देखें, तो पता चलता है कि ज़्यादातर hosted मॉडल कई बार जनरेट नहीं करते, बस एक बार चलाए जाते हैं
      हाँ, LLM-आधारित मॉडल अक्सर prompt rewriting का इस्तेमाल करते हैं
      DALL·E 3 का उदाहरण इस लेख में अच्छी तरह समझाया गया है
    • अगर generation attempts की संख्या और हर prompt के लिए मिले नतीजे सार्वजनिक किए जाएँ, तो वह और दिलचस्प होगा
  • “Alexander the Great on a Hippity Hop” देखकर मैंने तुरंत upvote कर दिया
    • मैं भी उस खिलौने को पूरी तरह भूल चुका था, लेकिन इसे देखकर बचपन की यादें ताज़ा हो गईं
    • फिर भी मुझे घोड़े की chimera इमेज ज़्यादा पसंद है
  • अगर आप image मॉडल की तुलना करके टेस्ट करना चाहते हैं, तो BrandImageGen.com पर इसे मुफ़्त में आज़मा सकते हैं
    subscriber feedback का इंतज़ार है
  • किसी ने पूछा कि “हरे हाथी को मत बनाओ” वाला meme कहाँ है, और GitHub चर्चा में इसका सुझाव मिला
  • कई image generation टूल्स की तुलनात्मक समीक्षा पोस्ट की गई
    Generative AI Review लिंक
  • “Editing Showdown” की वजह से मुझे पहली बार Seedream मॉडल के बारे में पता चला
    लेकिन कई कोशिशों के बाद किसी दूसरे LLM से मूल्यांकन कराने वाली संरचना ठीक से समझ नहीं आई। लगता है उसकी अपनी accuracy सीमित होगी
    • FAQ में मूल्यांकन मानदंड साफ़ लिखे हैं
      यह PASS/FAIL तरीका है, जिसमें अगर मॉडल prompt के अनुसार इमेज एक बार भी जनरेट न कर पाए तो उसे विफल माना जाता है
      अवधारणा कुछ ऐसी है: अगर सड़क पर किसी भी व्यक्ति को दिखाएँ, तो क्या वह prompt पहचान पाएगा? यानी एक तरह का पिक्शनरी टेस्ट
      अंतिम मूल्यांकन स्पष्ट मानदंडों के आधार पर मैन्युअली तय किया जाता है
    • LLM द्वारा LLM का मूल्यांकन उद्योग का मानक है
      आप किसी इंसानी evaluator को एक डिब्बे में बंद करके 7600 नतीजों का मूल्यांकन नहीं करवा सकते
      बेशक LLM evaluator भी परफेक्ट नहीं होते, लेकिन तुलनीयता और consistency के मामले में वे इंसानों से बेहतर हैं
      और जब तक इसे optimization target नहीं बल्कि सिर्फ performance thermometer की तरह इस्तेमाल किया जाए, तब तक बड़ी समस्या नहीं है
      लेकिन अगर इसे optimization target बना दिया जाए, तो GPT-5 की तरह अजीब नतीजे निकल सकते हैं