- कई image generation AI models को एक ही prompt पर टेस्ट करके सटीकता, रचनात्मकता और consistency का आकलन करने वाला एक प्रयोगात्मक प्रोजेक्ट
- OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 सहित कुल 14 मॉडल शामिल हुए
- सभी मॉडलों ने inpainting या editing features के बिना, केवल दिए गए विवरण के आधार पर इमेज बनाई
- हर टेस्ट में स्पष्ट न्यूनतम pass criteria रखा गया, और visual elements की पूर्ति के आधार पर success rate की गणना की गई
- नतीजे मॉडलों के बीच performance gap को दिखाते हैं, और यह भी कि जटिल concepts को समझना या गणितीय संरचनाएं बनाना अब भी कठिन है
प्रयोग का अवलोकन
- यह सख्त नियमों पर आधारित एक तुलनात्मक benchmark experiment है, जिसमें हर मॉडल की शुद्ध generation क्षमता का मूल्यांकन किया गया
- inpainting, remix, बाद के correction instructions जैसी सभी सुविधाएं प्रतिबंधित थीं
- हर मॉडल को प्रति prompt केवल कुछ दर्जन attempts की अनुमति थी
- मूल्यांकन का केंद्र सटीक visual conditions को पूरा करना था
मुख्य टेस्ट परिणाम
- The Prussian Ring Toss
- Prussian सैनिक एक-दूसरे के spike helmets पर ring फेंक रहे हैं
- 6 में से 5 मॉडलों ने शर्तें पूरी कीं, यह सबसे ऊंची success rate थी
- Nine-Pointed Star
- 9 नुकीले बिंदुओं वाला तारा सही ढंग से बनाना था
- अधिकांश मॉडल सम-आकृति की ओर सिमट गए और असफल रहे, केवल 3 सफल हुए
- Spheron
- Alexander the Great को ‘Hippity Hop’ खिलौने पर सवार होकर युद्ध करते दिखाने वाली oil painting शैली की छवि
- ऐतिहासिक संदर्भ और आधुनिक object को जोड़ने की क्षमता का मूल्यांकन, केवल 4 मॉडल सफल हुए
- Cubed⁵
- लाल–नीला–हरा–बैंगनी–पीला क्रम में 5 पारदर्शी glass cubes को लंबवत ढेर करने का दृश्य
- 5 मॉडलों ने इसे सही ढंग से पुन:निर्मित किया, vertical aspect ratio का परिणाम की गुणवत्ता पर बड़ा प्रभाव पड़ा
- Cephalopodic Puppet Show
- octopus की 8 भुजाओं में से हर एक पर sock puppet चढ़ा हुआ दृश्य
- concept understanding की मांग करने वाला टेस्ट, जिसमें केवल आधे मॉडल शर्तें पूरी कर पाए
अतिरिक्त टेस्ट उदाहरण
- Quantum Entangled Einstein: Einstein और quantum mechanics से जुड़ा आइडिया बल्ब चित्रण → 3/6 सफल
- The Yarrctic Circle: बर्फ की कृत्रिम टांग लगाए Arctic pirate की इमेज → 6/6 सभी सफल
- The Labyrinth: प्रवेश, निकास और मार्ग स्पष्ट वाला 2D maze बनाना → 1/6 सफल
- A Dicey Situation: 20-पक्षीय पासे (D20) पर केवल अभाज्य संख्याओं वाले फलक दिखाना → 0/6 सभी असफल
विश्लेषण और संकेत
- साधारण visual style की तुलना में तार्किक संरचना और नियम-आधारित चित्रण में गलतियां अधिक बार हुईं
- खासकर text, numbers, symmetric structures, color order जैसी सटीक शर्तों वाले prompts में failure rate अधिक था
- इसके उलट भावनात्मक या कल्पनाशील narrative prompts में अपेक्षाकृत अधिक consistency दिखाई दी
- कुल मिलाकर, GenAI models अब भी जटिल अवधारणाओं की समझ और संरचनात्मक पुनरुत्पादन की सीमाएं दिखाते हैं
सारांश
- यह प्रयोग text-to-image models के बीच ‘वास्तविक समझ’ को परखने की एक दिलचस्प कोशिश है
- Midjourney और OpenAI 4o जैसे नवीनतम मॉडल भी कुछ तार्किक दृश्यों में पूरी तरह विफल रहे
- नतीजे दिखाते हैं कि “text को समझना” और “उसके अर्थ को सटीक रूप से visualise करना” दो अलग समस्याएं हैं
- आगे मॉडल विकास की एक प्रमुख चुनौती भाषाई संदर्भ और visual structure के बीच बेहतर सामंजस्य लगती है
1 टिप्पणियां
Hacker News राय
यहाँ तक कि कानूनी कामों को भी “अनुमति नहीं है” कहकर रोकना ऐसा लगता है जैसे 1964 की सेंसरशिप को कोई कॉरपोरेशन लागू कर रहा हो
GPT-5 तो हर बातचीत की शुरुआत “अच्छा सवाल है”, “बहुत बढ़िया अवलोकन है” जैसी चापलूसी भरी पंक्तियों से करता है, जो और भी ज़्यादा असहनीय है
यूज़र preference डेटा को RLHF से सिखाने पर मॉडल में चापलूसी की बीमारी जैसा साइड इफेक्ट आ जाता है
अभी बड़े LLM लगभग सभी ऐसे ही हैं, लेकिन फिर भी मुझे लगता है कि वे GPT-4o से बेहतर हैं
ChatGPT एक enterprise प्रोडक्ट है, इसलिए अगर वह हिंसक या कामुक इमेज बना सके तो बड़ी कंपनियाँ उसे कभी नहीं खरीदेंगी
Fortune 500 कंपनियों में software procurement की भूमिका में काम करने के अपने अनुभव के आधार पर मैं इस पर 100% आश्वस्त हूँ
तारीख न होने से पहली नज़र में लगता है कि दोनों एक ही समय बनाए गए थे
उम्मीद है उनके तकिए के दोनों तरफ हमेशा गर्म रहें
असल में यह नई इमेज जनरेट करने का फीचर है, लेकिन इसे जैसे मौजूदा इमेज को एडिट करने के अर्थ में इस्तेमाल किया गया है
Qwen3-VL-30B-A3B जैसे multimodal मॉडल मौजूदा इमेज को अच्छी तरह एडिट कर लेते हैं। imagegpt.com भी ठीक था, लेकिन पता नहीं वह कौन-सा मॉडल इस्तेमाल करता है
वैसे Qwen3-VL इमेज generation या editing के लिए नहीं, बल्कि image reasoning मॉडल है
संभव है कि backend में Qwen-Image-Edit इस्तेमाल किया गया हो
उदाहरण के लिए “गंजे आदमी के सिर पर बाल जोड़ो” जैसा prompt देने पर नतीजा मूल तस्वीर का संशोधित रूप दिखता है
तकनीकी रूप से यह नई इमेज जनरेट करने की प्रक्रिया है, लेकिन Photoshop में Save As करने जैसी अवधारणा लगती है
GPT-4o का temperature कम होने से उसकी consistency ज़्यादा लेकिन creativity कम होती है, जबकि Midjourney ज़्यादा temperature के साथ समृद्ध बैकग्राउंड और texture बनाता है
4o का sepia tone post-processing भी हो सकता है
असल में यह काफ़ी संभव है कि अंतिम इमेज को निखारने के लिए कई चरणों वाला workflow इस्तेमाल होता हो
हाँ, LLM-आधारित मॉडल अक्सर prompt rewriting का इस्तेमाल करते हैं
DALL·E 3 का उदाहरण इस लेख में अच्छी तरह समझाया गया है
subscriber feedback का इंतज़ार है
Generative AI Review लिंक
लेकिन कई कोशिशों के बाद किसी दूसरे LLM से मूल्यांकन कराने वाली संरचना ठीक से समझ नहीं आई। लगता है उसकी अपनी accuracy सीमित होगी
यह PASS/FAIL तरीका है, जिसमें अगर मॉडल prompt के अनुसार इमेज एक बार भी जनरेट न कर पाए तो उसे विफल माना जाता है
अवधारणा कुछ ऐसी है: अगर सड़क पर किसी भी व्यक्ति को दिखाएँ, तो क्या वह prompt पहचान पाएगा? यानी एक तरह का पिक्शनरी टेस्ट
अंतिम मूल्यांकन स्पष्ट मानदंडों के आधार पर मैन्युअली तय किया जाता है
आप किसी इंसानी evaluator को एक डिब्बे में बंद करके 7600 नतीजों का मूल्यांकन नहीं करवा सकते
बेशक LLM evaluator भी परफेक्ट नहीं होते, लेकिन तुलनीयता और consistency के मामले में वे इंसानों से बेहतर हैं
और जब तक इसे optimization target नहीं बल्कि सिर्फ performance thermometer की तरह इस्तेमाल किया जाए, तब तक बड़ी समस्या नहीं है
लेकिन अगर इसे optimization target बना दिया जाए, तो GPT-5 की तरह अजीब नतीजे निकल सकते हैं