- एक ही prompt के साथ 3 मॉडलों की तुलना विषय-सटीकता, style-सटीकता, coherence, और ethics के संदर्भ में
Photography: Humans
- इस समय photography के क्षेत्र में Midjourney आगे है, लेकिन Firefly 2 बहुत कम अंतर से उसके पीछे है
- अगर आप कम stylized और अधिक natural headshots चाहते हैं, तो आगे से Firefly 2 पर विचार करना बेहतर होगा
- photography उपयोग के लिए DALL-E 3 का इस्तेमाल न करना ही बेहतर है
Photography: Stylistic humans
- हाल में stylistic human images बहुत बनाई जा रही हैं
- ये prompts खास तौर पर Midjourney के लिए customize किए गए थे, इसलिए इनमें थोड़ा bias हो सकता है
- लेकिन कुछ मुख्य बिंदु:
- Midjourney तब सबसे अच्छा काम करता है जब उसे अधिक complex prompts दिए जाएँ, और यह मजबूत coherence दिखाता है
- Midjourney medium, composition, और lighting के complex combinations बनाने में उत्कृष्ट है
- DALL-E को people of color के लिए lighting को शामिल करने में कठिनाई होती दिखती है, जिससे परिणामों की accuracy कम हो जाती है
- Firefly तब सबसे विविध results देता है जब diversity को स्पष्ट रूप से नहीं माँगा जाता
- अधिक creative photography के विकल्प के रूप में Firefly और DALL-E 3, दोनों को इच्छित स्तर की quality और coherence हासिल करने में कठिनाई हो सकती है
Photography: Objects
- मुझे लगता है कि कुल मिलाकर Midjourney सबसे realistic object coherence देता है
- Firefly और DALL-E तेजी से बराबरी कर रहे हैं, लेकिन इन मॉडलों की style preferences निस्संदेह outputs को प्रभावित करेंगी
Illustration
- illustration के मामले में तीनों ने काफ़ी प्रगति की है, लेकिन nuanced results पाने के लिए अब भी Midjourney सबसे अच्छा विकल्प है
- फिर भी, कई मॉडलों के साथ प्रयोग करना और उन्हें अपनी अलग style के अनुसार ढालना बेहतर है
Typography
- सही शब्द generate करना अभी हाल तक ही संभव हुआ है
- किए गए सभी tests में केवल DALL-E 3 ने शब्दों को पूर्ण entities के रूप में भरोसेमंद तरीके से render किया
- इस खास मामले में शब्द था "डिज़ाइन", और consistency सभी प्रयोगों में लगातार बनी रही
निष्कर्ष
- परिदृश्य निश्चित रूप से बदल रहा है, लेकिन जिन मुख्य बातों पर मैं ज़ोर देना चाहता हूँ, वे हैं:
- Adobe photography के क्षेत्र में निश्चित रूप से अंतर कम कर रहा है और एक मजबूत प्रतिस्पर्धी बनता जा रहा है
- DALL-E 3 एकमात्र generator है (Ideogram को छोड़कर) जो typography को उचित रूप से अच्छी तरह बना सकता है
- DALL-E 3 illustration बनाने में उत्कृष्ट है, और word generation क्षमता के साथ मिलकर मुझे लगता है कि scale और generalized styles के संदर्भ में इसमें "clipart image generator" बनने की क्षमता है
- यह base images या अन्य गतिविधियों के दौरान image generation (ChatGPT के माध्यम से) के लिए उपयुक्त है, लेकिन निकट भविष्य में यह अत्यधिक sophisticated design tool बनेगा, ऐसा नहीं लगता
- Midjourney सबसे realistic और coherent तस्वीरें बनाता रहता है.
- creative control के मामले में Midjourney का कोई मुकाबला नहीं
2 टिप्पणियां
StableDiffusion को क्यों हटा दिया?
क्या Midjourney की वजह से?
जब मैंने DALL-E 3 इस्तेमाल किया, तो टेक्स्ट को इतनी स्पष्टता से दिखाना मुझे बहुत हैरान करने वाला लगा।
लेकिन फिलहाल क्वालिटी के मामले में लगता है कि Midjourney अभी भी सबसे बेहतर है।