- कई Generative AI इमेज एडिटिंग टूल्स के परिणामों की तुलना करने वाले फ़ॉर्मैट का कंटेंट
- संरचना ऐसी है जिसमें हर टूल ने समान इनपुट पर जो एडिटिंग परिणाम बनाए हैं, उनका दृश्य रूप से तुलना की जाती है
- पेज पर “Loading editing comparisons...” वाक्य दिखता है, जो यह बताता है कि एडिटिंग तुलना लोड हो रही है
- शीर्षक के अलावा टूल्स के नाम, तुलना के मानदंड, परिणामों का विवरण आदि जैसी ठोस जानकारी उपलब्ध नहीं है
- कुल मिलाकर यह AI इमेज एडिटिंग परफ़ॉर्मेंस की तुलना के लिए एक इंटरफ़ेस जैसा दिखता है, लेकिन मूल पाठ में विस्तृत जानकारी नहीं है
पेज का अवलोकन
- शीर्षक “Generative AI Image Editing Showdown” है, जो कई AI इमेज एडिटिंग मॉडलों की तुलना का संकेत देता है
- मुख्य भाग में केवल “Loading editing comparisons...” वाक्य मौजूद है, इसलिए तुलना के परिणाम या विवरण शामिल नहीं हैं
- अतिरिक्त टेक्स्ट, डेटा, इमेज, टूल सूची, मूल्यांकन मानदंड आदि मूल पाठ में नहीं हैं
उपलब्ध जानकारी की सीमाएँ
- मूल पाठ में एडिटिंग परिणामों या तुलना की सामग्री के बारे में कोई ठोस विवरण नहीं है
- इसलिए तुलना का उद्देश्य, उपयोग किए गए AI मॉडल, मूल्यांकन का तरीका आदि स्पष्ट नहीं हैं
- कुल मिलाकर कंटेंट अभी लोड होने की स्थिति में दिखता है, इसलिए व्यावहारिक जानकारी उपलब्ध नहीं है
1 टिप्पणियां
Hacker News राय
सभी लोग Gemini 2.5 Flash Image / Nano Banana को कम आँक रहे हैं
यह दूसरे मॉडलों की तुलना में कहीं ज़्यादा शक्तिशाली है, जबकि प्रति इमेज कीमत वही है, और text encoder की वजह से यह कहीं अधिक जटिल और सूक्ष्म prompts को संभाल सकता है
मैंने अपने gemimg Python package से उदाहरण साझा किए हैं, और अधिक विविध मामलों वाली एक ब्लॉग पोस्ट भी तैयार कर रहा हूँ
Google के AI Studio में aspect ratio control के साथ free generation भी मिलता है
लेकिन इस टेस्ट में Seedream 4.0 का जीतना चौंकाने वाला था
ChatGPT के built-in feature या Ghibli style trend को छोड़ दें, तो मुझे लगता है कि यह सबसे ज़्यादा पहचाने जाने वाले image editing models में से एक है
मेरे उपयोग में यह बड़ी समस्या नहीं है, लेकिन जिन लोगों के लिए color consistency महत्वपूर्ण है, उनके लिए Nano Banana बेहतर हो सकता है
request copyright की सीमा पर भी नहीं थी, फिर भी ऐसी errors बार-बार आती हैं
फिर भी, जब यह काम करता है तो नतीजे बेहद प्रभावशाली होते हैं
दूसरी कोशिश में पहले image analysis से बिखरी हुई चीज़ों की सूची निकाली, फिर prompt में उन्हें हटाने को कहा, तो नतीजा कहीं बेहतर आया
आखिरकार फिर से prompt engineering की अहमियत महसूस हुई
Flux हैरान कर देने जितना अच्छा है, लेकिन ज़्यादातर लोग (मैं भी) आखिरकार ChatGPT या Gemini जैसे परिचित models को ही default के रूप में इस्तेमाल करते हैं
इस तरह की तुलना benchmark charts से कहीं ज़्यादा व्यावहारिक है
मैं Nano Banana अक्सर इस्तेमाल करता हूँ, लेकिन exterior architecture या landscaping edits में यह कमज़ोर है
sidewalk, drainage channel, color matching जैसी चीज़ें लगभग असंभव हैं
Nano Banana भी boundaries को सही तरह handle नहीं कर पाता, इसलिए फोटो misaligned हो जाती है
2022 में मानक तय करने वाले नज़रिये से देखें, तो आज के demos SD1·2·3 दौर की तुलना में अविश्वसनीय रूप से चौंकाने वाले हैं
अब लगता है कि models वास्तव में prompts और images को समझ रहे हैं
engineering के लगातार आगे बढ़ने के साथ creativity विस्फोटक रूप से फैलने का समय आ गया है
prompts या कोशिशों की संख्या बदलकर, और सिर्फ़ सबसे पसंदीदा नतीजे दिखाने का तरीका टेस्ट की objectivity को कमज़ोर करता है
सभी models के लिए एक जैसे prompts और seeds के साथ 5 generations जैसी एकसमान शर्तें ज़रूरी हैं
उदाहरण के लिए Gemini 2.5 Flash को “Girl with Pearl Earring” टेस्ट में ज़रूरत से ज़्यादा छूट मिली,
जबकि OpenAI gpt-image-1 ने कम कोशिशों में कहीं बेहतर नतीजे दिए, फिर भी उसे fail मान लिया गया
मैंने Replicate ब्लॉग पर अपनी पोस्ट में कई models की सीधे तुलना की थी
उनमें Qwen Image Edit सबसे सस्ता और तेज़ था, और ज़्यादातर editing tasks को अच्छी तरह संभालता था
अगर मुझे image editing app बनानी हो, तो शायद मैं यही model चुनूँगा
तुलना अपने-आप में दिलचस्प थी, लेकिन आख़िर का जिराफ़ इमेज बस शरीर मोड़ता हुआ दिखा, छोटा नहीं हुआ
फिर भी मैं अक्सर Gemini के नतीजे चुनता रहा, और pass/fail की जगह 10-point scale rating होती तो अच्छा रहता
अगर ऐसी कोई प्रदर्शनी सच में हो, तो मैं ज़रूर देखना चाहूँगा
हाल के दिनों में मैं लगभग AI image generation करता ही नहीं
लगभग डेढ़ साल पहले local में खुद models चलाना ट्रेंड था, लेकिन अब ज़्यादातर चीज़ें cloud-based हो गई हैं
फिर भी real photo editing में अब भी कहीं-न-कहीं अप्राकृतिक texture महसूस होता है
उदाहरण के लिए, इंसानों के बाल बहुत ज़्यादा चमकदार लगते हैं, या पेड़ plastic जैसे दिखते हैं
Flux Kontext को local में चलाया जा सकता है, लेकिन quantized model के साथ धीरे generation करनी पड़ती है, इसलिए यह inefficient है
ऊपर से ChatGPT में free में images बन जाती हैं, इसलिए local पर अड़े रहने की वजह भी कम हो गई है
hair test में सिर्फ़ Gemini 2.5 Flash ने color और texture ठीक से मिलाए,
Seedream 4 में overall color correction बदल जाने की समस्या थी, इसलिए वह पसंद नहीं आया
मुझे लगता है Reve को भी टेस्ट में शामिल करना चाहिए
उसने character के हाथ में पकड़ी वस्तु हटाई, नज़र को camera की तरफ़ मोड़ा, और pose भी स्वाभाविक ढंग से adjust किया
इतना ही नहीं, चारों results इतने अच्छे थे कि सभी usable थे
उसके बाद Reve के model परिचय लेख को पढ़कर मैंने तुरंत sign up करने का फ़ैसला किया
कोशिश अच्छी थी, लेकिन “चित्र में टॉवर दाईं ओर झुका हुआ है” जैसे गलत prompt मॉडल को उल्टा और ज़्यादा झुका देते हैं
model के हिसाब से prompts बदले जाते हैं, इसलिए कोशिशों की संख्या अलग थी
कुल मिलाकर यह मज़ेदार टेस्ट था
prompt के perfect न होने की आलोचना है, लेकिन यही इसे और यथार्थवादी बनाता है, क्योंकि यह वैसा स्तर है जैसा आम उपयोगकर्ता लिख सकता है
FAQ में समझाया गया है कि model किसी खास शब्द में अटक न जाए, इसलिए prompt के कई versions आज़माए जाते हैं
उदाहरण के लिए “Turn on the lights” जैसे imperative sentences सिर्फ़ साधारण निर्देश नहीं हैं,
बल्कि multimodal LLM की समझ को परखने वाले prompts हैं
ऐसे वाक्य SDXL जैसे पारंपरिक models में कभी काम नहीं करेंगे