Generative AI इमेज एडिटिंग मुकाबला

(genai-showdown.specr.net)

1 पॉइंट द्वारा GN⁺ 2025-10-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

कई Generative AI इमेज एडिटिंग टूल्स के परिणामों की तुलना करने वाले फ़ॉर्मैट का कंटेंट
संरचना ऐसी है जिसमें हर टूल ने समान इनपुट पर जो एडिटिंग परिणाम बनाए हैं, उनका दृश्य रूप से तुलना की जाती है
पेज पर “Loading editing comparisons...” वाक्य दिखता है, जो यह बताता है कि एडिटिंग तुलना लोड हो रही है
शीर्षक के अलावा टूल्स के नाम, तुलना के मानदंड, परिणामों का विवरण आदि जैसी ठोस जानकारी उपलब्ध नहीं है
कुल मिलाकर यह AI इमेज एडिटिंग परफ़ॉर्मेंस की तुलना के लिए एक इंटरफ़ेस जैसा दिखता है, लेकिन मूल पाठ में विस्तृत जानकारी नहीं है

पेज का अवलोकन

शीर्षक “Generative AI Image Editing Showdown” है, जो कई AI इमेज एडिटिंग मॉडलों की तुलना का संकेत देता है
मुख्य भाग में केवल “Loading editing comparisons...” वाक्य मौजूद है, इसलिए तुलना के परिणाम या विवरण शामिल नहीं हैं
अतिरिक्त टेक्स्ट, डेटा, इमेज, टूल सूची, मूल्यांकन मानदंड आदि मूल पाठ में नहीं हैं

उपलब्ध जानकारी की सीमाएँ

मूल पाठ में एडिटिंग परिणामों या तुलना की सामग्री के बारे में कोई ठोस विवरण नहीं है
इसलिए तुलना का उद्देश्य, उपयोग किए गए AI मॉडल, मूल्यांकन का तरीका आदि स्पष्ट नहीं हैं
कुल मिलाकर कंटेंट अभी लोड होने की स्थिति में दिखता है, इसलिए व्यावहारिक जानकारी उपलब्ध नहीं है

1 टिप्पणियां

GN⁺ 2025-10-30

Hacker News राय

सभी लोग Gemini 2.5 Flash Image / Nano Banana को कम आँक रहे हैं
यह दूसरे मॉडलों की तुलना में कहीं ज़्यादा शक्तिशाली है, जबकि प्रति इमेज कीमत वही है, और text encoder की वजह से यह कहीं अधिक जटिल और सूक्ष्म prompts को संभाल सकता है
मैंने अपने gemimg Python package से उदाहरण साझा किए हैं, और अधिक विविध मामलों वाली एक ब्लॉग पोस्ट भी तैयार कर रहा हूँ
Google के AI Studio में aspect ratio control के साथ free generation भी मिलता है
लेकिन इस टेस्ट में Seedream 4.0 का जीतना चौंकाने वाला था
- सच कहें तो Nano Banana लॉन्च के समय काफ़ी viral हुआ था
  ChatGPT के built-in feature या Ghibli style trend को छोड़ दें, तो मुझे लगता है कि यह सबसे ज़्यादा पहचाने जाने वाले image editing models में से एक है
- prompt fidelity के मामले में Seedream आगे था, लेकिन इसमें हल्के color gradient बदलाव लाने की प्रवृत्ति है
  मेरे उपयोग में यह बड़ी समस्या नहीं है, लेकिन जिन लोगों के लिए color consistency महत्वपूर्ण है, उनके लिए Nano Banana बेहतर हो सकता है
- Nano Banana इस्तेमाल करते समय लगभग आधे मौकों पर AI Studio बिना किसी वजह के fail दिखाता है
  request copyright की सीमा पर भी नहीं थी, फिर भी ऐसी errors बार-बार आती हैं
  फिर भी, जब यह काम करता है तो नतीजे बेहद प्रभावशाली होते हैं
- मैंने अपने बिखरे हुए kitchen की फोटो साफ़ करने के लिए Nano Banana इस्तेमाल किया, लेकिन पहली बार यह पूरी तरह fail हो गया
  दूसरी कोशिश में पहले image analysis से बिखरी हुई चीज़ों की सूची निकाली, फिर prompt में उन्हें हटाने को कहा, तो नतीजा कहीं बेहतर आया
  आखिरकार फिर से prompt engineering की अहमियत महसूस हुई
- Gemini जब सही काम करता है तो शानदार होता है, लेकिन कभी-कभी पूरी तरह अजीब नतीजे देता है और कोई भी prompt काम नहीं करता
  Flux हैरान कर देने जितना अच्छा है, लेकिन ज़्यादातर लोग (मैं भी) आखिरकार ChatGPT या Gemini जैसे परिचित models को ही default के रूप में इस्तेमाल करते हैं
इस तरह की तुलना benchmark charts से कहीं ज़्यादा व्यावहारिक है
मैं Nano Banana अक्सर इस्तेमाल करता हूँ, लेकिन exterior architecture या landscaping edits में यह कमज़ोर है
sidewalk, drainage channel, color matching जैसी चीज़ें लगभग असंभव हैं
- मैं Qwen Image Edit से day photo को night में बदलने के प्रयोग करता हूँ, और ज़्यादातर models edge alignment चूक जाते हैं
  Nano Banana भी boundaries को सही तरह handle नहीं कर पाता, इसलिए फोटो misaligned हो जाती है
2022 में मानक तय करने वाले नज़रिये से देखें, तो आज के demos SD1·2·3 दौर की तुलना में अविश्वसनीय रूप से चौंकाने वाले हैं
अब लगता है कि models वास्तव में prompts और images को समझ रहे हैं
engineering के लगातार आगे बढ़ने के साथ creativity विस्फोटक रूप से फैलने का समय आ गया है
prompts या कोशिशों की संख्या बदलकर, और सिर्फ़ सबसे पसंदीदा नतीजे दिखाने का तरीका टेस्ट की objectivity को कमज़ोर करता है
सभी models के लिए एक जैसे prompts और seeds के साथ 5 generations जैसी एकसमान शर्तें ज़रूरी हैं
उदाहरण के लिए Gemini 2.5 Flash को “Girl with Pearl Earring” टेस्ट में ज़रूरत से ज़्यादा छूट मिली,
जबकि OpenAI gpt-image-1 ने कम कोशिशों में कहीं बेहतर नतीजे दिए, फिर भी उसे fail मान लिया गया
- संदर्भ के लिए, gpt-image-1 का उदाहरण “You Only Move Twice” टेस्ट के लिए था
- इससे बेहतर तो “सबसे खराब इमेज” प्रतियोगिता हो, तब शायद ज़्यादा साफ़ दिखे कि कौन-सा मॉडल कम निराशाजनक है
मैंने Replicate ब्लॉग पर अपनी पोस्ट में कई models की सीधे तुलना की थी
उनमें Qwen Image Edit सबसे सस्ता और तेज़ था, और ज़्यादातर editing tasks को अच्छी तरह संभालता था
अगर मुझे image editing app बनानी हो, तो शायद मैं यही model चुनूँगा
तुलना अपने-आप में दिलचस्प थी, लेकिन आख़िर का जिराफ़ इमेज बस शरीर मोड़ता हुआ दिखा, छोटा नहीं हुआ
फिर भी मैं अक्सर Gemini के नतीजे चुनता रहा, और pass/fail की जगह 10-point scale rating होती तो अच्छा रहता
- “अजीब तरह से मुड़ा हुआ जिराफ़” वाला वाक्य बहुत मज़ेदार था
  अगर ऐसी कोई प्रदर्शनी सच में हो, तो मैं ज़रूर देखना चाहूँगा
हाल के दिनों में मैं लगभग AI image generation करता ही नहीं
लगभग डेढ़ साल पहले local में खुद models चलाना ट्रेंड था, लेकिन अब ज़्यादातर चीज़ें cloud-based हो गई हैं
फिर भी real photo editing में अब भी कहीं-न-कहीं अप्राकृतिक texture महसूस होता है
उदाहरण के लिए, इंसानों के बाल बहुत ज़्यादा चमकदार लगते हैं, या पेड़ plastic जैसे दिखते हैं
- image models का आकार और compute requirement इतने बढ़ गए हैं कि किसी व्यक्ति के लिए self-hosting मुश्किल हो गई है
  Flux Kontext को local में चलाया जा सकता है, लेकिन quantized model के साथ धीरे generation करनी पड़ती है, इसलिए यह inefficient है
  ऊपर से ChatGPT में free में images बन जाती हैं, इसलिए local पर अड़े रहने की वजह भी कम हो गई है
  hair test में सिर्फ़ Gemini 2.5 Flash ने color और texture ठीक से मिलाए,
  Seedream 4 में overall color correction बदल जाने की समस्या थी, इसलिए वह पसंद नहीं आया
मुझे लगता है Reve को भी टेस्ट में शामिल करना चाहिए
- Nano Banana से character की gaze बदलना ठीक से नहीं हो पाया, लेकिन Reve ने पहली ही कोशिश में परफेक्ट नतीजा दिया
  उसने character के हाथ में पकड़ी वस्तु हटाई, नज़र को camera की तरफ़ मोड़ा, और pose भी स्वाभाविक ढंग से adjust किया
  इतना ही नहीं, चारों results इतने अच्छे थे कि सभी usable थे
  उसके बाद Reve के model परिचय लेख को पढ़कर मैंने तुरंत sign up करने का फ़ैसला किया
- सिफ़ारिश के लिए धन्यवाद, बाद में इसे test list में जोड़ने की कोशिश करूँगा
- अच्छी tip के लिए धन्यवाद
कोशिश अच्छी थी, लेकिन “चित्र में टॉवर दाईं ओर झुका हुआ है” जैसे गलत prompt मॉडल को उल्टा और ज़्यादा झुका देते हैं
- वह वाक्य असली input prompt नहीं था, बल्कि शुरुआती वाक्य था
  model के हिसाब से prompts बदले जाते हैं, इसलिए कोशिशों की संख्या अलग थी
कुल मिलाकर यह मज़ेदार टेस्ट था
prompt के perfect न होने की आलोचना है, लेकिन यही इसे और यथार्थवादी बनाता है, क्योंकि यह वैसा स्तर है जैसा आम उपयोगकर्ता लिख सकता है
- मैं SD 1.5 दौर से prompts के साथ काम कर रहा हूँ, इसलिए मुझे पता है कि अलग-अलग models के लिए किस तरह के prompt variations चाहिए होते हैं
  FAQ में समझाया गया है कि model किसी खास शब्द में अटक न जाए, इसलिए prompt के कई versions आज़माए जाते हैं
  उदाहरण के लिए “Turn on the lights” जैसे imperative sentences सिर्फ़ साधारण निर्देश नहीं हैं,
  बल्कि multimodal LLM की समझ को परखने वाले prompts हैं
  ऐसे वाक्य SDXL जैसे पारंपरिक models में कभी काम नहीं करेंगे

Generative AI इमेज एडिटिंग मुकाबला

पेज का अवलोकन

उपलब्ध जानकारी की सीमाएँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय