10 पॉइंट द्वारा GN⁺ 2025-08-27 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Google ने Nano-Banana के नाम से जाना जाने वाला, इमेज जनरेशन और एडिटिंग क्षमता में काफी बेहतर Gemini 2.5 Flash Image पेश किया
  • यह किरदार की स्थिरता बनाए रखना, प्राकृतिक भाषा आधारित आंशिक एडिटिंग, दुनिया के ज्ञान का उपयोग, मल्टी-इमेज संयोजन आदि को सपोर्ट करता है
  • डेवलपर Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai आदि के जरिए मॉडल को तुरंत इस्तेमाल कर सकते हैं
  • कीमत 10 लाख output tokens पर $30, और प्रति इमेज लगभग $0.039 है
  • सभी परिणामों में अदृश्य डिजिटल SynthID watermark एम्बेड किया जाता है

Gemini 2.5 Flash Image का परिचय

  • Google ने अगली पीढ़ी के इमेज जनरेशन और एडिटिंग मॉडल Gemini 2.5 Flash Image (code name nano-banana) की घोषणा की
  • इस अपडेट के साथ कई इमेज को एक में कम्पोज़िट करना, किसी खास व्यक्ति या ऑब्जेक्ट की स्थिरता बनाए रखना, प्राकृतिक भाषा से सूक्ष्म बदलाव करना, और Gemini के world knowledge के आधार पर इमेज जनरेशन व एडिटिंग संभव हो गई है
  • शुरुआती वर्जन Gemini 2.0 Flash में भी low latency, cost efficiency और ease of use इसकी खूबियां थीं, लेकिन यूजर फीडबैक को शामिल करते हुए इस बार और बेहतर क्वालिटी की इमेज और मजबूत creative control फीचर्स जोड़े गए हैं
  • यह फिलहाल Gemini API, Google AI Studio, Vertex AI आदि में उपलब्ध है, और इसकी कीमत 10 लाख output tokens पर $30 तय की गई है (प्रति इमेज लगभग $0.039)
  • अन्य input/output modes भी Gemini 2.5 Flash की समान pricing policy का पालन करते हैं
  • आधिकारिक साइट: https://deepmind.google/models/gemini/image/

मुख्य फीचर्स और परिदृश्य

  • Google AI Studio के “Build Mode” का अपग्रेड

    • Gemini 2.5 Flash Image के साथ ऐप डेवलपमेंट और आसान हो गया है
    • डेवलपर custom AI apps को तेजी से बना, टेस्ट और remix कर सकते हैं, और Google AI Studio से सीधे deploy या code को GitHub में सेव कर सकते हैं
    • उदाहरण के लिए, “यूजर इमेज अपलोड कर सके और उस पर फिल्टर लगा सके, ऐसा इमेज एडिटिंग ऐप बनाओ” जैसे prompt से आसानी से ऐप बनाया जा सकता है
    • डिफॉल्ट template चुनने/remix करने की सुविधा भी मुफ्त में दी जाती है
  • किरदार की स्थिरता बनाए रखना

    • इमेज जनरेशन प्रक्रिया में एक ही किरदार का रूप एक जैसा बनाए रखना एक बड़ी चुनौती रहा है
    • Gemini 2.5 Flash Image का प्रभावी उपयोग एक ही व्यक्ति को अलग-अलग माहौल में रखने, प्रोडक्ट को कई एंगल/लोकेशन से दिखाने, और brand assets की स्थिरता सुनिश्चित करने में किया जा सकता है
    • Google AI Studio template app के जरिए character consistency का डेमो और code customization आसान है
    • यह फीचर रियल एस्टेट कार्ड, कर्मचारी बैज, bulk product mockups जैसे template-based design consistency के लिए भी उपयोगी हो सकता है
  • प्राकृतिक भाषा prompt आधारित इमेज एडिटिंग

    • यूजर सिर्फ प्राकृतिक भाषा निर्देशों से इमेज के किसी हिस्से को बदल सकते हैं
    • उदाहरणों में background blur, टी-शर्ट के दाग हटाना, व्यक्ति हटाना, pose बदलना, black-and-white इमेज को color इमेज में बदलना शामिल है
    • UI/prompt आधारित एडिटिंग करने वाला template app भी दिया गया है, जिससे वास्तविक उपयोग अनुभव मिल सकता है
  • world knowledge आधारित native उपयोग

    • जहां पुराने मॉडल aesthetic इमेज बनाने में मजबूत थे, वहीं वास्तविक दुनिया की semantic understanding अपेक्षाकृत कमजोर थी
    • Gemini 2.5 Flash Image world knowledge के आधार पर हाथ से बने diagram पहचानने, वास्तविक दुनिया के सवालों का जवाब देने, और जटिल एडिटिंग कमांड पूरा करने में सक्षम है
    • सीधे उपयोग के उदाहरण के तौर पर, एक साधारण canvas को interactive educational tutor में बदलने वाला ऐप भी दिया गया है
  • मल्टी-इमेज फ्यूजन

    • यह मॉडल कई इमेज को समझकर स्वाभाविक रूप से संयोजित कर सकता है
    • उदाहरण के लिए प्रोडक्ट को नए background में डालना, पूरे कमरे का color tone और texture बदलना, और एक ही prompt से इमेज फ्यूजन करना संभव है
    • template app की मदद से drag-and-drop तरीके से प्रोडक्ट रखकर photorealistic fusion इमेज बनाई जा सकती है

शुरुआत और पार्टनरशिप

  • डेवलपर दस्तावेज़ के जरिए तुरंत शुरुआत की जा सकती है, और फिलहाल यह preview में है लेकिन जल्द stable होने की उम्मीद है
  • सभी डेमो ऐप्स Google AI Studio में code remix और customization के लिए उपलब्ध हैं
  • OpenRouter.ai के साथ साझेदारी के जरिए 30 लाख डेवलपर्स तक मॉडल पहुंचाया जा रहा है, और यह OpenRouter के 480+ सपोर्टेड मॉडलों में पहला ऐसा मॉडल है जो इमेज जनरेशन कर सकता है
  • fal.ai के साथ सहयोग से व्यापक डेवलपर कम्युनिटी तक सपोर्ट बढ़ाया गया है

डिजिटल watermark और फीडबैक

  • Gemini 2.5 Flash Image से generate/edit की गई सभी इमेज में अदृश्य SynthID digital watermark डाला जाता है, जिससे उन्हें AI-generated के रूप में पहचाना जा सकता है
  • टेक्स्ट क्वालिटी, character consistency, इमेज detail description आदि में लगातार सुधार जारी है
  • डेवलपर फीडबैक Google डेवलपर फोरम या X (पूर्व Twitter) के माध्यम से लगातार लिया जा रहा है

सरल उपयोग उदाहरण (Python code)

  • Python में genai SDK, PIL और io लाइब्रेरी के जरिए मनचाहे prompt और इमेज के साथ Gemini 2.5 Flash Image का उपयोग किया जा सकता है
  • उदाहरण: “मेरी बिल्ली रेस्टोरेंट में nano-banana खा रही है” जैसी स्वतंत्र prompt का उपयोग किया जा सकता है
  • output परिणामों को code के भीतर साधारण टेक्स्ट और इमेज फाइल दोनों रूपों में सेव किया जा सकता है

आगे की दिशा

  • long-form text rendering, अधिक भरोसेमंद character consistency, और यथार्थपरक detail expression जैसे क्षेत्रों में लगातार स्तर बढ़ाने पर काम जारी है
  • कम्युनिटी की सक्रिय भागीदारी और फीडबैक को प्रोत्साहित किया जा रहा है
  • Gemini 2.5 Flash Image के साथ विविध रचनात्मक और डेवलपमेंट अनुभवों के विस्तार की उम्मीद है

2 टिप्पणियां

 
GN⁺ 2025-08-27
Hacker News राय
  • यह इमेज एडिटिंग मॉडल्स का GPT-4 moment लगता है। Twitter पर शानदार नतीजे देखें
    • nano banana, यानी gemini 2.5 flash, की परफॉर्मेंस इतनी ज़बरदस्त है कि lmarena में 171 elo points उछल गए
    • Twitter पर nano banana खोजेंगे तो कमाल के नतीजे देख सकते हैं
    • आजकल "nano banana" डोमेन सब रजिस्टर हो चुके हैं और हर कोई अपनी इमेज जनरेशन UI दे रहा है, लेकिन सब लोकप्रिय मॉडल नाम का इस्तेमाल करने वाले बिचौलियों जैसे लगते हैं
    • यह नाम nano banana क्यों है, यह जानने की जिज्ञासा है
  • यही वह मशहूर nano-banana मॉडल है, और अब LMArena में इसका नाम बदलकर gemini-2.5-flash-image-preview कर दिया गया है
  • Gemini से इमेज बनाने की कोशिश करो तो आधी बार यह असंभव कहकर जवाब देता है
    • ऊपर से Google की घोषित फीचर्स इधर-उधर बिखरी हुई हैं, इसलिए किस प्रोडक्ट में क्या इस्तेमाल हो सकता है और कहाँ भुगतान करना है, इसका बिल्कुल अंदाज़ा नहीं लगता — यह काफी भ्रमित करने वाला है
  • इमेज मॉडल आखिरकार समय के पिशाच जैसे हैं
    • एक कमरा बनाना आसान है, लेकिन उसी कमरे को कई एंगल से लगातार एक जैसा बनाना लगभग असंभव है
    • जिन कामों में इमेज consistency चाहिए, वहाँ इनका इस्तेमाल मुश्किल है
  • मैंने पारिवारिक तस्वीरों को डिजिटल किया, लेकिन कई बहुत खराब हालत में थीं, इसलिए उन्हें बहाल करना मुश्किल था
    • यह मॉडल डिटेल बदले बिना restoration करने में अच्छा लगता है, इसलिए लगता है कि अब शायद यह सच में काम का हो गया है
    • दरअसल ऐसे दोषों को film scanner + ICE फीचर और Vuescan जैसे software से अपने आप ठीक किया जा सकता है
      • सैकड़ों तस्वीरें किसी experimental cloud AI के भरोसे छोड़ना अनावश्यक लगता है
    • क्या किसी को video quality enhancement software के बारे में पता है?
      • मैं Video 2000 और VHS tapes को digital कर रहा हूँ, और पुरानी यादों वाले वीडियो को थोड़ा बेहतर बनाना चाहता हूँ
    • उम्मीद है यह अच्छा काम करेगा, लेकिन उदाहरणों में से एक में चेहरा ज़रूरत से ज़्यादा AI-जैसा लगा
    • सच कहूँ तो Flux Kontext नाम का मॉडल कुछ महीने पहले ही इस स्तर तक पहुँच चुका था
  • मॉडल की परफॉर्मेंस प्रभावशाली है, लेकिन साथ ही इसका सामाजिक प्रभाव चिंता पैदा करता है
    • सिर्फ Facebook comments देखो तो भी बेचैनी होती है
    • मैंने Google के SynthID को टेस्ट किया, और यह काफी अच्छा लगा
      • compression, crop, resize, color correction, और overpainting के बाद भी watermark बना रहता है
    • मैं भी हाल ही में SpaceX launch event के दौरान deepfake scam का शिकार होकर 15k BTC गंवा बैठा
      • तकनीक इतनी परिष्कृत हो गई है कि हमले लगातार ज्यादा खतरनाक होते जा रहे हैं
    • Facebook comments देखकर तो पक्का लगता है कि वहाँ bots चल रहे हैं
  • lamp वाला उदाहरण काफी प्रभावशाली था
    • power connection, lighting, और shadows तक बहुत natural लगे
  • ChatGPT की इमेज जनरेशन की तुलना में इसकी speed मुझे बहुत पसंद आई
    • ChatGPT इतना slow था कि नतीजा notification से लेना पड़ता था
    • “Gemini 2.5 Flash Image इस्तेमाल करने के बाद OpenAI investors कैसे दिखते हैं” जैसी इमेज सोचकर हँसी आती है
  • एक काम था जो मैं बहुत पहले से करना चाहता था
    • image1 में किसी खास object को image2 के object से बदलना, और वह भी location बिल्कुल सटीक तय करके
    • कई मॉडल आज़माए, लेकिन सब विफल रहे; इस मॉडल ने लगभग सही किया, लेकिन आखिर में किसी और object को बदल दिया
    • क्या कोई ऐसा मॉडल है जो किसी खास location को reference image से बदलने में विशेषज्ञ हो?
    • Alibaba का ACE++ मॉडल ऐसी क्षमता देता है
      • phind.design में इसका इस्तेमाल हो रहा है, लेकिन यह काफ़ी niche काम है, इसलिए आम नहीं है