- Google ने Nano-Banana के नाम से जाना जाने वाला, इमेज जनरेशन और एडिटिंग क्षमता में काफी बेहतर Gemini 2.5 Flash Image पेश किया
- यह किरदार की स्थिरता बनाए रखना, प्राकृतिक भाषा आधारित आंशिक एडिटिंग, दुनिया के ज्ञान का उपयोग, मल्टी-इमेज संयोजन आदि को सपोर्ट करता है
- डेवलपर Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai आदि के जरिए मॉडल को तुरंत इस्तेमाल कर सकते हैं
- कीमत 10 लाख output tokens पर $30, और प्रति इमेज लगभग $0.039 है
- सभी परिणामों में अदृश्य डिजिटल SynthID watermark एम्बेड किया जाता है
Gemini 2.5 Flash Image का परिचय
- Google ने अगली पीढ़ी के इमेज जनरेशन और एडिटिंग मॉडल Gemini 2.5 Flash Image (code name nano-banana) की घोषणा की
- इस अपडेट के साथ कई इमेज को एक में कम्पोज़िट करना, किसी खास व्यक्ति या ऑब्जेक्ट की स्थिरता बनाए रखना, प्राकृतिक भाषा से सूक्ष्म बदलाव करना, और Gemini के world knowledge के आधार पर इमेज जनरेशन व एडिटिंग संभव हो गई है
- शुरुआती वर्जन Gemini 2.0 Flash में भी low latency, cost efficiency और ease of use इसकी खूबियां थीं, लेकिन यूजर फीडबैक को शामिल करते हुए इस बार और बेहतर क्वालिटी की इमेज और मजबूत creative control फीचर्स जोड़े गए हैं
- यह फिलहाल Gemini API, Google AI Studio, Vertex AI आदि में उपलब्ध है, और इसकी कीमत 10 लाख output tokens पर $30 तय की गई है (प्रति इमेज लगभग $0.039)
- अन्य input/output modes भी Gemini 2.5 Flash की समान pricing policy का पालन करते हैं
- आधिकारिक साइट: https://deepmind.google/models/gemini/image/
मुख्य फीचर्स और परिदृश्य
-
Google AI Studio के “Build Mode” का अपग्रेड
- Gemini 2.5 Flash Image के साथ ऐप डेवलपमेंट और आसान हो गया है
- डेवलपर custom AI apps को तेजी से बना, टेस्ट और remix कर सकते हैं, और Google AI Studio से सीधे deploy या code को GitHub में सेव कर सकते हैं
- उदाहरण के लिए, “यूजर इमेज अपलोड कर सके और उस पर फिल्टर लगा सके, ऐसा इमेज एडिटिंग ऐप बनाओ” जैसे prompt से आसानी से ऐप बनाया जा सकता है
- डिफॉल्ट template चुनने/remix करने की सुविधा भी मुफ्त में दी जाती है
-
किरदार की स्थिरता बनाए रखना
- इमेज जनरेशन प्रक्रिया में एक ही किरदार का रूप एक जैसा बनाए रखना एक बड़ी चुनौती रहा है
- Gemini 2.5 Flash Image का प्रभावी उपयोग एक ही व्यक्ति को अलग-अलग माहौल में रखने, प्रोडक्ट को कई एंगल/लोकेशन से दिखाने, और brand assets की स्थिरता सुनिश्चित करने में किया जा सकता है
- Google AI Studio template app के जरिए character consistency का डेमो और code customization आसान है
- यह फीचर रियल एस्टेट कार्ड, कर्मचारी बैज, bulk product mockups जैसे template-based design consistency के लिए भी उपयोगी हो सकता है
-
प्राकृतिक भाषा prompt आधारित इमेज एडिटिंग
- यूजर सिर्फ प्राकृतिक भाषा निर्देशों से इमेज के किसी हिस्से को बदल सकते हैं
- उदाहरणों में background blur, टी-शर्ट के दाग हटाना, व्यक्ति हटाना, pose बदलना, black-and-white इमेज को color इमेज में बदलना शामिल है
- UI/prompt आधारित एडिटिंग करने वाला template app भी दिया गया है, जिससे वास्तविक उपयोग अनुभव मिल सकता है
-
world knowledge आधारित native उपयोग
- जहां पुराने मॉडल aesthetic इमेज बनाने में मजबूत थे, वहीं वास्तविक दुनिया की semantic understanding अपेक्षाकृत कमजोर थी
- Gemini 2.5 Flash Image world knowledge के आधार पर हाथ से बने diagram पहचानने, वास्तविक दुनिया के सवालों का जवाब देने, और जटिल एडिटिंग कमांड पूरा करने में सक्षम है
- सीधे उपयोग के उदाहरण के तौर पर, एक साधारण canvas को interactive educational tutor में बदलने वाला ऐप भी दिया गया है
-
मल्टी-इमेज फ्यूजन
- यह मॉडल कई इमेज को समझकर स्वाभाविक रूप से संयोजित कर सकता है
- उदाहरण के लिए प्रोडक्ट को नए background में डालना, पूरे कमरे का color tone और texture बदलना, और एक ही prompt से इमेज फ्यूजन करना संभव है
- template app की मदद से drag-and-drop तरीके से प्रोडक्ट रखकर photorealistic fusion इमेज बनाई जा सकती है
शुरुआत और पार्टनरशिप
- डेवलपर दस्तावेज़ के जरिए तुरंत शुरुआत की जा सकती है, और फिलहाल यह preview में है लेकिन जल्द stable होने की उम्मीद है
- सभी डेमो ऐप्स Google AI Studio में code remix और customization के लिए उपलब्ध हैं
- OpenRouter.ai के साथ साझेदारी के जरिए 30 लाख डेवलपर्स तक मॉडल पहुंचाया जा रहा है, और यह OpenRouter के 480+ सपोर्टेड मॉडलों में पहला ऐसा मॉडल है जो इमेज जनरेशन कर सकता है
- fal.ai के साथ सहयोग से व्यापक डेवलपर कम्युनिटी तक सपोर्ट बढ़ाया गया है
डिजिटल watermark और फीडबैक
- Gemini 2.5 Flash Image से generate/edit की गई सभी इमेज में अदृश्य SynthID digital watermark डाला जाता है, जिससे उन्हें AI-generated के रूप में पहचाना जा सकता है
- टेक्स्ट क्वालिटी, character consistency, इमेज detail description आदि में लगातार सुधार जारी है
- डेवलपर फीडबैक Google डेवलपर फोरम या X (पूर्व Twitter) के माध्यम से लगातार लिया जा रहा है
सरल उपयोग उदाहरण (Python code)
- Python में genai SDK, PIL और io लाइब्रेरी के जरिए मनचाहे prompt और इमेज के साथ Gemini 2.5 Flash Image का उपयोग किया जा सकता है
- उदाहरण: “मेरी बिल्ली रेस्टोरेंट में nano-banana खा रही है” जैसी स्वतंत्र prompt का उपयोग किया जा सकता है
- output परिणामों को code के भीतर साधारण टेक्स्ट और इमेज फाइल दोनों रूपों में सेव किया जा सकता है
आगे की दिशा
- long-form text rendering, अधिक भरोसेमंद character consistency, और यथार्थपरक detail expression जैसे क्षेत्रों में लगातार स्तर बढ़ाने पर काम जारी है
- कम्युनिटी की सक्रिय भागीदारी और फीडबैक को प्रोत्साहित किया जा रहा है
- Gemini 2.5 Flash Image के साथ विविध रचनात्मक और डेवलपमेंट अनुभवों के विस्तार की उम्मीद है
2 टिप्पणियां
Google Nano Banana क्या है? Google का गुप्त इमेज AI
Hacker News राय