- Nano Banana Pro, Gemini 3 Pro पर आधारित Google DeepMind का नवीनतम इमेज जनरेशन और एडिटिंग मॉडल है, जो विज़ुअल आइडिया को सटीक रूप से साकार करने की क्षमता देता है
- टेक्स्ट रेंडरिंग में सुधार और बहुभाषी समर्थन के जरिए पोस्टर, मॉकअप, इन्फोग्राफिक आदि में पढ़ने में आसान वाक्य सीधे इमेज में डाले जा सकते हैं
- अधिकतम 14 इमेज को संयोजित करना, 5 लोगों तक कैरेक्टर कंसिस्टेंसी बनाए रखना, 2K~4K रिज़ॉल्यूशन समर्थन आदि के साथ उच्च-गुणवत्ता वाला विज़ुअल कंटेंट बनाने में मदद
- Google Ads, Workspace, Gemini ऐप, AI Studio सहित Google के कई प्रोडक्ट्स में इंटीग्रेटेड, इसलिए उपभोक्ता, प्रोफेशनल और डेवलपर सभी इसका उपयोग कर सकते हैं
- SynthID वॉटरमार्क के जरिए AI-जनरेटेड इमेज की पारदर्शिता सुनिश्चित की जाती है, और AI कंटेंट पहचान फीचर सीधे Gemini ऐप में दिया गया है
Nano Banana Pro का अवलोकन
- Nano Banana Pro, Gemini 3 Pro की reasoning क्षमता और world knowledge का उपयोग करके विज़ुअल जानकारी को बारीकी से रूप देता है
- यह पिछले वर्ज़न Nano Banana (Gemini 2.5 Flash Image) के बाद जारी किया गया अपग्रेडेड वर्ज़न है
- आइडिया प्लानिंग, डेटा विज़ुअलाइज़ेशन, हस्तलिखित नोट्स को डायग्राम में बदलने जैसे कई डिज़ाइन कार्यों का समर्थन करता है
मुख्य फीचर
- सटीक और समृद्ध संदर्भ वाले विज़ुअल मटेरियल का निर्माण
- Gemini 3 की उन्नत reasoning क्षमताओं के जरिए शिक्षा संबंधी इन्फोग्राफिक, डायग्राम जैसे fact-based कंटेंट बनाए जा सकते हैं
- Google Search की real-time जानकारी से जुड़कर मौसम, खेल, रेसिपी जैसी real-time data visualization भी संभव है
- बहुभाषी टेक्स्ट रेंडरिंग
- इमेज के भीतर टेक्स्ट को सटीक और पढ़ने में आसान रूप में दिखाता है, और कई भाषाओं में अनुवाद व स्थानीयकरण भी कर सकता है
- अलग-अलग फॉन्ट, टेक्सचर और टाइपफेस स्टाइल का उपयोग करके पोस्टर या ब्रांडेड कंटेंट बनाने के लिए उपयुक्त
- उच्च-गुणवत्ता वाली विज़ुअल अभिव्यक्ति
- अधिकतम 14 इमेज संयोजन और 5 लोगों तक कैरेक्टर कंसिस्टेंसी के साथ जटिल कंपोज़िट इमेज बनाई जा सकती हैं
- लोकल एडिटिंग, कैमरा एंगल समायोजन, रंग सुधार, लाइटिंग स्विच जैसी बारीक एडिटिंग कंट्रोल देता है
- 2K और 4K रिज़ॉल्यूशन तथा विभिन्न aspect ratio समर्थन के साथ प्रिंट और डिजिटल, दोनों प्लेटफ़ॉर्म के लिए उपयुक्त
उपयोग परिवेश
- उपभोक्ता और छात्रों के लिए
- Gemini ऐप के ‘Create images’ फीचर में Nano Banana Pro उपलब्ध है
- फ्री यूज़र को सीमित जनरेशन कोटा दिया जाता है, जिसके बाद यह बेसिक Nano Banana पर स्विच हो जाता है
- Google AI Plus, Pro और Ultra सब्सक्राइबर को अधिक जनरेशन लिमिट मिलती है
- प्रोफेशनल उपयोग के लिए
- Google Ads का इमेज जनरेशन फीचर Nano Banana Pro में अपग्रेड किया गया है
- Google Workspace के Slides और Vids में भी इसका उपयोग किया जा सकता है
- डेवलपर और एंटरप्राइज़ के लिए
- Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise आदि में विस्तारित समर्थन
- क्रिएटर्स के लिए
- Flow टूल के जरिए वीडियो क्रिएटर और मार्केटर सीन-लेवल पर बारीक कंट्रोल कर सकते हैं
AI-जनरेटेड इमेज पहचान और पारदर्शिता
- Nano Banana Pro से बनी सभी इमेज में SynthID डिजिटल वॉटरमार्क एम्बेड किया जाता है, जिससे स्रोत की पहचान संभव है
- Gemini ऐप में इमेज अपलोड करके सीधे यह जांचा जा सकता है कि वह “Google AI से जनरेट” है या नहीं
- फ्री और Pro यूज़र की इमेज में विज़िबल वॉटरमार्क (Gemini sparkle) भी जोड़ा जाता है
- Ultra सब्सक्राइबर और AI Studio डेवलपर टूल्स में वॉटरमार्क हटाकर साफ कैनवास उपलब्ध कराया जाता है
- SynthID को आगे चलकर ऑडियो और वीडियो कंटेंट तक विस्तारित करने की योजना है
संबंधित सामग्री
- Build with Nano Banana Pro: डेवलपरों के लिए Gemini 3 Pro Image मॉडल का परिचय
- Prompting Tips for Nano Banana Pro: प्रभावी प्रॉम्प्ट लिखने की गाइड
- AI Image Verification in Gemini App: SynthID-आधारित इमेज वेरिफिकेशन फीचर का विवरण
मूल लेख में अतिरिक्त जानकारी नहीं है
1 टिप्पणियां
Hacker News टिप्पणियाँ
इस हफ्ते Google ऐसा लग रहा था मानो Godzilla की तरह आगे बढ़ रहा हो
मैंने पहली बार AI Studio में कार्ड लिंक किया, लेकिन पेमेंट प्रक्रिया बहुत जटिल थी
सारी सेटिंग पूरी करने के बाद भी “permission denied” त्रुटि लगातार आती रही
अगर पैसे देने के लिए इतना सब करना पड़े, तो मॉडल कितना भी अच्छा हो, उसका कोई मतलब नहीं
accessibility बेहतर करने के लिए टीम काफ़ी मेहनत से सुधार कर रही है
पेमेंट से जुड़ी friction कम करने के लिए AI Studio का built-in payment system तैयार किया जा रहा है, और कहा गया है कि जनवरी में इसका वैश्विक लॉन्च होगा
दूसरी सेवाओं में एक API key से काम हो जाता है, लेकिन Google में account बनाना → app बनाना → service enable करना → OAuth app बनाना → JSON डाउनलोड करना पड़ता है
signup प्रक्रिया काफ़ी आसान है और यह कई तरह के AI models देता है
सिर्फ साधारण testing के लिए GCP project बनाना बहुत ज़्यादा लगता है
मैंने Nano Banana Pro के साथ editing से जुड़े सभी prompts फिर से test किए
इसने SHRDLU, M&M Van Halen, Scorpio Street tests pass किए
नतीजे यहाँ देखे जा सकते हैं
NB Pro ने मूल NB की तुलना में साफ़ तौर पर बेहतर performance दिखाई
लगता है test खुद ही ठीक से डिज़ाइन नहीं था
नतीजा परफ़ेक्ट नहीं है, लेकिन इसने अनुरोध के मुताबिक काम किया
जिन prompts में स्पष्ट knowledge चाहिए, वे pass हो जाते हैं, लेकिन सिर्फ झुकी हुई वस्तु को सीधा करना अभी भी मुश्किल है
slider की जगह original और result को साथ दिखाना ज़्यादा सहज लगेगा
मैंने कुछ महीनों तक Nano Banana prompt engineering analysis किया, और अब Google ने नया version जारी कर दिया
नया model gemimg package में सीधे काम करता है
लेकिन कीमत ज़्यादा है, इसलिए इसे default model बनाना मुश्किल है
docs के अनुसार model intermediate images (Thinking चरण) अधिकतम दो तक बनाता है
संभव है कि यही लागत बढ़ने की वजह हो
model ने observer के नज़रिए से left-right समझा और उन्हें ग़लत जगह रख दिया
ऐसी relative instruction errors medical settings में भी आम समस्या हैं
संबंधित उदाहरण लिंक
NB Pro में भी ज़्यादातर prompts अच्छी तरह काम करते हैं
guide link
मेरे experiment results भी साझा किए गए
“Studio Ghibli style conversion” ChatGPT से काफ़ी अधिक सटीक है
हालाँकि कुछ बहुत realistic images uncanny valley में चली जाती हैं
इससे फिर महसूस हुआ कि तकनीकी बदलावों के अनुरूप adaptable tool design कितना महत्वपूर्ण है
छोटे prompts से पूरा infographic generate करने की क्षमता चौंकाने वाली है
मैंने “Datasette project कैसे काम करता है” पूछा, और काफ़ी परिष्कृत नतीजा मिला
result link
अभी तक text अलग render करना पड़ता था, लेकिन अब शायद सब कुछ एक बार में हो सके
result image देखें
GitHub link
Instagram के लिए square format में भी इसे अपने-आप बदल दिया
AI images अब स्पष्ट artifacts तो नहीं बनातीं, लेकिन style की वजह से उनमें अब भी AI वाली झलक रहती है
खासकर infographics इंसानों द्वारा बनाए गए काम से अलग पहचाने जा सकते थे
यह किसी खास dataset के over-representation का नतीजा लगता है
average values पर trained models “औसत image space” तैयार करते हैं
संबंधित उदाहरण देखें, तो fine-tuning से realistic results भी संभव हैं
कुछ models जानबूझकर style को हटा देते हैं, जिससे artificial feel आती है
open models में LoRA से fine-grained adjustment संभव है, लेकिन closed models में यही मुश्किल है
अगर आप मौलिक images चाहते हैं, तो prompt खुद अधिक रचनात्मक होना चाहिए
इसी वजह से image editing features को अगला बड़ा कार्य माना जा रहा है
शुरुआती models की quality कम थी, लेकिन वे अधिक दिलचस्प results देते थे
SynthID एक अच्छा पहला कदम है, लेकिन इसकी सीमा यह है कि बिना watermark वाले AI content को यह अलग नहीं कर सकता
बड़ी कंपनियों को standardized identifiers अपनाने चाहिए
अगर Photoshop पर भी ऐसा नियम होता, तो रचनात्मकता काफ़ी सीमित हो जाती
यानी यह साबित करने के लिए कि फोटो सचमुच कैमरे से ली गई है, और iMessage में verified badge जैसा कुछ दिखाया जाएगा
अंततः बड़े commercial models default रूप से watermark लागू करने लगेंगे
यह एक अंतहीन cat-and-mouse game बन जाएगा
2D animators अभी निश्चिंत रह सकते हैं
sprite sheet बनाकर देखा, तो यह सिर्फ frames दोहराता रहा, लेकिन स्वाभाविक बीच की motion (interpolation) नहीं बना पाया
आधिकारिक सामग्री संग्रह
Developer Blog
DeepMind Page
Model Card PDF
SynthID परिचय
यह model पहली image generation model है जिसने मेरा piano test pass किया
इसने हर octave में काली keys के pattern को सही तरह दोहराया
पहले के models हमेशा key arrangement ग़लत दिखाते थे
किसी खास note को color करने का अनुरोध भी यह लगभग random तरीके से संभालता है
piano एक standardized object है, इसलिए training data भी बहुत होगा, फिर भी इसकी समझ कमज़ोर है
पूरे 88 keys में consistency बनाए रखना प्रभावशाली था
अब models image के भीतर text को स्वाभाविक ढंग से render कर सकते हैं
जो काम पहले असंभव था, वह अब लगभग basic feature जैसा लगने लगा है
curves, spacing, balance जैसे सूक्ष्म design कामों में अभी भी इंसान बेहतर हैं