11 पॉइंट द्वारा GN⁺ 2025-11-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Nano Banana Pro, Gemini 3 Pro पर आधारित Google DeepMind का नवीनतम इमेज जनरेशन और एडिटिंग मॉडल है, जो विज़ुअल आइडिया को सटीक रूप से साकार करने की क्षमता देता है
  • टेक्स्ट रेंडरिंग में सुधार और बहुभाषी समर्थन के जरिए पोस्टर, मॉकअप, इन्फोग्राफिक आदि में पढ़ने में आसान वाक्य सीधे इमेज में डाले जा सकते हैं
  • अधिकतम 14 इमेज को संयोजित करना, 5 लोगों तक कैरेक्टर कंसिस्टेंसी बनाए रखना, 2K~4K रिज़ॉल्यूशन समर्थन आदि के साथ उच्च-गुणवत्ता वाला विज़ुअल कंटेंट बनाने में मदद
  • Google Ads, Workspace, Gemini ऐप, AI Studio सहित Google के कई प्रोडक्ट्स में इंटीग्रेटेड, इसलिए उपभोक्ता, प्रोफेशनल और डेवलपर सभी इसका उपयोग कर सकते हैं
  • SynthID वॉटरमार्क के जरिए AI-जनरेटेड इमेज की पारदर्शिता सुनिश्चित की जाती है, और AI कंटेंट पहचान फीचर सीधे Gemini ऐप में दिया गया है

Nano Banana Pro का अवलोकन

  • Nano Banana Pro, Gemini 3 Pro की reasoning क्षमता और world knowledge का उपयोग करके विज़ुअल जानकारी को बारीकी से रूप देता है
    • यह पिछले वर्ज़न Nano Banana (Gemini 2.5 Flash Image) के बाद जारी किया गया अपग्रेडेड वर्ज़न है
    • आइडिया प्लानिंग, डेटा विज़ुअलाइज़ेशन, हस्तलिखित नोट्स को डायग्राम में बदलने जैसे कई डिज़ाइन कार्यों का समर्थन करता है

मुख्य फीचर

  • सटीक और समृद्ध संदर्भ वाले विज़ुअल मटेरियल का निर्माण
    • Gemini 3 की उन्नत reasoning क्षमताओं के जरिए शिक्षा संबंधी इन्फोग्राफिक, डायग्राम जैसे fact-based कंटेंट बनाए जा सकते हैं
    • Google Search की real-time जानकारी से जुड़कर मौसम, खेल, रेसिपी जैसी real-time data visualization भी संभव है
  • बहुभाषी टेक्स्ट रेंडरिंग
    • इमेज के भीतर टेक्स्ट को सटीक और पढ़ने में आसान रूप में दिखाता है, और कई भाषाओं में अनुवाद व स्थानीयकरण भी कर सकता है
    • अलग-अलग फॉन्ट, टेक्सचर और टाइपफेस स्टाइल का उपयोग करके पोस्टर या ब्रांडेड कंटेंट बनाने के लिए उपयुक्त
  • उच्च-गुणवत्ता वाली विज़ुअल अभिव्यक्ति
    • अधिकतम 14 इमेज संयोजन और 5 लोगों तक कैरेक्टर कंसिस्टेंसी के साथ जटिल कंपोज़िट इमेज बनाई जा सकती हैं
    • लोकल एडिटिंग, कैमरा एंगल समायोजन, रंग सुधार, लाइटिंग स्विच जैसी बारीक एडिटिंग कंट्रोल देता है
    • 2K और 4K रिज़ॉल्यूशन तथा विभिन्न aspect ratio समर्थन के साथ प्रिंट और डिजिटल, दोनों प्लेटफ़ॉर्म के लिए उपयुक्त

उपयोग परिवेश

  • उपभोक्ता और छात्रों के लिए
    • Gemini ऐप के ‘Create images’ फीचर में Nano Banana Pro उपलब्ध है
    • फ्री यूज़र को सीमित जनरेशन कोटा दिया जाता है, जिसके बाद यह बेसिक Nano Banana पर स्विच हो जाता है
    • Google AI Plus, Pro और Ultra सब्सक्राइबर को अधिक जनरेशन लिमिट मिलती है
  • प्रोफेशनल उपयोग के लिए
    • Google Ads का इमेज जनरेशन फीचर Nano Banana Pro में अपग्रेड किया गया है
    • Google Workspace के Slides और Vids में भी इसका उपयोग किया जा सकता है
  • डेवलपर और एंटरप्राइज़ के लिए
    • Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise आदि में विस्तारित समर्थन
  • क्रिएटर्स के लिए
    • Flow टूल के जरिए वीडियो क्रिएटर और मार्केटर सीन-लेवल पर बारीक कंट्रोल कर सकते हैं

AI-जनरेटेड इमेज पहचान और पारदर्शिता

  • Nano Banana Pro से बनी सभी इमेज में SynthID डिजिटल वॉटरमार्क एम्बेड किया जाता है, जिससे स्रोत की पहचान संभव है
    • Gemini ऐप में इमेज अपलोड करके सीधे यह जांचा जा सकता है कि वह “Google AI से जनरेट” है या नहीं
    • फ्री और Pro यूज़र की इमेज में विज़िबल वॉटरमार्क (Gemini sparkle) भी जोड़ा जाता है
    • Ultra सब्सक्राइबर और AI Studio डेवलपर टूल्स में वॉटरमार्क हटाकर साफ कैनवास उपलब्ध कराया जाता है
  • SynthID को आगे चलकर ऑडियो और वीडियो कंटेंट तक विस्तारित करने की योजना है

संबंधित सामग्री

  • Build with Nano Banana Pro: डेवलपरों के लिए Gemini 3 Pro Image मॉडल का परिचय
  • Prompting Tips for Nano Banana Pro: प्रभावी प्रॉम्प्ट लिखने की गाइड
  • AI Image Verification in Gemini App: SynthID-आधारित इमेज वेरिफिकेशन फीचर का विवरण

मूल लेख में अतिरिक्त जानकारी नहीं है

1 टिप्पणियां

 
GN⁺ 2025-11-21
Hacker News टिप्पणियाँ
  • इस हफ्ते Google ऐसा लग रहा था मानो Godzilla की तरह आगे बढ़ रहा हो
    मैंने पहली बार AI Studio में कार्ड लिंक किया, लेकिन पेमेंट प्रक्रिया बहुत जटिल थी
    सारी सेटिंग पूरी करने के बाद भी “permission denied” त्रुटि लगातार आती रही
    अगर पैसे देने के लिए इतना सब करना पड़े, तो मॉडल कितना भी अच्छा हो, उसका कोई मतलब नहीं

    • आपको असुविधाजनक अनुभव हुआ, इसके लिए खेद है
      accessibility बेहतर करने के लिए टीम काफ़ी मेहनत से सुधार कर रही है
      पेमेंट से जुड़ी friction कम करने के लिए AI Studio का built-in payment system तैयार किया जा रहा है, और कहा गया है कि जनवरी में इसका वैश्विक लॉन्च होगा
    • Google API में कुल मिलाकर entry barrier बहुत ऊँचा है
      दूसरी सेवाओं में एक API key से काम हो जाता है, लेकिन Google में account बनाना → app बनाना → service enable करना → OAuth app बनाना → JSON डाउनलोड करना पड़ता है
    • अगर आप सिर्फ API इस्तेमाल करना चाहते हैं, तो Fal.ai का Nano-Banana-Pro सुझाऊँगा
      signup प्रक्रिया काफ़ी आसान है और यह कई तरह के AI models देता है
    • मैं भी Claude और OpenAI के paid plans इस्तेमाल करता हूँ, लेकिन Gemini में पेमेंट इतना मुश्किल है कि कोशिश करना भी कठिन लगता है
      सिर्फ साधारण testing के लिए GCP project बनाना बहुत ज़्यादा लगता है
    • Google के AI products के लिए बेहतर developer frontend बनाना अपने-आप में एक business opportunity हो सकता है, क्योंकि असुविधा काफ़ी ज़्यादा है
  • मैंने Nano Banana Pro के साथ editing से जुड़े सभी prompts फिर से test किए
    इसने SHRDLU, M&M Van Halen, Scorpio Street tests pass किए
    नतीजे यहाँ देखे जा सकते हैं
    NB Pro ने मूल NB की तुलना में साफ़ तौर पर बेहतर performance दिखाई

    • giraffe editing test में Seedream की तुलना में NB Pro का परिणाम बेहतर लगा, लेकिन evaluation उलटा किया गया है
      लगता है test खुद ही ठीक से डिज़ाइन नहीं था
    • NB Pro को giraffe test pass करना चाहिए था
      नतीजा परफ़ेक्ट नहीं है, लेकिन इसने अनुरोध के मुताबिक काम किया
    • Leaning Tower of Pisa test दिलचस्प था
      जिन prompts में स्पष्ट knowledge चाहिए, वे pass हो जाते हैं, लेकिन सिर्फ झुकी हुई वस्तु को सीधा करना अभी भी मुश्किल है
    • अगर हर test में original image भी साथ दिखे, तो तुलना आसान होगी
      slider की जगह original और result को साथ दिखाना ज़्यादा सहज लगेगा
    • साइट सच में बहुत उपयोगी है। यह जानना रोचक होगा कि text-to-image benchmark भी NB Pro के साथ करने की योजना है या नहीं
  • मैंने कुछ महीनों तक Nano Banana prompt engineering analysis किया, और अब Google ने नया version जारी कर दिया
    नया model gemimg package में सीधे काम करता है
    लेकिन कीमत ज़्यादा है, इसलिए इसे default model बनाना मुश्किल है
    docs के अनुसार model intermediate images (Thinking चरण) अधिकतम दो तक बनाता है
    संभव है कि यही लागत बढ़ने की वजह हो

    • “बाएँ आँख में strawberry, दाएँ आँख में blackberry” वाला prompt उदाहरण दिलचस्प था
      model ने observer के नज़रिए से left-right समझा और उन्हें ग़लत जगह रख दिया
      ऐसी relative instruction errors medical settings में भी आम समस्या हैं
      संबंधित उदाहरण लिंक
    • Max की Nano Banana guide अभी भी मान्य है
      NB Pro में भी ज़्यादातर prompts अच्छी तरह काम करते हैं
      guide link
      मेरे experiment results भी साझा किए गए
    • input image की लागत $0.0011 है, $0.06 नहीं
    • gemimg 0.3.2 version जारी किया गया है, और NB Pro में image errors का अधिकांश हिस्सा ठीक हो गया है
      “Studio Ghibli style conversion” ChatGPT से काफ़ी अधिक सटीक है
      हालाँकि कुछ बहुत realistic images uncanny valley में चली जाती हैं
    • gemimg wrapper अभी भी उपयोगी है
      इससे फिर महसूस हुआ कि तकनीकी बदलावों के अनुरूप adaptable tool design कितना महत्वपूर्ण है
  • छोटे prompts से पूरा infographic generate करने की क्षमता चौंकाने वाली है
    मैंने “Datasette project कैसे काम करता है” पूछा, और काफ़ी परिष्कृत नतीजा मिला
    result link

    • यह feature SaaS में event flyer generation को क्रांतिकारी ढंग से बदल सकता है
      अभी तक text अलग render करना पड़ता था, लेकिन अब शायद सब कुछ एक बार में हो सके
    • यह piano keyboard पर middle C खोजने में विफल रहा
      result image देखें
    • बहुत कम जानकारी वाले project (player.html) के लिए भी इसने अच्छा infographic बनाया
      GitHub link
      Instagram के लिए square format में भी इसे अपने-आप बदल दिया
    • यह जानने की उत्सुकता है कि Datasette infographic वास्तव में उसके काम करने के तरीके से मेल खाता है या नहीं
  • AI images अब स्पष्ट artifacts तो नहीं बनातीं, लेकिन style की वजह से उनमें अब भी AI वाली झलक रहती है
    खासकर infographics इंसानों द्वारा बनाए गए काम से अलग पहचाने जा सकते थे
    यह किसी खास dataset के over-representation का नतीजा लगता है

    • इंसान बहुत सूक्ष्म visual differences के प्रति बेहद संवेदनशील होते हैं
      average values पर trained models “औसत image space” तैयार करते हैं
      संबंधित उदाहरण देखें, तो fine-tuning से realistic results भी संभव हैं
    • यह सिर्फ data की समस्या नहीं है
      कुछ models जानबूझकर style को हटा देते हैं, जिससे artificial feel आती है
      open models में LoRA से fine-grained adjustment संभव है, लेकिन closed models में यही मुश्किल है
    • ज़्यादातर models पूरे web के data पर train होकर predictable average results देते हैं
      अगर आप मौलिक images चाहते हैं, तो prompt खुद अधिक रचनात्मक होना चाहिए
    • texture, proportion, lighting जैसी चीज़ों में अभी भी सूक्ष्म गलतियाँ रह जाती हैं
      इसी वजह से image editing features को अगला बड़ा कार्य माना जा रहा है
    • human feedback से fine-tuned models “औसत पसंद” सीख लेते हैं, जिससे व्यक्तित्व ग़ायब हो जाता है
      शुरुआती models की quality कम थी, लेकिन वे अधिक दिलचस्प results देते थे
  • SynthID एक अच्छा पहला कदम है, लेकिन इसकी सीमा यह है कि बिना watermark वाले AI content को यह अलग नहीं कर सकता
    बड़ी कंपनियों को standardized identifiers अपनाने चाहिए

    • मुझे लगता है कि सरकार द्वारा watermark अनिवार्य करना ख़तरनाक होगा
      अगर Photoshop पर भी ऐसा नियम होता, तो रचनात्मकता काफ़ी सीमित हो जाती
    • लगता है Apple कभी न कभी “Real Photos” जैसा कोई feature लाएगा
      यानी यह साबित करने के लिए कि फोटो सचमुच कैमरे से ली गई है, और iMessage में verified badge जैसा कुछ दिखाया जाएगा
    • कंपनियाँ watermark इसलिए लगाती हैं क्योंकि data retraining management का मामला है
      अंततः बड़े commercial models default रूप से watermark लागू करने लगेंगे
    • अगर standardized identifier आ गया, तो उसे हटाने वाला software भी आ जाएगा
      यह एक अंतहीन cat-and-mouse game बन जाएगा
    • इस समस्या को हल करने की कोशिश करने वाला C2PA project मौजूद है
  • 2D animators अभी निश्चिंत रह सकते हैं
    sprite sheet बनाकर देखा, तो यह सिर्फ frames दोहराता रहा, लेकिन स्वाभाविक बीच की motion (interpolation) नहीं बना पाया

  • आधिकारिक सामग्री संग्रह
    Developer Blog
    DeepMind Page
    Model Card PDF
    SynthID परिचय

  • यह model पहली image generation model है जिसने मेरा piano test pass किया
    इसने हर octave में काली keys के pattern को सही तरह दोहराया
    पहले के models हमेशा key arrangement ग़लत दिखाते थे

    • लेकिन 88-key standard से बाहर जाने पर अब भी बहुत errors हैं
      किसी खास note को color करने का अनुरोध भी यह लगभग random तरीके से संभालता है
      piano एक standardized object है, इसलिए training data भी बहुत होगा, फिर भी इसकी समझ कमज़ोर है
    • दोहराए जाने वाले pattern को लंबे समय तक बनाए रखना कठिन काम है
      पूरे 88 keys में consistency बनाए रखना प्रभावशाली था
  • अब models image के भीतर text को स्वाभाविक ढंग से render कर सकते हैं
    जो काम पहले असंभव था, वह अब लगभग basic feature जैसा लगने लगा है

    • मैं भी सहमत हूँ। लेकिन icon generation जैसे क्षेत्र, जहाँ visuals और code एक-दूसरे से मिलते हैं, वहाँ यह अब भी कमज़ोर है
      curves, spacing, balance जैसे सूक्ष्म design कामों में अभी भी इंसान बेहतर हैं