- Nano Banana Google का Gemini 2.5 Flash Image मॉडल है, जो text prompts को बारीकी से समझकर जटिल image composition को सटीक रूप से लागू करने वाला autoregressive image generation model है
- शक्तिशाली text encoder की वजह से यह specific rules, color codes, और JSON·HTML-आधारित input तक को विश्वसनीय ढंग से दर्शाता है, और इसकी prompt adherence बहुत ऊंची है
- यह ChatGPT के gpt-image-1 से सस्ता है, और API के जरिए developers सीधे image generation apps बना सकते हैं; साथ ही Python package gemimg से इसे आसानी से इस्तेमाल किया जा सकता है
- जटिल editing·compositing·code·webpage rendering जैसे कई experiments में इसने उच्च accuracy और consistency दिखाई, लेकिन style transfer और text rendering में इसकी सीमाएं मौजूद हैं
- यह AI image generation के precision control की संभावना दिखाता है, और आगे prompt-based visual engineering के नए मानक के रूप में ध्यान आकर्षित कर रहा है
AI image generation models में बदलाव और Nano Banana का आगमन
- हाल के समय में AI image generation क्षेत्र में FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 जैसे कई मॉडल आए, लेकिन 2025 के मार्च में ChatGPT की free image generation feature ने आम लोगों की धारणा को सबसे ज्यादा प्रभावित किया
- ChatGPT की images को पीले टोन और एक जैसी line art·typography के कारण आसानी से पहचाना जा सकता है
- ChatGPT का आधार मॉडल gpt-image-1 एक autoregressive architecture पर आधारित है, जो token स्तर पर image बनाता है और एक high-quality image के लिए लगभग 30 सेकंड लेता है
- अगस्त 2025 में LMArena पर “** nano-banana**” codename वाला एक मॉडल सामने आया, और बाद में Google ने इसे Gemini 2.5 Flash Image के रूप में जारी किया
- यह 1,290 tokens के साथ image generate करता है, और Gemini app की बढ़ती लोकप्रियता के कारण “Nano Banana” नाम इसका आधिकारिक alias बन गया
Nano Banana की image generation और API उपयोगिता
Prompt adherence test: skull pancake और image editing
- “blueberries और maple syrup के साथ skull-shaped pancake की image” वाले prompt को इसने सटीक रूप से लागू किया
- syrup के बहाव, pancake की texture, blueberries की position जैसे details को अच्छी तरह रखा गया
- इसके बाद उसी image पर 5 simultaneous editing commands (strawberry·blackberry जोड़ना, mint garnish, plate बदलना, background person जोड़ना) लागू किए गए
- सभी बदलाव सटीक रूप से दिखे, और अनावश्यक हिस्सों में बहुत कम परिवर्तन हुआ
Character consistency test: Ugly Sonic और Obama handshake
- Nano Banana LoRA training के बिना भी specific character consistency बनाए रख सकता है
- “Ugly Sonic बराक ओबामा से हाथ मिलाते हुए” prompt में वास्तव में दोनों characters साथ दिखाई देते हैं
- इसके बाद “Pulitzer-prize-winning New York Times cover photo” वाक्यांश जोड़ने पर composition·color tone·lighting quality बेहतर हुई
- “text exclude” command से अनावश्यक elements हटाए जा सकते हैं
- जब 17 Ugly Sonic images को साथ input किया गया, तो appearance reconstruction और ज्यादा सटीक हो गया
Gemini 2.5 Flash और Nano Banana का संबंध
- Nano Banana, Gemini 2.5 Flash का multimodal encoder extension है
- इसमें Markdown·JSON training, object recognition और segmentation mask generation की क्षमता है
- यह CLIP (77 tokens) या T5 (512 tokens) की तुलना में कहीं बड़ा 32,768-token context window support करता है
- जटिल rule-based prompts (जैसे तीन बिल्लियों के color·costume·lighting·composition conditions) को यह पूरी तरह पूरा करता है
- वही prompt ChatGPT में color और composition errors दिखाता है
Code और text generation experiments
- “refrigerator magnets से बना Python Fibonacci code image” prompt में
- Nano Banana ने code structure को आंशिक रूप से दोहराया और कुछ syntax highlighting colors भी दिखाए
- ChatGPT ने भी ऐसा प्रयास किया, लेकिन quality का अंतर स्पष्ट था
- “पिछले text को magnets के रूप में दिखाओ” experiment में Nano Banana का system prompt का कुछ हिस्सा उजागर हुआ
- इसके internal rules में “buzzword के उपयोग पर रोक” जैसी शर्त की पुष्टि हुई
- uppercase (MUST) के उपयोग से prompt adherence बेहतर होने की भी पुष्टि हुई
Large prompt handling: HTML·JSON inputs
- Nano Banana पूरे HTML/CSS/JS code को render करके webpage image बना सकता है
- layout और colors सटीक थे, हालांकि कुछ text और proportion errors मौजूद थे
- JSON-आधारित character description input देने पर इसने Paladin/Pirate/Barista मिश्रित character को visualize किया
- costume, props, pose जैसी अधिकांश चीजें JSON fields से मेल खाती थीं
- “photorealistic shooting conditions” जोड़ने पर photorealism बेहतर हुआ, और reflective light व depth भी दिखी
Nano Banana की सीमाएं और समस्याएं
- “Make me into Studio Ghibli” prompt में style transfer असफल रहा
- autoregressive nature के कारण इसमें style change resistance मौजूद है
- copyright restrictions लगभग नहीं के बराबर हैं, इसलिए कई IP characters को एक ही scene में generate किया जा सकता है
- उदाहरण: Mario·Mickey Mouse·Pikachu·Optimus Prime एक ही club scene में दिखाई दे सकते हैं
- NSFW content generation की संभावना मौजूद है, यानी moderation अपेक्षाकृत ढीली है
- text rendering अधूरा है, और style transfer की कमजोरी जैसी तकनीकी सीमाएं अभी भी बनी हुई हैं
निष्कर्ष और महत्व
- Nano Banana एक ऐसा मॉडल है जो precise prompt engineering के जरिए high-quality image control को संभव बनाता है
- यह HTML·JSON·complex rule-based inputs तक को समझ सकता है, इसलिए AI image generation के नए experimentation platform के रूप में उभर रहा है
- यह ChatGPT-केंद्रित जनधारणा से आगे जाकर AI image generation की वास्तविक संभावनाओं और सीमाओं की जांच करने का उदाहरण है
- लेखक ने सभी experiment prompts और Jupyter Notebook सार्वजनिक किए हैं, जिससे reproducibility और transparency सुनिश्चित होती है
- Nano Banana को prompt-centric visual engineering युग के turning point के उदाहरण के रूप में देखा जा रहा है
1 टिप्पणियां
Hacker News टिप्पणियाँ
धीरे-धीरे output control आसान होता जा रहा है, और अब हर सीन में character, lighting, और यहाँ तक कि दिन का समय भी consistently बनाए रखना संभव हो गया है
मैं environment·camera·subject·composition·lighting·color·quality जैसे 7-स्टेप prompt layers इस्तेमाल कर रहा हूँ, थोड़ा ज़्यादा है लेकिन अभी प्रयोग कर रहा हूँ
साथ ही, मैंने एक आसान editing tool बनाया है जिसमें इमेज पर सीधे bounding box बनाकर edits कर सकते हैं, और फिर Claude को इमेज भेजकर correction prompts अपने-आप generate करवाता हूँ
इस प्रक्रिया से मैं सीनों के बीच transitions को natural रखने वाली GenAI video generation pipeline बना सका
हम character·background·style की consistency बनाए रखने की कोशिश कर रहे हैं, और तुम्हारे काम से काफी समानता है
संदर्भ के लिए हमारा product Hypernatural.ai भी देख सकते हो
मैंने इसमें Gemini CLI जोड़कर PR भेजा था, और इसे नीचे की तरह चला सकते हैं
नतीजा इस comment में है
इस link की तरह क्या इसे HTML/CSS से हाथ से बनाया गया था, या amp-code जैसा कोई automation tool है?
ऐसा करने से शायद uv के साथ CLI को सीधे install किया जा सकेगा
चीन के editing models धीरे-धीरे NanoBanana स्तर के करीब पहुँच रहे हैं, और open source होने की वजह से mask·kernel-आधारित advanced image manipulation संभव है
LoRA से style transfer भी किया जा सकता है, और यह बंद अमेरिकी models की तुलना में कहीं ज़्यादा दिलचस्प है
ऐसा भी लगता है कि Nano Banana के training data को निकालकर नए model में distill करना आसान हो जाएगा
Nano Banana की 32,768-token context window की वजह से, complex image generation pipeline में मैं बीच में Mistral 7B डालकर prompt variations के 4 version बनाकर इस्तेमाल करता हूँ
यह सही है कि style transfer कमज़ोर है, लेकिन अगर दो इमेज साथ दी जाएँ तो नतीजे कुछ बेहतर आते हैं
पहली target transformation के लिए, और दूसरी style reference image के तौर पर इस्तेमाल करता हूँ
मेरे portfolio example में भी यही approach इस्तेमाल की गई है
strawberry दाएँ eye socket में है (इमेज के बाएँ), और blackberry दूसरी तरफ है
लगता है यह इसलिए हुआ क्योंकि ज़्यादातर image descriptions observer viewpoint से लिखी जाती हैं
अगर user चाहता था कि strawberry खोपड़ी की बाईं आँख में हो, तो उसे “उसकी बाईं आँख” जैसा स्पष्ट लिखना चाहिए था
इसलिए prompt में “left/right character viewpoint के आधार पर हैं” यह साफ़ लिखने पर सफलता दर बढ़ गई
लेखक ने कहा कि Nano Banana ने सभी edits सही किए, लेकिन इस हिस्से पर बहस हो सकती है
मुझे लगता है कि खोपड़ी की “दाईं आँख” को खोपड़ी के viewpoint से समझना सही है
उसके बाद बनने वाली इमेज से watermark गायब हो जाता है
मैं अपने मोहल्ले को 18वीं सदी के परिदृश्य के रूप में visualize करने वाला एक project कर रहा हूँ
मैंने SketchUp और Twinmotion से modeling की, लेकिन वास्तव जैसी इमेज पाना मुश्किल था
कई AI image generators आज़माए, लेकिन Nano Banana पहला था जिसने geometric consistency बनाए रखते हुए नया style लागू किया
“इस पेंटिंग को photo जैसा बना दो” जैसी simple prompt से मुझे हैरान कर देने वाले results मिले
हाँ, अगर सीधे 18वीं सदी लिख दूँ तो कभी-कभी painting-style result आ जाता है, इसलिए मैं “संरक्षित ऐतिहासिक सड़क की photo” जैसे indirect phrasing का इस्तेमाल करता हूँ
अभी भी manual modeling साथ-साथ करता हूँ, लेकिन Nano Banana की वजह से मेरी modeling approach बदल गई है
बहुत-सी समस्याएँ इसलिए पैदा होती हैं क्योंकि लोग अपनी चाहत को साफ़ तौर पर व्यक्त नहीं कर पाते
prompt engineering communication complexity को संभालने की skill है, और यह शब्दों और अर्थ के बीच के gap को पहचानने में मदद करती है
यह programming language से अलग एक ambiguous interface है, और prompt engineering इसे संभालने की नई skill है
Sonic की तरह यह भी ऐसा character है जिसे live-action में ढालना कठिन है, इसलिए result को लेकर जिज्ञासा थी, लेकिन photorealism की जगह सिर्फ digital-art style इमेज ही मिली
keywords बदलने पर भी वही हुआ, और ChatGPT में copyright filter की वजह से test भी नहीं कर सका
फिर भी कोशिश करना दिलचस्प था
मैंने एक portrait photo को clay animation style में बदलने को कहा, लेकिन लगभग कोई बदलाव नहीं हुआ
फिर जब “इसे 10 साल छोटा बना दो” जोड़ा, तो अचानक वह clay doll जैसा दिखने लगा
उदाहरण के लिए, बिना किसी निर्देश के भी कमरे में fireplace या garage जोड़ देता है
temperature को 0 पर सेट करने पर भी ऐसा होता है, इसलिए reliable app बनाना मुश्किल है
क्या किसी का इससे बेहतर अनुभव रहा है?
uppercase की tokenization अलग होती है, इसलिए यह model के लिए समझने में कठिन input बन सकता है