Nano Banana सूक्ष्म prompt engineering के साथ बेहद सटीक AI image generation को संभव बनाता है

(minimaxir.com)

10 पॉइंट द्वारा GN⁺ 2025-11-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Nano Banana Google का Gemini 2.5 Flash Image मॉडल है, जो text prompts को बारीकी से समझकर जटिल image composition को सटीक रूप से लागू करने वाला autoregressive image generation model है
शक्तिशाली text encoder की वजह से यह specific rules, color codes, और JSON·HTML-आधारित input तक को विश्वसनीय ढंग से दर्शाता है, और इसकी prompt adherence बहुत ऊंची है
यह ChatGPT के gpt-image-1 से सस्ता है, और API के जरिए developers सीधे image generation apps बना सकते हैं; साथ ही Python package gemimg से इसे आसानी से इस्तेमाल किया जा सकता है
जटिल editing·compositing·code·webpage rendering जैसे कई experiments में इसने उच्च accuracy और consistency दिखाई, लेकिन style transfer और text rendering में इसकी सीमाएं मौजूद हैं
यह AI image generation के precision control की संभावना दिखाता है, और आगे prompt-based visual engineering के नए मानक के रूप में ध्यान आकर्षित कर रहा है

AI image generation models में बदलाव और Nano Banana का आगमन

हाल के समय में AI image generation क्षेत्र में FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 जैसे कई मॉडल आए, लेकिन 2025 के मार्च में ChatGPT की free image generation feature ने आम लोगों की धारणा को सबसे ज्यादा प्रभावित किया
ChatGPT की images को पीले टोन और एक जैसी line art·typography के कारण आसानी से पहचाना जा सकता है
ChatGPT का आधार मॉडल gpt-image-1 एक autoregressive architecture पर आधारित है, जो token स्तर पर image बनाता है और एक high-quality image के लिए लगभग 30 सेकंड लेता है
अगस्त 2025 में LMArena पर “** nano-banana**” codename वाला एक मॉडल सामने आया, और बाद में Google ने इसे Gemini 2.5 Flash Image के रूप में जारी किया
- यह 1,290 tokens के साथ image generate करता है, और Gemini app की बढ़ती लोकप्रियता के कारण “Nano Banana” नाम इसका आधिकारिक alias बन गया

Nano Banana की image generation और API उपयोगिता

Nano Banana से Gemini web/mobile app के “Create Image 🍌” feature या Google AI Studio में मुफ्त image generation की जा सकती है
- AI Studio में aspect ratio जैसी detailed parameters setting का support है
- generated images पर नीचे दाईं ओर watermark दिखाई देता है
Developers Gemini API के gemini-2.5-flash-image endpoint के जरिए programmatically image generate कर सकते हैं
- 1MP image पर लगभग $0.04, जो ChatGPT के $0.17 से सस्ता है
API उपयोग की जटिलता कम करने के लिए बनाया गया Python package gemimg साधारण prompt से image generate कर सकता है
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```

Prompt adherence test: skull pancake और image editing

“blueberries और maple syrup के साथ skull-shaped pancake की image” वाले prompt को इसने सटीक रूप से लागू किया
- syrup के बहाव, pancake की texture, blueberries की position जैसे details को अच्छी तरह रखा गया
इसके बाद उसी image पर 5 simultaneous editing commands (strawberry·blackberry जोड़ना, mint garnish, plate बदलना, background person जोड़ना) लागू किए गए
- सभी बदलाव सटीक रूप से दिखे, और अनावश्यक हिस्सों में बहुत कम परिवर्तन हुआ

Character consistency test: Ugly Sonic और Obama handshake

Nano Banana LoRA training के बिना भी specific character consistency बनाए रख सकता है
“Ugly Sonic बराक ओबामा से हाथ मिलाते हुए” prompt में वास्तव में दोनों characters साथ दिखाई देते हैं
- इसके बाद “Pulitzer-prize-winning New York Times cover photo” वाक्यांश जोड़ने पर composition·color tone·lighting quality बेहतर हुई
- “text exclude” command से अनावश्यक elements हटाए जा सकते हैं
जब 17 Ugly Sonic images को साथ input किया गया, तो appearance reconstruction और ज्यादा सटीक हो गया

Gemini 2.5 Flash और Nano Banana का संबंध

Nano Banana, Gemini 2.5 Flash का multimodal encoder extension है
- इसमें Markdown·JSON training, object recognition और segmentation mask generation की क्षमता है
- यह CLIP (77 tokens) या T5 (512 tokens) की तुलना में कहीं बड़ा 32,768-token context window support करता है
जटिल rule-based prompts (जैसे तीन बिल्लियों के color·costume·lighting·composition conditions) को यह पूरी तरह पूरा करता है
- वही prompt ChatGPT में color और composition errors दिखाता है

Code और text generation experiments

“refrigerator magnets से बना Python Fibonacci code image” prompt में
- Nano Banana ने code structure को आंशिक रूप से दोहराया और कुछ syntax highlighting colors भी दिखाए
- ChatGPT ने भी ऐसा प्रयास किया, लेकिन quality का अंतर स्पष्ट था
“पिछले text को magnets के रूप में दिखाओ” experiment में Nano Banana का system prompt का कुछ हिस्सा उजागर हुआ
- इसके internal rules में “buzzword के उपयोग पर रोक” जैसी शर्त की पुष्टि हुई
- uppercase (MUST) के उपयोग से prompt adherence बेहतर होने की भी पुष्टि हुई

Large prompt handling: HTML·JSON inputs

Nano Banana पूरे HTML/CSS/JS code को render करके webpage image बना सकता है
- layout और colors सटीक थे, हालांकि कुछ text और proportion errors मौजूद थे
JSON-आधारित character description input देने पर इसने Paladin/Pirate/Barista मिश्रित character को visualize किया
- costume, props, pose जैसी अधिकांश चीजें JSON fields से मेल खाती थीं
- “photorealistic shooting conditions” जोड़ने पर photorealism बेहतर हुआ, और reflective light व depth भी दिखी

Nano Banana की सीमाएं और समस्याएं

“Make me into Studio Ghibli” prompt में style transfer असफल रहा
- autoregressive nature के कारण इसमें style change resistance मौजूद है
copyright restrictions लगभग नहीं के बराबर हैं, इसलिए कई IP characters को एक ही scene में generate किया जा सकता है
- उदाहरण: Mario·Mickey Mouse·Pikachu·Optimus Prime एक ही club scene में दिखाई दे सकते हैं
NSFW content generation की संभावना मौजूद है, यानी moderation अपेक्षाकृत ढीली है
text rendering अधूरा है, और style transfer की कमजोरी जैसी तकनीकी सीमाएं अभी भी बनी हुई हैं

निष्कर्ष और महत्व

Nano Banana एक ऐसा मॉडल है जो precise prompt engineering के जरिए high-quality image control को संभव बनाता है
यह HTML·JSON·complex rule-based inputs तक को समझ सकता है, इसलिए AI image generation के नए experimentation platform के रूप में उभर रहा है
यह ChatGPT-केंद्रित जनधारणा से आगे जाकर AI image generation की वास्तविक संभावनाओं और सीमाओं की जांच करने का उदाहरण है
लेखक ने सभी experiment prompts और Jupyter Notebook सार्वजनिक किए हैं, जिससे reproducibility और transparency सुनिश्चित होती है
Nano Banana को prompt-centric visual engineering युग के turning point के उदाहरण के रूप में देखा जा रहा है

1 टिप्पणियां

GN⁺ 2025-11-14

Hacker News टिप्पणियाँ

मैं स्टोरीबोर्ड के लिए रोज़ दर्जनों इमेज बना रहा हूँ
धीरे-धीरे output control आसान होता जा रहा है, और अब हर सीन में character, lighting, और यहाँ तक कि दिन का समय भी consistently बनाए रखना संभव हो गया है
मैं environment·camera·subject·composition·lighting·color·quality जैसे 7-स्टेप prompt layers इस्तेमाल कर रहा हूँ, थोड़ा ज़्यादा है लेकिन अभी प्रयोग कर रहा हूँ
साथ ही, मैंने एक आसान editing tool बनाया है जिसमें इमेज पर सीधे bounding box बनाकर edits कर सकते हैं, और फिर Claude को इमेज भेजकर correction prompts अपने-आप generate करवाता हूँ
इस प्रक्रिया से मैं सीनों के बीच transitions को natural रखने वाली GenAI video generation pipeline बना सका
- हमारी टीम भी इसी तरह nano banana का इस्तेमाल करके स्टोरीबोर्ड बनाती है, और img2vid model से full-motion video तैयार करती है
  हम character·background·style की consistency बनाए रखने की कोशिश कर रहे हैं, और तुम्हारे काम से काफी समानता है
  संदर्भ के लिए हमारा product Hypernatural.ai भी देख सकते हो
- मेरा अनुभव इसका उल्टा है, एक बार result पटरी से उतर जाए तो उसे फिर मूल इरादे पर वापस लाना लगभग असंभव लगता है
मुझे gemimg Python library पसंद है
मैंने इसमें Gemini CLI जोड़कर PR भेजा था, और इसे नीचे की तरह चला सकते हैं
नतीजा इस comment में है
- @simonw से एक सवाल है — gemini-cli terminal session का gist preview कैसे बनाया गया?
  इस link की तरह क्या इसे HTML/CSS से हाथ से बनाया गया था, या amp-code जैसा कोई automation tool है?
- क्या pyproject.toml में project.scripts entry न जोड़ने की कोई वजह है?
  ऐसा करने से शायद uv के साथ CLI को सीधे install किया जा सकेगा
- लेखक ने शुरुआत में open source पर ज़ोर दिया था, इसलिए जानना चाहता हूँ कि क्या QwenEdit ecosystem को भी कवर करेंगे
  चीन के editing models धीरे-धीरे NanoBanana स्तर के करीब पहुँच रहे हैं, और open source होने की वजह से mask·kernel-आधारित advanced image manipulation संभव है
  LoRA से style transfer भी किया जा सकता है, और यह बंद अमेरिकी models की तुलना में कहीं ज़्यादा दिलचस्प है
  ऐसा भी लगता है कि Nano Banana के training data को निकालकर नए model में distill करना आसान हो जाएगा
minimaxir की पोस्ट मुझे दिलचस्प लगी
Nano Banana की 32,768-token context window की वजह से, complex image generation pipeline में मैं बीच में Mistral 7B डालकर prompt variations के 4 version बनाकर इस्तेमाल करता हूँ
यह सही है कि style transfer कमज़ोर है, लेकिन अगर दो इमेज साथ दी जाएँ तो नतीजे कुछ बेहतर आते हैं
पहली target transformation के लिए, और दूसरी style reference image के तौर पर इस्तेमाल करता हूँ
मेरे portfolio example में भी यही approach इस्तेमाल की गई है
- शायद पहले वाले “make me Ghibli” trend के बाद, Studio Ghibli style को रोकने के लिए यह कोई explicit restriction हो सकती है
दूसरी skull pancake image में एक मज़ेदार गलती दिखी
strawberry दाएँ eye socket में है (इमेज के बाएँ), और blackberry दूसरी तरफ है
लगता है यह इसलिए हुआ क्योंकि ज़्यादातर image descriptions observer viewpoint से लिखी जाती हैं
- अगर मैं इंसान होता तो शायद Nano Banana की तरह ही करता
  अगर user चाहता था कि strawberry खोपड़ी की बाईं आँख में हो, तो उसे “उसकी बाईं आँख” जैसा स्पष्ट लिखना चाहिए था
- बहुत से लोग “बाईं आँख” को subject के हिसाब से समझें या camera के हिसाब से, इसमें उलझ सकते हैं
- मैं भी यह हिस्सा miss कर गया था, लेकिन बाद में character JSON में यही समस्या बताई
  इसलिए prompt में “left/right character viewpoint के आधार पर हैं” यह साफ़ लिखने पर सफलता दर बढ़ गई
- मेरा भी यही सोचना था
  लेखक ने कहा कि Nano Banana ने सभी edits सही किए, लेकिन इस हिस्से पर बहस हो सकती है
  मुझे लगता है कि खोपड़ी की “दाईं आँख” को खोपड़ी के viewpoint से समझना सही है
Google AI Studio से request भेजें, और watermark removal के लिए browser developer tools में “watermark_4” request को block कर दें
उसके बाद बनने वाली इमेज से watermark गायब हो जाता है
“Nano Banana style transfer में कमज़ोर है” यह वाक्य देखकर मुझे आश्चर्य हुआ
मैं अपने मोहल्ले को 18वीं सदी के परिदृश्य के रूप में visualize करने वाला एक project कर रहा हूँ
मैंने SketchUp और Twinmotion से modeling की, लेकिन वास्तव जैसी इमेज पाना मुश्किल था
कई AI image generators आज़माए, लेकिन Nano Banana पहला था जिसने geometric consistency बनाए रखते हुए नया style लागू किया
“इस पेंटिंग को photo जैसा बना दो” जैसी simple prompt से मुझे हैरान कर देने वाले results मिले
हाँ, अगर सीधे 18वीं सदी लिख दूँ तो कभी-कभी painting-style result आ जाता है, इसलिए मैं “संरक्षित ऐतिहासिक सड़क की photo” जैसे indirect phrasing का इस्तेमाल करता हूँ
अभी भी manual modeling साथ-साथ करता हूँ, लेकिन Nano Banana की वजह से मेरी modeling approach बदल गई है
- लेकिन अगर artistic image को style reference के रूप में दिया जाए, तो Nano Banana training range से बाहर जाकर ठीक से generalize नहीं कर पाता
“prompt engineered” का मतलब आखिरकार वही है कि जो देखना चाहते ho, उसे खुद लिखो
- लेकिन वह सच में एक skill है
  बहुत-सी समस्याएँ इसलिए पैदा होती हैं क्योंकि लोग अपनी चाहत को साफ़ तौर पर व्यक्त नहीं कर पाते
  prompt engineering communication complexity को संभालने की skill है, और यह शब्दों और अर्थ के बीच के gap को पहचानने में मदद करती है
- model के हिसाब से कुछ prompts समझ में नहीं भी आते
- अब हम LLM के साथ interaction को natural language interface के रूप में समझने लगे हैं
  यह programming language से अलग एक ambiguous interface है, और prompt engineering इसे संभालने की नई skill है
- आखिरकार यह prompt को बार-बार सुधारने की प्रक्रिया है ताकि मनचाहा result मिले
- पहले इसे “Google Fu” कहा जाता था
मैंने live-action My Neighbor Totoro वाला सीन माँगकर देखा
Sonic की तरह यह भी ऐसा character है जिसे live-action में ढालना कठिन है, इसलिए result को लेकर जिज्ञासा थी, लेकिन photorealism की जगह सिर्फ digital-art style इमेज ही मिली
keywords बदलने पर भी वही हुआ, और ChatGPT में copyright filter की वजह से test भी नहीं कर सका
फिर भी कोशिश करना दिलचस्प था
Nano Banana कभी-कभी editing पर धीरे प्रतिक्रिया देता है
मैंने एक portrait photo को clay animation style में बदलने को कहा, लेकिन लगभग कोई बदलाव नहीं हुआ
फिर जब “इसे 10 साल छोटा बना दो” जोड़ा, तो अचानक वह clay doll जैसा दिखने लगा
- वह style transfer request थी, इसलिए Ghibli example की तरह उसका fail होना लगभग तय था
मेरे अनुभव में nano banana अब भी
- इमेज में random edits कर देता है
- scale बदल देता है
- या सूक्ष्म लेकिन overall detail changes पैदा करता है
  उदाहरण के लिए, बिना किसी निर्देश के भी कमरे में fireplace या garage जोड़ देता है
  temperature को 0 पर सेट करने पर भी ऐसा होता है, इसलिए reliable app बनाना मुश्किल है
  क्या किसी का इससे बेहतर अनुभव रहा है?
- “ALL CAPS” वाला हिस्सा दिलचस्प है
  uppercase की tokenization अलग होती है, इसलिए यह model के लिए समझने में कठिन input बन सकता है
- मैं PixLab editor बना रहा हूँ, और यह uppercase commands को बिल्कुल वैसा ही follow करता है

Nano Banana सूक्ष्म prompt engineering के साथ बेहद सटीक AI image generation को संभव बनाता है

AI image generation models में बदलाव और Nano Banana का आगमन

Nano Banana की image generation और API उपयोगिता

Prompt adherence test: skull pancake और image editing

Character consistency test: Ugly Sonic और Obama handshake

Gemini 2.5 Flash और Nano Banana का संबंध

Code और text generation experiments

Large prompt handling: HTML·JSON inputs

Nano Banana की सीमाएं और समस्याएं

निष्कर्ष और महत्व

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ