21 पॉइंट द्वारा GN⁺ 2025-09-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google के Nano-banana के विभिन्न image generation और editing कार्यों के उदाहरणों को संकलित करने वाला एक open source केसबुक
  • Google की image generation तकनीक का उपयोग करके creative transformation और multi-image editing क्षमताओं को दिखाता है
  • हर केस Twitter/X, Xiaohongshu आदि कम्युनिटी से एकत्र किए गए वास्तविक उपयोग उदाहरणों पर आधारित है
  • text prompt और input image को मिलाकर experimental और applied transformation examples की विविधता प्रदान करता है
  • prompt design और input guide को दस्तावेज़ के रूप में व्यवस्थित किया गया है ताकि कोई भी इसे तुरंत उपयोग कर सके

अवलोकन

  • यह repository Nano-banana की image generation और editing तकनीक से बनाई गई विभिन्न images और prompt examples का एक curated gallery है
  • यह Google की असीम image generation और editing संभावनाओं को दिखाते हुए Nano-banana को समझने में मदद करता है, और साथ ही multi-image fusion तथा creative editing की शक्ति का अनुभव भी कराता है
  • उदाहरण मुख्य रूप से Twitter/X, Xiaohongshu और अन्य self-media platforms से एकत्र किए गए हैं
  • नवीनतम repository update date और version history दर्ज की गई है

मेन्यू

हर केस input image, prompt संयोजन और output example से बना है।

इनपुट & prompt उदाहरण

  • इनपुट: reference image, Google Maps image, portrait photo, sketch, material image आदि जैसे कई प्रकार आवश्यक हैं
  • prompt: image transformation, editing, design, color correction आदि के लिए अंग्रेज़ी में लिखी गई विस्तृत अनुरोध सामग्री शामिल है

प्रतिनिधि prompt संरचना

  • व्यक्ति या वस्तु की style, hairstyle, background transformation आदि
  • product, building, character, food, comic style, ID photo, mockup आदि जैसे विभिन्न उद्देश्यों के लिए उपयोग संभव
  • [bracket] वाले हिस्सों को उपयोग के उद्देश्य के अनुसार बदलकर अधिक सूक्ष्म guide दिया जा सकता है

उदाहरण flow

  • image upload → prompt input → output result की जाँच (image link)
  • कुछ उदाहरण 'input/result' table रूप में हैं, जबकि कुछ में केवल output result दिया गया है

केस के प्रमुख उदाहरणों का सार

  • character/product transformation: portrait photo को character, figure, Lego, Gundam style package में बदलना
  • cosplay/design: illustration आधारित cosplay photo, character 3-view sheet और expression sheet बनाना
  • image correction/restoration: पुरानी फोटो restore करना, transparent background हटाना, color/brightness सुधारना, noise recovery
  • compositing/style conversion: comic, black-and-white बिना संवाद वाले 4-panel, comic style conversion, miniature, material/filter apply करना, hairstyle/makeup बदलना
  • data visualization: blog/article summary infographic, calorie और nutrition information display
  • education/presentation: long-term model illustration, math problem solving, explanatory annotations जोड़ना

prompt guide और संदर्भ

  • हर prompt और केस विवरण में input values तथा [replacement content] के लिए customized guide दी गई है
  • कई images को मिलाकर story, fashion board, pose sheet आदि में उपयोग किया जा सकता है
  • technical outputs (wireframe, hologram, 3D expression) भी संभव हैं

कम्युनिटी भागीदारी और आभार

  • AI कम्युनिटी के वास्तविक उदाहरण साझा करने वालों के केंद्र में रहकर यह सामग्री लगातार जोड़ी जा रही है
  • नए उपयोग विचार या creative works को स्वतंत्र रूप से प्रस्तावित किया जा सकता है

प्रोजेक्ट का महत्व और विशिष्टताएँ

  • यह नवीनतम image generation algorithms के वास्तविक application examples को समृद्ध रूप से संकलित करने वाली GitHub repository है
  • Nano-banana prompts और output results के detailed options, तथा केस-वार application methods को एक नज़र में देखा जा सकता है
  • practical designers, AI researchers, developers सहित किसी के लिए भी उच्च संदर्भ मूल्य और उपयोगिता प्रदान करता है
  • हर उदाहरण को image editing, generation और transformation के विभिन्न उद्देश्यों के लिए आसानी से पुन: उपयोग किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-09-12
Hacker News राय
  • Nano-Banana ने वाकई चौंका देने वाले नतीजे दिखाए हैं। मैं एक अत्याधुनिक image model comparison वेबसाइट चलाता हूँ, जहाँ मेरी सबसे बड़ी कसौटी यह है कि अलग-अलग text-to-image prompts पर आउटपुट कितनी सटीकता से आता है। हाल ही में मैंने एक Editing Comparison Showdown भी जोड़ा है, जो मौजूदा इमेज को टेक्स्ट के ज़रिए लोकल स्तर पर एडिट करने की क्षमता का मूल्यांकन करता है। अभी मैं 6 multimodal models (Nano-Banana, Kontext Max, Qwen 20b आदि) की तुलना कर रहा हूँ। यहाँ नतीजे देखे जा सकते हैं। Gemini Flash 2.5 को 12 में से 7 अंक मिले हैं और वह पहले स्थान पर है, जबकि Kontext को 5 अंक मिले हैं, जो इस बात को देखते हुए काफ़ी प्रभावशाली है कि उसका development model लोकल मशीन पर चलाया जा सकता है
    • मैंने कई बार Nano Banana से साफ़ तौर पर कहा कि कोई बड़ी चीज़ बदले, लेकिन वह वही इमेज फिर से बना देता है। कभी-कभी अजीब तरह से सही नतीजे भी दे देता है। अगर किसी और ने भी यह अनुभव किया है या कोई समाधान जानता है, तो बताना अच्छा होगा
    • यह अब भी घड़ियाँ (जैसे 1:15 am दिखाने वाली घड़ी) ठीक से नहीं बना पाता। और cartoon images में जो टेक्स्ट बनाता है, वह भी 100% सटीक नहीं होता
    • मैं gpt-image-1 जोड़ने की सलाह दूँगा। यह सख्ती से देखें तो editing model नहीं है, क्योंकि यह global pixels बदलता है, लेकिन बहुत complex prompts और image references के मामले में यह Nano Banana से ज़्यादा निर्देशों का पालन करने वाला लगता है
  • यह मॉडल अपनी कल्पना की सीमा तक ही सीमित लगता है, और इसकी कीमत सिर्फ़ $0.04 प्रति इमेज होना प्रभावशाली है। पेज पर यह साफ़ नहीं लिखा है, लेकिन यह Google Gemini Image Generation model है (official docs)। उदाहरणों का संग्रह भी अच्छा है। हालाँकि, यह थोड़ा अजीब लगा कि दूसरा उदाहरण workplace के लिए कुछ हद तक अनुपयुक्त लगता है
    • मैं यह ज़रूर रेखांकित करना चाहूँगा कि Nano Banana खास तौर पर image editing के लिए optimized है (और जानकारी)
    • मैं जानना चाहता हूँ कि यह एक single model है या models की pipeline
  • कुछ उदाहरणों में NSFW तत्व शामिल हैं। अमेरिका की ज़्यादातर tech industry में ऊपर वाला URL शेयर करना संवेदनशील हो सकता है, इसलिए शायद अलग-अलग सुरक्षित उदाहरण चुनकर दिखाना बेहतर होगा। संदर्भ के लिए, case 1 का आधा हिस्सा anime/cartoon-style maid outfit पहने एक महिला को स्कर्ट उठाकर underwear दिखाते हुए pose में दिखाता है। मुझे लगता है कि यह उन उदाहरणों में सबसे problematic हिस्सा है, जो विज़िटर को पहले पेज पर तुरंत दिखते हैं
    • यह देखकर मैं सच में हैरान था कि इसने underwear exposure वाला उदाहरण बना दिया। जब मैंने Nano Banana इस्तेमाल किया था (safety filter 'off'), तब उसने cursed samurai helmet और लाश के साथ manga-style image बनाने से मना कर दिया था
    • मुझे इससे भी ज़्यादा यह परेशान करने वाला लगा कि reference image साफ़ तौर पर किसी artist की बनाई हुई high-quality digital art है। AI/LLM क्षेत्र में कानूनी मुद्दों से अलग भी, किसी और की कृति को official docs में खुलकर इस्तेमाल करना नैतिक रूप से असहज लगता है
  • मुझे सच में समझ नहीं आता कि लोगों को इतने अच्छे नतीजे क्यों मिल रहे हैं। मैंने यहाँ जाकर Nano Banana (gemini-2.5-flash-image-preview) चुना और इस्तेमाल किया, लेकिन आउटपुट बेहद ख़राब था। अगर character reference photo और scene upload करके कहो कि character को उस scene में डालो, तो यह बस काटकर चिपका देता है; style और color बिल्कुल अलग हों तब भी ऐसे ही डाल देता है। ChatGPT का आउटपुट फिर भी बेहतर होता है (भले कभी-कभी वैसा न दिखे, लेकिन Paint में 2 मिनट में जो बनता उससे तो कहीं बेहतर)। क्या मैं शायद गलत model इस्तेमाल कर रहा हूँ?
    • मेरा भी यही अनुभव है। जब Nano Banana ठीक से काम करता है, तो बहुत अच्छा करता है, लेकिन 90% मामलों में आउटपुट अजीब या low-quality होता है। यह cut-and-paste या paint-over जैसा लगता है, और ठीक-ठाक requests को भी "safety" कहकर मना कर देता है (मेरे अनुभव में असली लोगों वाली इमेज लगभग नामुमकिन हैं)। प्रभावशाली कम, चिढ़ाने वाला ज़्यादा है
    • मेरे अनुभव में Nano Banana जब इसे सही समझता है, तो बहुत आक्रामक तरीके से copy-and-paste करता है। आपको prompt में साफ़ कहना पड़ता है कि character scene में natural तरीके से integrated होना चाहिए। यानी, सही तरह से prompt कर दो तो यह दूसरे models से बहुत बेहतर है, लेकिन prompt design की प्रक्रिया खुद ही झंझट भरी और थकाऊ है
    • मेरा मानना है कि prompt को थोड़ा-थोड़ा बदलकर, या Gemini 2.5 pro से prompt improve करवाकर फिर उसे Gemini 2.5 Flash को देकर iterate करना उपयोगी होगा, ताकि समझ आ सके कि क्या काम करता है
    • मेरे साथ भी बिल्कुल ऐसा ही है, हमेशा कूड़े जैसे नतीजे मिलते हैं। मैंने अपनी पत्नी (32 वर्ष) की फोटो upload करके देखना चाहा कि bangs हों तो कैसी दिखेंगी, लेकिन safety issues की वजह से ज़्यादातर requests reject हो गईं। कभी-कभार सफल भी हुआ तो चेहरा पूरी तरह किसी और का था। सिर्फ़ एक बार ठीक बना, लेकिन bangs adjust नहीं हो पाए, और बार-बार वही नतीजा लौटता रहा, बीच-बीच में बहुत सारे "content blocked" संदेश भी आए
  • व्यक्तिगत रूप से मुझे इस मॉडल की performance उम्मीद से कम लगी। example images चुनी हुई लगती हैं। मैं अपनी कुछ असफल कोशिशें साझा करता हूँ: चेहरे पर बहुत गहरी shadow वाली फोटो से shadow नहीं हटा पाया; पुरानी black-and-white photo को sharp color (modern DSLR style) में बदलने को कहा तो रंग बस फीके ढंग से बदले; hairstyle 3x3 grid माँगने पर बार-बार 2x3 ही देता रहा, फिर किसी तरह 3x3 आया तो उसमें नस्लें mixed थीं; real image और generated image को मिलाना भी संभव नहीं था (जैसे tutu पहने dolphin वाली इमेज बहुत घटिया copy-paste जैसी लगी)
    • AR building highlight वाला उदाहरण बढ़िया था। उसी prompt से skyline में सबसे साफ़ दिखने वाली इमारत को तो ठीक highlight करता है, लेकिन कोई दूसरी इमारत बताओ तो पूरी तरह fail हो जाता है। Midtown Manhattan image में Chrysler Building ढूँढकर highlight करने को कहा तो उसने कहा कि वह इमेज में है ही नहीं, और 432 Park Ave माँगने पर इमेज के बीच में एक random building बना दी। Chicago museum campus की फोटो में भी जब एक खास building माँगी, तो उसने नज़र ही न आने वाले Hancock Center को highlight कर दिया। explanation भी गलत थी, और कुछ जगह टेक्स्ट भी टूटा हुआ था
    • examples भी परफेक्ट नहीं हैं। "मेरी फोटो अलग-अलग युगों में" वाले prompt में "चेहरा मत बदलो" कहने के बावजूद चेहरा पूरी तरह बदल गया; "OOTD Outfit" में गलत camera इस्तेमाल हुआ; "Virtual Makeup Try-On" में makeup की प्रस्तुति विफल रही; "Lighting Control" में lighting control बुरी तरह गड़बड़ था; "Design a Chess Set" में कहा गया कि input image की ज़रूरत नहीं, लेकिन असल में थी। फिर भी, Photoshop न इस्तेमाल करने वाले लोगों या हाथ से काम शुरू करने के लिए शुरुआती draft लेने के लिए यह उपयोगी हो सकता है
    • सच कहूँ तो, किसी भी project या promotional demo में अच्छे examples चुनकर दिखाना हमेशा स्वाभाविक बात है
  • मैंने हाल ही में Python में Nano Banana image generation आसान बनाने वाला एक पैकेज रिलीज़ किया है (github link)। टेस्ट करते हुए मुझे एक दिलचस्प prompt engineering trend दिखा: a) LLM-style Markdown lists का उपयोग, और b) "award-winning", "DSLR camera" जैसे पुराने AI image style keywords का इस्तेमाल Gemini 2.5 Flash Image में बहुत असरदार है। इस मॉडल में बड़ा text encoder और बड़ा training dataset है, इसलिए यह बेहतर समझता है कि असली phrases किन विशेषताओं की ओर इशारा करते हैं। Google के developer docs भी ऐसे keywords इस्तेमाल करने की सलाह देते हैं। और 32k context window की वजह से image के रूप में HTML render करना, या जटिल JSON input से consistent results लेना जैसी मज़ेदार कोशिशें भी संभव हैं
  • मुझे यह अद्भुत प्रगति लगती है। कुछ ही समय पहले तक एक ही character को कई बार consistently निकालना भी मुश्किल था। अब हम इस स्तर का संयोजन और consistency देख रहे हैं। generative models की प्रगति की रफ़्तार सच में कमाल की है। इतने सारे उदाहरण इकट्ठा करने वाले creator और contributors का धन्यवाद। इससे यह समझने में बहुत मदद मिलती है कि यह टूल असल में क्या कर सकता है
  • मुझे हाल में यह एहसास हुआ कि पहले मैं बड़े आनंद से यह सोचता था कि इंसानों की एक खासियत है—हम कल्पना के सहारे हेयरस्टाइल बदलाव जैसी चीज़ें अपने दिमाग़ में देख सकते हैं। अब जब मशीनों को वही क्षमता मेरी कल्पना जितनी या उससे भी बेहतर तरह से दोहराते देखता हूँ, तो थोड़ा असहज महसूस होता है; जैसे मेरी कल्पना भी शायद उतनी खास नहीं, जैसे कपड़े टाँगने की चीज़ उठाने की ताकत कोई बड़ी बात नहीं होती
    • मैं तो उन लोगों में हूँ जो दिमाग़ में इमेज बना ही नहीं पाते, इसलिए हमेशा बौद्धिक और तार्किक ढंग से सोचता हूँ, और आपकी कल्पना फिर भी एक खास क्षमता है। आम लोगों को तो यह सचमुच सुपरपावर जैसी लगती है। मैं AI को Batman (पैसा और utility belt हो तो ताकतवर, पर उसके बिना सीमित) और मानवीय कल्पना को Superman (जन्मजात शक्ति, हमेशा उपलब्ध) से तुलना करना चाहूँगा
    • मुझे लगता है कि अपने मन में कल्पित इमेज देखकर खुश होना, हँसना, चौंकना, या स्तब्ध हो जाना वास्तव में बहुत खास है। इंसानों के पास अस्तित्व का कारण और भावनाएँ हैं; हम सूर्यास्त देखकर light scattering के बारे में सोच सकते हैं, या बस उसके विस्मय का आनंद ले सकते हैं। जब भी मैं किसी क्षण को पूरी तरह ग्रहण करता हूँ, वह जादू जैसा लगता है। मैं आपको जवाब दे सकता हूँ, और Hacker News का होना भी किसी चमत्कार से कम नहीं लगता
    • मुझे aphantasia (यानी दिमाग़ में दृश्य की कल्पना न कर पाना) है, इसलिए अब यह देखकर खुशी होती है कि अब सभी लोग एक तरह से समान स्थिति में कल्पना कर सकते हैं
    • मैं यह जानने को उत्सुक हूँ कि क्या भविष्य में मशीनें नए art styles खुद से बना पाएँगी। उदाहरण के लिए, cartoon/anime style समय के साथ बदलती रही है; अगर इंसान ऐसी विकास-यात्रा रोक दें, तो क्या मशीनें उसे आगे बढ़ा सकेंगी? सैद्धांतिक रूप से तो संभव होना चाहिए (इंसान भी जैविक मशीनें ही हैं), लेकिन मौजूदा AI architecture के हिसाब से मुझे लगता है कि वह अभी बहुत दूर की बात है
    • निष्पक्ष रूप से देखें तो, मॉडल की यह क्षमता भी आखिरकार हमारे बनाए training data की ही देन है
  • मैं Nano Banana का सच में उपयोगी तरीके से इस्तेमाल कर रहा हूँ। अपने बेटे और उसके दोस्तों के बच्चों के लिए फोटो-आधारित coloring books बनाने में इसका उपयोग करता हूँ (उदाहरण और कोड)। यह black-and-white coloring book का एहसास अच्छी तरह बनाए रखता है, और मूल फोटो की कुछ डिटेल भी बची रहती है
  • इतनी ज़्यादा युवा महिलाओं को sexualized अंदाज़ में दिखाने वाले examples असहज करते हैं। Case 1/B में महिला character स्कर्ट उठाकर underwear दिखा रही है। मॉडल काफ़ी प्रभावशाली है, लेकिन लगता है कि इस तरह की अपरिपक्व सामग्री इसकी PR खराब कर रही है। मैंने गिना तो युवा महिलाओं के 26 examples थे, जबकि पुरुषों के 9। वैसे 'Lena' वाला मामला नहीं था (Lenna reference)
    • मुझे भी शुरुआत में बिल्कुल यही असहजता हुई थी। शायद हम सब बूढ़े हो रहे हैं, लेकिन मुझे भी वैसा ही लगा
    • मानना पड़ेगा कि तकनीकी प्रगति को अक्सर यौन इच्छा ने ही आगे बढ़ाया है, चाहे यह पसंद आए या नहीं। VHS, online payments, video streaming—इन सबको आख़िरकार ऐसे ही demand ने धक्का दिया। "इंटरनेट is for porn" वाला मशहूर गाना भी याद आता है
    • अगर आप देखें कि प्रागैतिहासिक मूर्तिकार क्या तराशते थे, तो शायद और भी ज़्यादा हैरानी होगी। साइट देखने से पहले मैंने comments पढ़े, और case 1 पहले बच्चा था और अगला sexy maid, तो मेरी पहली प्रतिक्रिया यह थी: "ओह कृपया, ये दोनों एक ही इमेज में तो नहीं जोड़ दिए गए होंगे"