1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google DeepMind के Gemini Image परिवार में जोड़ा गया Nano Banana 2 Lite ऐसा मॉडल है जो image generation और editing को तेज़ और कम लागत में चलाने के लिए बनाया गया है, और बार-बार होने वाले visual tasks की लागत घटाने पर केंद्रित है
  • इसका मुख्य आधार कम latency और बड़े पैमाने पर cost efficiency है; भारी production models की तुलना में कम लागत पर हज़ारों images generate किए जा सकते हैं
  • गुणवत्ता के मामले में, Nano Banana परिवार की control और accuracy को बनाए रखते हुए यह character consistency, precise editing, और real-world knowledge के उपयोग को support करता है
  • Space Lift, Gridscape, Peek-A-Word, Anywhere जैसे उदाहरण दिखाते हैं कि image generation इतना तेज़ होने पर, कि app flow बाधित न हो, किस तरह का user experience संभव है
  • छोटे चेहरे, सही spelling, detailed rendering, data-driven results, translation/localization, और complex editing व compositing में errors हो सकते हैं, इसलिए generated results की समीक्षा ज़रूरी है

तेज़ generation और कम लागत पर केंद्रित Gemini Image मॉडल

  • Nano Banana 2 Lite Google DeepMind द्वारा जारी किया गया Gemini Image मॉडल है, जिसका लक्ष्य तेज़ image generation/editing और कम लागत है
  • मुख्य users creators, businesses, developers हैं, और यह कई visual ideas को तेज़ी से explore करने वाले workflows के लिए बनाया गया है
  • Google DeepMind इसे अब तक का सबसे तेज़ और efficient Gemini Image मॉडल बताता है, और कहता है कि यह सबसे कम लागत पर high-speed generation और editing देता है
  • access के रास्ते ये हैं

speed, cost और quality का संतुलन

  • latency घटाना इसकी मुख्य बात है, जिससे तेज़ exploration और iterative work support होता है
  • बड़े पैमाने पर generation में, यह भारी production models की तुलना में काफी कम लागत पर हज़ारों images बना सकता है
  • quality का लक्ष्य Nano Banana से अपेक्षित control और accuracy को अधिक तेज़ी से उपलब्ध कराना है
    • character consistency बनाए रखना
    • precise visual editing
    • real-world knowledge का उपयोग
  • prompt में character, background, overall mood जैसे desired elements जितने विस्तार से लिखे जाएंगे, image उतनी ही intended result के करीब हो सकती है
  • prompt guides View prompt guide और Learn how to prompt पर उपलब्ध हैं

image generation speed पर आधारित app examples

  • Space Lift एक app है जिसमें room photo upload करने पर Mid-Century Modern से Bohemian Chic तक अलग-अलग interior concepts तुरंत generate होते हैं
  • Gridscape infinite canvas में question डालने पर Nano Banana 2 Lite और Gemini 3.1 Flash Lite द्वारा बनाए गए text और images से information nodes बनाता है
    • user clickable paths के जरिए related concepts को और गहराई से explore कर सकते हैं
  • Peek-A-Word selected text को AI-generated visuals में बदलता है, और concise definitions व context images को एक ही जगह देता है
    • इसका focus tab switching के बिना learning flow बनाए रखने पर है
  • Anywhere Nano Banana 2 Lite से बनाया गया interactive 3D globe app है
    • image attach करने पर यह world landmarks की background में personalized postcard series generate करता है
    • users globe घुमा सकते हैं और photos पर click करके virtual travel destination की जानकारी देख सकते हैं

comparison metrics और model card

  • Google DeepMind Nano Banana 2 Lite को अब तक का सबसे efficient मॉडल बताता है, और कहता है कि quality व speed का इसका संतुलन अच्छा है
  • comparison targets में premier model Nano Banana 2 शामिल है
  • comparison areas में prompt adherence, detailed expression, control जैसी image generation quality factors शामिल हैं
  • performance section ये metrics देता है
    • Image Editing: lmarena.ai के आधार पर competing models की तुलना में image editing Elo score
    • Image Generation: lmarena.ai के आधार पर competing models की तुलना में image generation Elo score
    • Latency per 1k resolution image: artificialanalysis.ai data पर आधारित 1k resolution image प्रति latency
    • Price per 1k resolution image: 1k resolution image प्रति price
  • model card View model card पर उपलब्ध है

partners के अनुसार उपयोग की संभावनाएं

  • Figma Weave का आकलन है कि Nano Banana 2 Lite node-based canvas में designers को अधिक ideas explore करने और unique images बनाने में मदद करता है
  • Manus AI autonomous workflow में slide decks और web pages के लिए real-time image generation test कर रहा है
    • speed को AI agents के तेज़ visual iteration और कुछ सेकंड में results देने के लिए उपयुक्त माना गया
    • image quality को full Nano Banana 2 के करीब माना गया
  • Artlist का आकलन है कि जब generation speed कल्पना से भी तेज़ हो जाती है, तो users tool का इंतज़ार किए बिना अपने ideas में बने रह सकते हैं
  • Weekend ने बताया कि voice-controlled TV game Wit’s End में instant-ramen, Gemini 3.1 Flash Image की तुलना में 1k image generation के आधार पर लगभग 2.7× तेज़ है
    • text-to-image, editing, और multi-image compositing को एक drop-in API से handle करता है
  • Latitude का आकलन है कि players के explore करते समय दुनिया generate करने वाले engine में image generation speed महत्वपूर्ण है, और instant-ramen इतनी तेज़ visual generation संभव बनाता है कि वह player experience के साथ कदम मिला सके

ऐसी सीमाएं जिनकी अभी समीक्षा ज़रूरी है

  • Gemini अलग-अलग तरह की images बना सकता है, लेकिन कुछ capabilities अभी भी सुधार के दौर में हैं, और generated images को खुद verify करना चाहिए
  • visual और text fidelity में छोटे चेहरे, सही spelling, और image details में कठिनाई हो सकती है
  • data और factual accuracy में real-world knowledge व्यापक है, लेकिन पूर्ण नहीं है
    • infographic generation, diagram annotations, और complex data representation में यह जानकारी को गलत समझ सकता है या तथ्यात्मक रूप से गलत results बना सकता है
    • data-driven output को verify करना ज़रूरी है
  • translation और localization में कई भाषाओं का text generation और translation संभव है, लेकिन grammar, spelling, cultural nuances, और idiomatic expressions में कठिनाई हो सकती है
  • complex editing और image blending में mask editing, दिन को रात में बदलने जैसे बड़े lighting changes, और multiple images compositing में unnatural results, visual artifacts, या disconnected scenes आ सकते हैं
  • character consistency इसकी strength है, लेकिन यह हमेशा accurate नहीं होती; Google DeepMind इसे और stable बनाने के लिए सुधार कर रहा है

safety features और usage cautions

  • Google DeepMind datasets में harmful content घटाने और harmful output की संभावना कम करने के लिए व्यापक filtering और data labeling का उपयोग करता है
  • content safety में child safety और representation सहित red teaming और evaluation किया जाता है
  • generated images में latest privacy-protection और safety features शामिल हैं, और SynthID AI-generated images की पहचान के लिए image में सीधे invisible digital watermark embed करता है
  • SynthID की जानकारी Learn more पर उपलब्ध है
  • Gemini 3.1 Flash-Lite Image जैसे LLMs गलत या आपत्तिजनक content दे सकते हैं जो Google के विचारों का प्रतिनिधित्व नहीं करता
  • LLM द्वारा दिए गए content पर भरोसा करते, उसे publish करते या use करते समय सावधानी ज़रूरी है, और medical, legal, financial जैसे professional advice के लिए उस पर निर्भर नहीं होना चाहिए

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की रायें
  • घर के इंटीरियर बनाने वाला पहला उदाहरण बयान करना मुश्किल है, इतना नापसंद आया। आजकल रियल एस्टेट एजेंट पुराने और न बिकने वाले अपार्टमेंट्स को पूरा AI filter में डालकर चला देते हैं, और असल में वे किस भयावह चीज़ को बेहिसाब कीमत पर बेचने की कोशिश कर रहे हैं यह देखने से पहले आपको “Ikea-style में सजाएँ तो यह ऐसा दिख सकता है” वाली दर्जनों images स्वाइप करनी पड़ती हैं

    • मुझे लगता है इसे गैरकानूनी झूठी प्रस्तुति माना जाना चाहिए। AI के इस्तेमाल में बहुत सारे grey areas हैं
    • मुझे यह लगभग धोखाधड़ी जैसा लगता है। Streeteasy पर एक अपार्टमेंट में ऐसा दिख रहा था जैसे उसमें desk, chest of drawers और queen bed सब ‘फिट’ कर दिए गए हों, लेकिन साफ था कि image model ने furniture को ऐसे proportions में छोटा कर दिया था जो वास्तविकता में मौजूद ही नहीं होते
      असली bedroom में मुश्किल से सिर्फ एक queen bed आ सकता था ;(
    • मैं 100% सहमत हूँ कि अपार्टमेंट असल में कैसा दिखता है, उस पर ही धोखा देना सामाजिक या कानूनी किसी भी रूप में स्वीकार्य नहीं होना चाहिए। हालांकि मेरे bathroom remodel में image model design choices के लिए काफी मददगार था
      खासकर जब यह खुद imagine करना मुश्किल था कि किसी हिस्से में tiles लगाने पर पूरी जगह कैसी दिखेगी
    • जहाँ मैं रहता हूँ, NYC में ऐसी retouched images पोस्ट करना 10 साल से भी ज़्यादा समय से आम था
      पहले बस ऐसा काम करने के लिए किसी को hire करने की cost ज़्यादा होती थी
      Retouched images हमेशा वही चमकीली दीवारें और grey magazine-style furniture दिखाती हैं
      AI ने इसे बस सस्ता बना दिया; आखिरकार बात इसी दिशा में जानी थी
      इस तरह retouched images पर retouching बताने वाला छोटा watermark तो लगा होता है
    • सिर्फ एक अच्छे photographer से भी असर जबरदस्त होता है। जब मेरे दोस्त ने अपना घर बेचा, तो listing photos में घर कितना अच्छा दिख रहा था, और मुझे पता होने के बावजूद कि वह छोटा नहीं है, कितना बड़ा दिख रहा था—यह देखकर मैं हैरान रह गया
      AI filter आने से पहले भी यह problem थी, इसलिए नई नहीं है, लेकिन अब यह कहीं ज़्यादा बढ़ गई है और cost भी कम हो गई है
  • मुझे इस model को test करने के लिए early access मिला था। यह काम के जरिए था, Google ने अचानक मुझे निजी तौर पर पसंद करना शुरू नहीं किया है lol
    यहाँ जैसा advertise किया गया है, यह वैसा ही काम करता है, और अच्छे text rendering जैसे पहलुओं में Nano Banana 2 का distilled version लगता है। Nano Banana 1 इस मामले में काफी कमजोर है
    बेशक detailed prompts में यह default Nano Banana 2 के स्तर पर बिल्कुल नहीं है। मेरी सबसे बड़ी शिकायत यह है कि NB2 में programming के जरिए aspect ratio force किया जा सकता है, लेकिन NB2L में नहीं
    हालांकि प्रति image $0.034 की कीमत उम्मीद से ज़्यादा है। आम तौर पर pricing generation time से जुड़ी होती है; यह Nano Banana 1 से आधे समय में generate करता है, फिर भी Nano Banana 1 प्रति image $0.039 है
    Google का यह दावा कि NB1 pipeline को सीधे NB2L से replace किया जा सकता है, वाजिब है
    कल Google ने घोषणा की कि Gemini app में free image generation की अनुमति होगी(https://blog.google/innovation-and-ai/products/gemini-app/pe...), लेकिन यह नहीं बताया कि कौन-सा model इस्तेमाल हो रहा है। मुझे लगता है Nano Banana 2 Lite की मुख्य प्रेरणा यही है

    • Vertex के जरिए NB2 Lite में भी programming से aspect ratio सेट किया जा सकता है [1]. GenAI Showdown के लिए images बनाने में इस्तेमाल होने वाले program को update करके model ID gemini-3.1-flash-lite-image में बदला, और 16:9, 4:3 जैसे aspect ratios इस्तेमाल कर पाया
      [1] - https://cloud.google.com/developers/vertex-ai
    • जिज्ञासा है कि आप ऐसा कौन-सा काम करते हैं जिसमें बड़े पैमाने पर automatic image generation करनी पड़ती है
  • ठीक है, लेकिन यह Google के टूटे हुए AI Studio के ऊपर है। वहाँ आधे features Google One account माँगते हैं, इसलिए मैं इस्तेमाल नहीं कर सकता
    मेरा Workspace account है, इसलिए eligible नहीं हूँ, और switch भी नहीं कर सकता क्योंकि Google One custom domain support नहीं करता
    तो क्या fancy email address और Banana दोनों इस्तेमाल करने के लिए मुझे दो accounts चलाने होंगे और पैसे भी देने होंगे? मुझे लगने लगा है कि यहाँ paid Google accounts की सही संख्या 0 है

    • मैं भी similar situation में था। Google को model usage और billing user experience सच में सुधारना चाहिए
      मेरा समाधान OpenRouter था। Dev/test chat में Google models से images generate कर सकता हूँ, और उसी prompt को दूसरे models के साथ side-by-side चला कर देख भी सकता हूँ। हल्के image generation के लिए बहुत convenient है
    • मेरी हालत भी लगभग यही है। Personal use के लिए One और Workspace दोनों के पैसे दे रहा हूँ, लेकिन ऐसे features के लिए कौन-सा account इस्तेमाल करूँ, यह unclear है
      आम तौर पर ज़्यादा context वाले personal account को default रखता हूँ, लेकिन फिर Workspace Drive जैसी सामग्री लाने में कुछ extra steps लगते हैं
      और Project Genie जैसी चीज़ें Workspace में बिल्कुल उपलब्ध नहीं हैं, जो काफी अजीब लगता है
    • थोड़ा खुला-खुला promotion है, लेकिन burlap आपको Gemini Studio या OpenAI की keys डालकर web interface छुए बिना अलग-अलग चीज़ें try करने देता है। इसी लिए बनाया था
      https://www.burlap.app/download
  • Speed वाकई impressive है। Default NB2 में प्रति image करीब 30 seconds लगते हैं, जबकि यह 5 seconds से कम लगता है
    मैंने एक app बनाया है जो बच्चों को characters बनाकर illustrated stories तैयार करता है। मैं illustration style बनाए रखते हुए बच्चों की likeness को प्राथमिकता देना चाहता था
    कई models test किए, लेकिन stylized अवस्था में likeness बनाए रखने में इसके जितना close कोई model नहीं दिखा। दूसरे models उन्हें generic characters जैसा बना देते हैं
    मैं चाहता हूँ कि users को जितनी जल्दी हो सके “aha” moment मिले, इसलिए app onboarding में इस model को शामिल करने को लेकर excited हूँ। 30 seconds से ज़्यादा इंतज़ार ideal नहीं है
    हालांकि actual illustrations के लिए मैं अभी भी default NB2 ही इस्तेमाल करूँगा। यह Lite version, जैसा दूसरे लोगों ने कहा, nuances और consistency में अभी थोड़ा problematic है

    • मैंने भी कुछ similar try किया था, लेकिन बच्चों से जुड़ी चीज़ नहीं कर सकते, ऐसी error आई थी। क्या वह बदल गया है?
  • तुलना चार्ट में ChatGPT को शामिल नहीं किया गया। यह अपने-आप में बहुत कुछ कहता है

    • यह बात उठाने लायक है। जिन्हें नहीं पता, उनके लिए: ChatGPT Image 2 का ELO 1387 है, जो हास्यास्पद रूप से ऊँचा है, और दूसरे नंबर के मॉडल 1273 से 100 से भी ज्यादा पॉइंट ऊपर है(https://arena.ai/leaderboard/text-to-image)
      हालांकि latency समस्या है, और ChatGPT Image 2 की High setting 1024x1024 पर करीब 2 मिनट लेती है, यानी धीमी है
      किसी भी तरह, अगर इसे इस चार्ट में डालते तो चार्ट बेकार तरीके से skew हो जाता
      ChatGPT Image 2 पर एक लेख लिखना चाहता हूँ, लेकिन अब लगता है लोगों को detailed image generation में दिलचस्पी नहीं रही। पुराने tests में ChatGPT Image 2 सबको पूरी तरह पछाड़ता है, फिर भी ऐसा है
  • यह थोड़ा हैरान करने वाला है कि Grok का image model यहाँ highlight किए गए लगभग हर metric में Nano Banana को हरा देता है

    • क्या सच में ऐसा है? क्या मैंने कुछ miss कर दिया? पहली बात, यह सच नहीं लगता, और non-Lite versions कुल मिलाकर Grok को हराते दिखते हैं
      दूसरी बात, यह शुरुआत से ही low-cost bulk generation model है, कोई cutting-edge frontier model नहीं, इसलिए benchmark कम होना स्वाभाविक है
  • Nano Banana Pro पसंद आया। क्या अभी कोई local alternative है? Qwen Image, Klein, हाल में Krea के बारे में सुना है, सोच रहा हूँ क्या recommend करने लायक कुछ है

    • Krea-2 शानदार है। अगर आप restrictive license, output speed और JSON prompting को सह सकते हैं, तो Ideogram 4 शायद frontier models के सबसे करीब है
      मेरी profile में GenAI Showdown देखें, वहाँ local और proprietary models के साथ comparison benchmark है
      असल में इसने Gemini 2.5, यानी original NB से ज्यादा score किया था, जो काफी impressive है
    • Krea अच्छा है। public state-of-the-art models की जानकारी के लिए r/StableDiffusion देखें
  • मैं image generation में काफी पीछे हूँ, और इसे कभी-कभार roleplay tokens या मजाक, personal temporary assets बनाने के लिए ही इस्तेमाल करता हूँ। मेरे हिसाब से यह तो पागलपन जैसा level है
    लगभग 2 सेकंड में image बना सकता है। पहले ChatGPT से इसी quality की image बनाने में 30 सेकंड से 1 मिनट लगता था
    यहाँ negative reaction समझ नहीं आ रहा

    • फिर भी ChatGPT की details काफी बेहतर हैं। यह complex 6-panel comics जैसी चीजें भी बना सकता है, जिन्हें Nano Banana पकड़ नहीं पाता
      और negative reactions का बड़ा हिस्सा उन लोगों से आता है जो AI art की concept से ही नफरत करते हैं और चाहते हैं कि यह fail हो
    • उपयोग अलग-अलग हैं।
      जिन लोगों के काम में image खुद center में होती है, वे प्रति image ज्यादा खर्च करना चाहते हैं
      वहीं अगर image किसी report का हिस्सा है, या disposable output है, या demo में इस्तेमाल होनी है, तो सस्ता तरीका बेहतर है
  • इस page के “hands on” section में दिखाए गए real-time prototype जैसी चीज कैसे मिलती है, यह जानना चाहता हूँ
    gemini.g में canvas add कर सकता हूँ या image generation use कर सकता हूँ, लेकिन “space lift” prompt कहाँ डालूँ ताकि demo जैसा result मिले, यह समझ नहीं आ रहा

  • वाह, latency बहुत ज्यादा घट गई है। इस स्तर पर तो कुछ use cases नए खुलेंगे, लेकिन linked webpage models के बीच फर्क को आसानी से समझाने में बहुत मदद नहीं करता
    हालांकि सामान्य image models इस्तेमाल करने के अपने personal experience से, मेरे workflow में Google सबसे अच्छा लगता है। बेशक Far East providers को अभी try नहीं किया है
    बाकी लोग क्या सोचते हैं, जानना चाहूँगा