1 पॉइंट द्वारा GN⁺ 2025-08-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google ने अत्याधुनिक image generation और editing model Gemini 2.5 Flash Image पेश किया है
  • उपयोगकर्ता कई images को एक में composite कर सकते हैं, character consistency बनाए रख सकते हैं, और natural language आधारित target image transformation का उपयोग कर सकते हैं
  • यह मॉडल Google AI Studio, Gemini API, Vertex AI के माध्यम से developers और enterprises को उपलब्ध कराया गया है
  • image compositing, template-आधारित generation, programmable editing जैसे विभिन्न उपयोग उदाहरण उपलब्ध हैं
  • AI द्वारा बनाई गई images में invisible digital watermark SynthID डाला जाता है, जिससे यह पहचाना जा सकता है कि image generate/edit की गई है

Gemini 2.5 Flash Image का परिचय

Google ने Gemini 2.5 Flash Image (code name nano-banana) पेश किया है। यह मॉडल image generation और editing, multi-image compositing, character consistency बनाए रखना, natural language commands के आधार पर व्यापक image modification जैसी क्षमताओं को support करता है। साथ ही, यह Gemini के world knowledge का उपयोग करके मौजूदा image generation models की तुलना में अधिक गहरी editing और बेहतर generation quality प्रदान करता है

Gemini 2.0 Flash के पिछले संस्करण में low latency, cost efficiency, ease of use जैसी खूबियां थीं, लेकिन community की मांग के अनुसार इसमें higher quality और creative control को और मजबूत किया गया है

यह मॉडल Gemini API, Google AI Studio, Vertex AI के माध्यम से preview रूप में तुरंत उपलब्ध है। कीमत 10 लाख output tokens पर $30.00 है, और प्रत्येक image के लिए 1290 tokens ($0.039) का शुल्क लिया जाता है। input और output की अन्य modalities भी Gemini 2.5 Flash की pricing policy का पालन करती हैं

वास्तविक उपयोग के उदाहरण

Google AI Studio के build mode को नए रूप में तैयार किया गया है, जिससे custom AI apps में Gemini 2.5 Flash Image की क्षमताओं को आसानी से test और develop किया जा सकता है। आप सीधे prompt देकर app बना सकते हैं, या पहले से उपलब्ध templates को अपनी सुविधा के अनुसार remix कर सकते हैं। तैयार app को AI Studio से सीधे deploy किया जा सकता है, या code को GitHub में save किया जा सकता है

उदाहरण prompt: “ऐसा image editing app बनाओ जिसमें उपयोगकर्ता image upload कर सके और विभिन्न filters apply कर सके”

Character consistency बनाए रखना

image generation में लंबे समय से एक बड़ी चुनौती रही characters या objects की visual consistency को प्रभावी रूप से बनाए रखना। अब एक ही व्यक्ति को कई environments में स्वाभाविक रूप से रखा जा सकता है, एक ही product को अलग-अलग angles और settings में बनाया जा सकता है, और brand-related assets को एक समान शैली में generate किया जा सकता है

Google AI Studio की custom template app के माध्यम से character consistency का demo देखा जा सकता है, और इसके आधार पर code को सीधे customize भी किया जा सकता है

इसके अलावा, यह visual template-आधारित image generation में भी मजबूत है। real estate cards, employee badges, catalog product mockups जैसी चीजें एक ही design template से बड़े पैमाने पर generate की जा सकती हैं

Prompt-आधारित image editing

केवल natural language commands के जरिए partial transformation और precise local editing की जा सकती है। उदाहरण के लिए, background blur, कपड़ों के दाग हटाना, फोटो से व्यक्ति हटाना, subject की pose बदलना, black-and-white फोटो को color करना—ये सब एक ही prompt से संभव है

इन सुविधाओं को सीधे आज़माने के लिए, UI और prompt-आधारित photo editing template app भी उपलब्ध है

Native world knowledge

मौजूदा image generation models की समस्या यह रही है कि वे aesthetic images तो अच्छी बनाते हैं, लेकिन वास्तविक दुनिया की semantic और deep understanding में कमजोर होते हैं। Gemini 2.5 Flash Image में world knowledge आधारित क्षमताएं जोड़ी गई हैं, जिससे नए उपयोग मामलों में इसकी ताकत और स्पष्ट होती है

उदाहरण के लिए, यह हाथ से बने diagrams को पढ़ और समझ सकता है, वास्तविक दुनिया से जुड़े प्रश्नों के उत्तर दे सकता है, और जटिल editing commands को पूरा कर सकता है। इन गुणों को AI Studio के interactive educational tutor app में सीधे अनुभव किया जा सकता है

Multi-image compositing

यह कई input images को समझकर और मिलाकर composite image बना सकता है। objects को दूसरे scenes में रखना, कमरे को नए colors और textures के साथ restyle करना, और images को merge करना—ये सब एक ही prompt में किया जा सकता है

इसके लिए product images को drag करके नए scene में तेजी से composite करने वाली template app भी AI Studio में उपलब्ध है

Development शुरू करने की जानकारी

developers official documentation के जरिए तुरंत शुरुआत कर सकते हैं, और यह अभी preview में उपलब्ध है। लेख में बताए गए सभी demo apps Google AI Studio में vibe code के जरिए बनाए गए हैं, इसलिए इन्हें केवल prompt से remix और customize किया जा सकता है

OpenRouter.ai के साथ साझेदारी के जरिए इसे दुनिया भर के 30 लाख से अधिक developers उपयोग कर सकेंगे, और फिलहाल यह OpenRouter पर image generation support करने वाला पहला model है। fal.ai के साथ सहयोग के माध्यम से इसका उपयोग और व्यापक generative media developer community तक बढ़ाया जाएगा

Gemini 2.5 Flash Image से generate या edit की गई सभी images में अदृश्य SynthID digital watermark शामिल होता है, जिससे यह पहचाना जा सकता है कि image AI द्वारा बनाई गई है

Python उदाहरण कोड

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

ऊपर दिया गया code यह दिखाता है कि prompt और image को साथ में input देकर Gemini 2.5 Flash Image से result generate किया जा सकता है

Developer feedback और आगे की योजना

Google आगे भी long-form text rendering, character consistency को और बेहतर बनाने, वास्तविक realism और detail सुधारने पर लगातार ध्यान देगा। feedback developer forum और X (पूर्व Twitter) पर लिया जा रहा है, और कंपनी को developers द्वारा इसके विविध उपयोगों की उम्मीद है

1 टिप्पणियां

 
GN⁺ 2025-08-27
Hacker News की राय
  • लगता है कि इमेज एडिटिंग मॉडल्स के लिए यह बिल्कुल GPT-4 वाला क्षण है
    Gemini 2.5 Flash, जिसे nano banana कहा जा रहा है, अविश्वसनीय रूप से शानदार है
    lmarena में इसने पूरे 171 elo points की बढ़त दर्ज की है
    Twitter पर nano banana खोजेंगे तो जबरदस्त नतीजे दिखेंगे
    उदाहरण के लिए यह ट्वीट देखें

    • मैंने इसे कुछ हफ्तों तक खुद टेस्ट किया है
      कभी-कभी नतीजे सचमुच बहुत प्रभावशाली आते हैं, लेकिन मनचाही इमेज पाने के लिए prompt को कई बार दोहराकर कोशिश करनी पड़ती है
      यह सर्वशक्तिमान नहीं है, लेकिन निश्चित रूप से बहुत बड़ी प्रगति है और फिलहाल सर्वोच्च स्तर पर है

    • तीसरे उदाहरण में हाथ अजीब तरह से दिख रहे हैं
      लगता है मॉडल तय नहीं कर पा रहा कि वे किस दिशा में होने चाहिए
      हालांकि यह Gemini की बनाई हुई समस्या नहीं है, यह मूल इमेज में पहले से मौजूद थी

    • ऐसा लगता है कि "nano banana" से जुड़े हर तरह के संयोजन unique UI वाले domains के रूप में register किए जा चुके हैं
      सोचता हूँ क्या लोकप्रिय model names का इस्तेमाल करने वाले बिचौलिया margin-up sellers credit arbitrage कमाने की कोशिश कर रहे हैं

    • AI आने से पहले Google की काफी आलोचना होती थी कि वह दुनिया के बेहतरीन engineering talent को सिर्फ ads बेचने में लगा रहा है
      लेकिन AI युग आने के बाद अब वही talent product placement जैसे prototype ads में लगाया जा सकता है
      सच में, हम बहुत दूर आ गए हैं

    • एक और कमी यह है कि edit की गई गुलाबी padded jumper reference image से थोड़ा अलग दिखती है
      अगर कोई इस model को product promotion के लिए इस्तेमाल करे या details के प्रति बहुत sensitive हो, तो उसे इससे शिकायत हो सकती है

  • मैंने GenAI image comparison site को update किया है
    यह site text-to-image prompt adherence पर कड़ाई से focused है
    इसमें नया Google Gemini 2.5 Flash model (nano-banana) भी शामिल कर लिया गया है
    model ने 12 prompts में से 8 को बिल्कुल सही पकड़ा और top models Imagen तथा gpt-image-1 के लगभग बराबर नतीजे दिए
    यह पुराने Gemini Flash 2.0 की तुलना में बड़ा upgrade है
    पहले स्थान वाला gpt-image-1 सिर्फ maze और 9-point star में मामूली रूप से आगे है
    सबसे चौंकाने वाली बात यह है कि gpt-image-1 लगभग 6 महीनों से शीर्ष पर बना हुआ है (इस क्षेत्र में 6 महीने लगभग अनंत जैसे हैं)
    हालांकि "editor" के रूप में gpt-image-1 लगभग बेकार है, क्योंकि यह इमेज को पूरी तरह बदल देता है; Kontext, Qwen, Nano-Banana की तरह inpainting यानी सिर्फ कुछ हिस्से edit नहीं करता
    OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana आदि की तुलना का लिंक

    • लगता है sentence editing benchmark अलग से चाहिए

    • gpt-image-1 एक "editor" के रूप में बेकार है
      मैं यही बात ढूँढने के लिए इस thread में आया था
      models के बीच prompt adherence की तुलना करने का यह सचमुच बहुत अच्छा तरीका है
      हाल में inpainting-style prompts लोकप्रिय हो रहे हैं, तो सोच रहा हूँ कि क्या आप editing functionality भी जोड़ने वाले हैं

    • समझ नहीं आता कि Hunyuan, OpenAI 4o, Gwen को octopus test में pass क्यों माना गया
      इन्होंने "हर tentacle" को cover नहीं किया
      Midjourney ने sock puppets को 8 arms पर 9 बार पहना दिया

    • दिलचस्प है कि Imagen 4 और Gemini 2.5 Flash की image outputs कुछ test cases में बहुत मिलती-जुलती दिखती हैं
      हो सकता है Gemini 2.5 Flash background में पहले Imagen (diffusion model) से baseline image बनाता हो, और फिर Gemini prompt adherence के लिए उसके ऊपर edit करता हो

    • मुझे यह site सच में बहुत पसंद आई
      क्या आपको ऐसी कोई site पता है जो यह compare करती हो कि अलग-अलग models style guide को कितनी अच्छी तरह follow करते हैं, जैसे एक ही शैली में बनी illustrations?
      व्यक्तिगत रूप से अच्छा होगा अगर यह feature आपकी site में जुड़ जाए
      उदाहरण के लिए, किसी एक artist style की कई images देकर यह compare करना कि क्या model उसी style में illustration बना सकता है
      किताबों की illustrations जैसी जगहों पर, जहाँ consistent style चाहिए, यह बहुत उपयोगी होगा

  • कई images को एक साथ, बिना किसी अजीब workaround के, सिर्फ Gemini 2.5 Flash Image ही संभाल पाता है
    उदाहरण के लिए Flux Kontext में "पहली image को दूसरी image में composite" करने के लिए पहले images को झंझट से जोड़ना पड़ता है
    लेकिन यह model ऐसी असुविधा के बिना काम करता है, और दो से ज़्यादा images भी ले सकता है (हालाँकि बहुत ज़्यादा हों तो भ्रम हो सकता है)
    मेरे छोटे से test में लंबा prompt होने पर भी इसकी adherence अच्छी लगी, और syntactic expressions भी ज्यादा प्रभावी लगते हैं
    ऐसा भी लगता है कि control के और तरीके हैं जो अभी पूरी तरह सामने नहीं आए, इसलिए मैं प्रयोग जारी रखे हुए हूँ
    कीमत भी competing models जैसी ही है, इसलिए उम्मीद है कि यह market में बड़ा बदलाव लाएगा

    • यह feature सच में मजेदार है
      पड़ोसी छुट्टी पर हैं, इसलिए मैं उनकी मछलियों को खाना खिला रहा हूँ
      मैं fish tank की फोटो लेकर Gemini से "fish tank को शहर के landmarks में रखो" वाला prompt चलवा रहा हूँ
      मैं उन्हें रोज एक image भेजता हूँ, और उन्हें यह बहुत पसंद आ रहा है
      ऐसी छोटी शरारतें रोजमर्रा की जिंदगी में मुस्कान ले आती हैं
  • अफसोस की बात है कि दूसरी AI products की तरह इसमें भी जरूरत से ज्यादा सख्त safety policies की समस्या है
    मेरे आधे prompts reject हो जाते हैं
    अगर humans को edit करने की अनुमति ही नहीं है, तो character consistency कैसे बनाएँगे, यह समझ नहीं आता
    मैं ज्यादातर लोगों वाली photos edit करना चाहता हूँ, लेकिन इस model में यह संभव नहीं है
    समझता हूँ कि Google deepfake समस्या को लेकर चिंतित है, लेकिन इस दिशा को रोका नहीं जा सकता और अंततः समाज को इसके साथ adapt करना ही होगा
    tools का यूज़र को लगातार ज्यादा सीमित करना निराशाजनक है
    आखिरकार, आजादी वापस पाने के लिए एक नए OSS आंदोलन की जरूरत पड़ेगी

    • बचपन में Christmas के कपड़ों में मेरे partner और उसकी cousin की एक फोटो है
      दोनों लंबे समय तक दूर-दूर रहे, इसलिए वह अब बहुत कीमती याद है
      फोटो खुद भी खराब हालत में है, और उसकी quality भी low-resolution है
      लेकिन अब तक किसी भी AI model ने उसे restore नहीं किया

    • दो दिन पहले मैंने Veo को मुफ्त में इस्तेमाल करके video बनाने की कोशिश की
      मैंने बिलकुल सामान्य शब्द भी हटा दिए, फिर भी वह reject हो गया
      शायद समस्या यह थी कि मैं "खुद को" generate करना चाहता था, इसलिए अंत में मैंने हार मान ली

  • मैंने family photos को digitize किया है, लेकिन उनमें color cast, stains, fingerprints, film blemishes जैसी बहुत सी ऐसी क्षतियाँ हैं जिन्हें restore करना मुश्किल है
    सैकड़ों photos को हाथ से ठीक करना संभव नहीं, इसलिए मैं इंतजार कर रहा था कि AI-based image generation इतना आगे बढ़े कि details, खासकर faces, बदले बिना bulk restoration कर सके
    यह model details को बचाए रखते हुए सिर्फ खोए हुए हिस्से restore करने में काफी अच्छा लगता है, इसलिए अब शायद इसे आजमाने का समय आ गया है

    • ऊपर बताई गई सारी क्षतियाँ ICE feature वाले film scanner और automatic restoration software (जैसे Vuescan) से अपने-आप ठीक की जा सकती हैं
      सैकड़ों या हजारों photos को experimental और proprietary cloud AI पर upload करके अजीब compression और artifacts मिले हुए घटिया results लेने की जरूरत नहीं है

    • मुझे इस use case का मतलब समझ नहीं आता
      क्या आप बस बिना damage वाली फोटो की कल्पना नहीं कर सकते?
      phone camera AI upscaling भी ऐसा ही है
      अगर दूर की कोई चीज़ देखनी है, तो बस कल्पना कर लीजिए
      मेरे हिसाब से AI tools को बस इतना करना चाहिए कि वे Photoshop expert द्वारा tools से किए जा सकने वाले काम को automate करें
      नए details मनमाने ढंग से गढ़ना समय की बर्बादी लगता है

    • क्या किसी को ऐसा software पता है जो video files को restore/enhance कर सके?
      मैं अपनी माँ के 2000s के videos और VHS cassettes को digitize कर रहा हूँ
      digitization setup तो तैयार है, लेकिन मैं video quality को और बेहतर करना चाहता हूँ

    • आशा है यह अच्छे से काम करे
      उदाहरणों में "photo restoration" prompt का result देखें तो महिला के चेहरे पर AI वाले traits काफी साफ दिखते हैं
      बेशक, उम्मीद है समय के साथ यह और बेहतर होगा

    • मुझे लगता है कुछ महीने पहले Flux Kontext (https://bfl.ai/models/flux-kontext) इस स्तर तक पहुँच चुका था

  • Gemini 2.5 Flash Image से generate/edit की गई हर image में SynthID नाम का एक अदृश्य digital watermark डाला जाता है, जो बताता है कि image AI-generated/edited है
    इसका उद्देश्य और नीयत समझ में आती है, लेकिन अफसोस यह है कि अब जिम्मेदार adults खुद तय नहीं कर रहे, बल्कि बड़ी कंपनियाँ यह तय कर रही हैं कि आप क्या कर सकते हैं और क्या नहीं
    यह निगरानी जैसा लगता है

    • मैं उल्टा पूछना चाहूँगा कि क्या इंसान तकनीक का इस्तेमाल करते समय कभी जिम्मेदार adults रहे भी हैं?
      deepfakes पहले ही हमारी reality की समझ को और अस्थिर कर सकते हैं
      बहुत से लोग countless fakes पर विश्वास करेंगे, और बहुत से लोग फिर किसी भी चीज़ पर विश्वास नहीं करेंगे
      politicians अपने खिलाफ आने वाले videos को "fake" कहेंगे
      हम पहले से कुछ हद तक post-truth era में हैं, लेकिन आगे हालात और गंभीर होंगे

    • इसे वास्तव में user-made image कहना मुश्किल है
      उदाहरण के लिए, अगर कोई artist commissioned work पर watermark लगाता है, तो वह सिर्फ यह बता रहा होता है कि काम उसी का है; उसे "चुगली" नहीं कहा जाएगा
      शायद आपका आशय ऐसा न रहा हो, लेकिन इस पर एक बार सोचना चाहिए

    • मैं "अगर छिपाने के लिए कुछ नहीं है तो डरने की भी जरूरत नहीं" वाली सोच से सहमत नहीं हूँ, लेकिन AI-generated/edited images पर watermark समस्या क्यों है, यह जानना चाहता हूँ
      व्यक्तिगत रूप से, मुझे लगता है AI images में watermark अनिवार्य होना चाहिए

    • यह कोई अनिवार्य model नहीं है, इसलिए व्यक्तिगत रूप से मुझे यह समस्या नहीं लगती

    • यह तकनीकी arms race है
      removemysynthid.com देखें

  • ज्यादातर image generators की तरह यह piano key test में fail हो जाता है (काली keys गलत हैं)
    test example

    • सोच रहा हूँ piano key test क्या होता है
      link AI Studio में Google Drive access माँगता है, इसलिए इस्तेमाल करना मुश्किल है

    • यह जानने की जिज्ञासा है कि क्या ऐसे models हैं जो concept space में ideas भी शामिल करते हैं, जैसे 8-note repetition वगैरह
      piano को दर्शाते समय शायद सिर्फ "piano" शब्द के आसपास के शब्द fixed concepts, जैसे repeating octaves, को दिखाने के लिए पर्याप्त नहीं होते, इसलिए इसमें कमी रह जाती है
      ऐसा लगता है कि सिर्फ शब्दों के आधार पर image और meaning को लगातार जोड़ पाना मुश्किल है

    • इस model की असली ताकत generation quality से ज्यादा "generational consistency" में लगती है
      उदाहरण लिंक

    • दिलचस्प
      जिसने असली piano देखा हो, वह तुरंत समझ जाएगा कि इसमें कुछ गलत है; यह text rendering test की तरह ऊपर-ऊपर से मिलती-जुलती image देता है, पर वास्तव में गलत होती है
      सामान्य prompt हो तो शायद कोई Google Images का पहला result उठाकर "लो, यह piano keyboard की photo है" जैसा output भी आसानी से स्वीकार कर ले

    • मेरे horizontal text test में भी यह fail हुआ

  • मैंने fork/spaghetti और fashion bubble examples को खुद reproduce करने की कोशिश की, लेकिन वे official results से काफी अलग निकले
    output results फिर भी consistent हैं
    हो सकता है ads page से image copy करके इस्तेमाल करने के कारण resolution अलग हो, लेकिन मैंने prompts वही रखे
    लगता है कि मैं सही में नया model ही इस्तेमाल कर रहा हूँ, और पहले की तुलना में यह सचमुच बड़ी प्रगति है

    • outputs की consistency दिलचस्प है
      मैं अपने image model standard tests के लिए कई generations चलाता हूँ (अब तक कोई model piano octave सही से नहीं बना पाया), और Gemini 2.5 Flash Image भी इसका अपवाद नहीं है
      कई बार चलाने पर results में कोई बदलाव ही नहीं आता
      ChatGPT में editor prompt देने पर अक्सर मांगे गए बदलाव के अलावा भी दूसरी चीजें बदल जाती थीं, लेकिन यहाँ ऐसी कोई अतिरिक्त तब्दीली बिल्कुल नहीं हो रही
      image example

    • ads में जो दिखाया जाता है, उसके मुकाबले असली outputs कहीं ज्यादा साधारण या अस्पष्ट निकलते हैं
      उदाहरण में bubble subject generation बस subject के भीतर धुंधले bubble-जैसे shapes बना देता है
      fork वाला उदाहरण noodles पर सिर्फ fork जोड़ देता है
      दोनों cases में यह कहा जा सकता है कि model वास्तव में prompt को बेहतर follow कर रहा है, लेकिन देखने में result कम प्रभावशाली लगता है

  • अच्छा हुआ कि मैं Photoshop expert नहीं बना
    कभी यह मुझे आकर्षक career लगता था, लेकिन अब लगता है कि वह रास्ता न चुनना अच्छा रहा
    अब तो nano-banana ही काफी है
    यकीन है दूसरे models भी जल्द पीछे-पीछे आ जाएँगे
    r/photoshopbattles समुदाय को भी अब अलविदा कहना होगा

    • retouching एक कला है
      professionals के लिए ऐसी AI सिर्फ efficiency बढ़ाने वाला एक और tool है
      सिर्फ Photoshop चलाना आना काफी नहीं, समझदारी भरा judgement भी जरूरी है
      हाँ, अगर काम की मात्रा न बढ़ी तो वही काम कम retouchers से भी हो सकता है
      अगर rates गिरें तो क्या सभी लोग ज्यादा retouching करवाएँगे? इस पर मुझे यकीन नहीं

    • दिलचस्प दृष्टिकोण है
      मैं programmer हूँ, लेकिन 2000s की शुरुआत में मैंने Photoshop भी सीखा था और image editing का बहुत आनंद लिया था
      आज के generation models उस दौर में मेरे बनाए काम से कहीं बेहतर नतीजे देते हैं, लेकिन मुझे नहीं लगता कि उस अनुभव और skill की अब कोई कीमत नहीं रही
      वास्तव में AI outputs को polish करने के लिए Photoshop (या आजकल Affinity Designer/Photo) बेहद उपयोगी है
      मुझे कभी पछतावा नहीं हुआ

    • अगर यह comment मैंने 10 साल पहले लिखा होता, तो कहता कि कम-से-कम program और skill तो मेरे अपने हैं, और चाहे Google subscription price बढ़ा दे या service बंद कर दे, वे फिर भी मेरे पास रहेंगे
      अब PS भी subscription पर है, इसलिए बस किसी अच्छे open model के आने का इंतजार करना होगा

    • Photoshop अभी भी उपयोगी है
      AI images शानदार हैं, लेकिन base composition मैं खुद बनाना चाहता हूँ, और AI outputs के artifacts साफ करने या कई AI layers को मिलाने के लिए अब भी manual skills जरूरी हैं

    • आखिरकार programming जैसे दूसरे क्षेत्र भी automation के नीचे ढहने के लिए ही बने हैं
      बस इसमें थोड़ा ज्यादा समय लगेगा (5~10 साल?)
      engineering में mistakes और technical debt की वजह से यह और ज्यादा समय ले सकता है
      image खराब हो जाए तो फिर से generate कर लो, लेकिन program खराब हो जाए तो तुरंत maintenance-अयोग्य code pile बन जाता है
      फिर भी किसी दिन यह लहर हमारे क्षेत्र तक भी पहुँचेगी

  • Gemini से image generation माँगो तो आधी बार जवाब आता है कि यह संभव नहीं
    Google की features को वास्तव में इस्तेमाल करना बहुत मुश्किल लगता है
    कुछ एक product में हैं, कुछ दूसरे में बिखरे हुए हैं, और कहाँ से access करना है यह भी उलझन भरा है

    • सही कहा
      website पर "Gemini में try करें" लिखा होता है, लेकिन जब Gemini 2.5 Flash चुनते हैं, तब भी समझ नहीं आता कि मैं इसे सही तरह से इस्तेमाल कर रहा हूँ या नहीं

    • Gemini app या site में तो यह model है ही नहीं
      इसे AI Studio जैसे किसी दूसरे रास्ते से इस्तेमाल करना पड़ता है
      Google का UI/UX कुल मिलाकर सच में बहुत भ्रमित करने वाला है