3 पॉइंट द्वारा GN⁺ 2025-05-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google ने Gemini 2.0 Flash मॉडल के जरिए image generation फीचर को developer preview के रूप में जारी किया
  • टेक्स्ट-आधारित commands से image generation, modification और partial editing तक संभव है, और visual quality तथा text rendering में भी सुधार हुआ है
  • product reskin, SKU generation, real-time collaborative editing जैसे कई उपयोग मामलों का परिचय दिया गया
  • [Google AI Studio] और [Vertex AI] के जरिए इसे तुरंत टेस्ट किया जा सकता है, और API usage limits भी बढ़ाए गए हैं

Gemini 2.0 Flash image generation फीचर प्रीव्यू जारी

  • डेवलपर्स के feedback के आधार पर, Google ने Gemini 2.0 Flash मॉडल के जरिए image generation फीचर को preview version में उपलब्ध कराया है
  • उपयोगकर्ता इसे Google AI Studio या Vertex AI के माध्यम से इस्तेमाल कर सकते हैं

मुख्य सुधार

  • visual quality में सुधार (पिछले experimental version की तुलना में)
  • text rendering की accuracy में सुधार
  • filter blocking rate में कमी

उपयोग के लिए उपलब्ध image generation फीचर्स के उदाहरण

  • product image re-backgrounding: मौजूदा product photos को विभिन्न backgrounds और environments के साथ फिर से तैयार किया जा सकता है
  • real-time collaborative editing: Gemini Co-Drawing ऐप में multi-user real-time image editing support
  • image के किसी हिस्से की conversational editing: पूरी image बदले बिना सिर्फ किसी खास हिस्से को interactive commands से modify किया जा सकता है
  • product SKU का dynamic generation: image और text को मिलाकर नए product variants (color, label आदि) अपने-आप generate किए जा सकते हैं
  • Gemini के साथ idea generation collaboration: text+image combination के जरिए cooking, product, planning जैसे कई scenarios लागू किए जा सकते हैं

API usage example (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

आगे की योजना

  • Google आगे और बेहतर quality, नए फीचर्स, speed improvements और pricing plans में सुधार के साथ इस फीचर का विस्तार जारी रखेगा
  • विस्तृत दस्तावेज़ के लिए Gemini API image generation guide देखें

1 टिप्पणियां

 
GN⁺ 2025-05-08
Hacker News राय
  • Gemini 2.0 का कई image generation models के साथ तुलना परीक्षण किया गया। Google के Imagen 3.0 का कितना हिस्सा इसमें शामिल है, यह स्पष्ट नहीं है, लेकिन कुल मिलाकर इसकी aesthetic quality काफ़ी कमज़ोर लगती है
    • मुख्य फ़ायदे हैं OpenAI के प्रोडक्ट्स के बराबरी बनाए रखने वाला multimodal पहलू, और OpenAI 4o image generation की तुलना में कहीं तेज़ गति
  • टूल का इस्तेमाल करते समय मनचाहा परिणाम पाने के लिए अक्सर कई बार कोशिश करनी पड़ती है। conversational interface के उपयोग को लेकर संदेह है
  • इसे सावधानी से इस्तेमाल करना चाहिए। उदाहरण के लिए, जब vegetarian butter chicken recipe मांगी गई, तो 41MB का JSON और 28 base64 images लौटे। प्रति image 4 सेंट की दर से, एक ही अनुरोध पर 1 डॉलर से ज़्यादा खर्च हो गया
  • Gemini 2.0 का उपयोग करके 100 recipes और images बनाई गईं, और परिणाम काफ़ी अच्छे रहे। text prompt की जगह raw data और table metadata का उपयोग किया गया
  • Gemini 2.0 image generation की प्रति image कीमत $0.039 है, जो Imagen 3 से महंगी है। Gemini बातचीत के ज़रिए images generate कर सकता है, जबकि Imagen 3 text input/image output format का है
  • को-ड्रॉइंग डेमो में मिले-जुले नतीजे मिले। दृश्य का sketch बनाकर उम्मीद थी कि model उसे आगे विस्तार देगा, लेकिन उसने 3D rendered stick figure बना दिया
  • model output ठीक-ठाक है, और हाल के एक project में नए model को update किया गया। अब भी काफ़ी failure modes हैं, लेकिन अच्छे workflow को दिखाने वाली एक बड़ी cookbook की ज़रूरत है
  • Google और दूसरी AI कंपनियाँ जिस चीज़ को लक्ष्य बना रही हैं, वह shopping या ecommerce में इस्तेमाल होने वाली अनंत AI-generated objects की दुनिया है। यह असली मानवीय कारीगरी और वास्तव में मौजूद वस्तुओं के लिए एक चुनौती है