- OpenAI द्वारा पिछले महीने ChatGPT में जोड़ा गया image generation फीचर लॉन्च के पहले हफ्ते में 70 करोड़ से अधिक इमेज जनरेशन का रिकॉर्ड हासिल कर चुका है
- अब इसे API तक विस्तारित करते हुए gpt-image-1 मॉडल लॉन्च किया गया है, जिससे डेवलपर और कंपनियाँ इसे अपने प्लेटफ़ॉर्म में इंटीग्रेट कर सकती हैं
- इसका उपयोग विभिन्न उद्योगों में डिज़ाइन, लोगो निर्माण, मार्केटिंग, वीडियो एडिटिंग आदि में हो रहा है
- सुरक्षा सुविधाओं को मजबूत किया गया है, और API उपयोग के दौरान ग्राहक डेटा को डिफ़ॉल्ट रूप से ट्रेनिंग में इस्तेमाल नहीं किया जाता
- क्वालिटी के अनुसार प्रति इमेज लगभग $0.02 (कम), $0.07 (मध्यम), $0.19 (उच्च)
API के माध्यम से image generation मॉडल जारी
- OpenAI ने ChatGPT में लोकप्रिय रहे image generation फीचर को API तक बढ़ाते हुए gpt-image-1 मॉडल लॉन्च किया है
- यह मॉडल विभिन्न स्टाइल जनरेट कर सकता है, टेक्स्ट को सटीक रूप से render कर सकता है, यूज़र-निर्धारित गाइडलाइन का ठीक से पालन कर सकता है, और world knowledge का उपयोग कर सकता है
- कंपनियाँ और startup इसे डिज़ाइन, e-commerce, शिक्षा, गेमिंग जैसे विभिन्न क्षेत्रों में उपयोग कर रहे हैं
प्रमुख उपयोग के मामले
- Adobe: Firefly और Express ऐप्स के जरिए विभिन्न aesthetic styles पर प्रयोग करने वाली image generation सुविधा प्रदान कर रहा है
- Airtable: AI का उपयोग करके बड़े पैमाने के workflow में creative productivity बढ़ा रहा है
- Figma:
gpt-image-1 के जरिए image generation और editing फीचर को अपने प्लेटफ़ॉर्म में इंटीग्रेट कर रहा है, जिससे यूज़र अपने आइडिया को विज़ुअली एक्सप्लोर कर सकें
- Canva gpt-image-1 को Canva AI और Magic Studio में इंटीग्रेट कर डिज़ाइन जनरेशन और editing फीचर के विस्तार की कोशिश कर रहा है
- उदाहरण के लिए, हाथ से बने स्केच को परिष्कृत ग्राफिक एलिमेंट्स में बदलना, या high-precision editing संभव बनाना
- GoDaddy लोगो generation और editing में image generation का प्रयोग कर रहा है
- background removal, typography generation, और brand identity दर्शाने वाला कंटेंट निर्माण संभव है
- GoDaddy Airo® के साथ इंटीग्रेशन के जरिए social media content और marketing assets बनाना भी समर्थित है
- HubSpot मार्केटिंग और सेल्स सामग्री बनाने के लिए image generation फीचर का प्रयोग कर रहा है
- डिज़ाइनर के बिना भी high-quality images बनाने की संभावना के साथ, इसे email, social media, और landing page में उपयोग किया जा सकता है
- Gamma: हर दिन 50 लाख से अधिक AI इमेज जनरेट कर presentation और वेबसाइटों में मदद कर रहा है
- HeyGen: avatar generation और editing फीचर को बेहतर बनाकर यूज़र्स को अधिक personalized अनुभव दे रहा है
- OpusClip: YouTube creators के लिए क्लिक आकर्षित करने वाले thumbnail बना रहा है
- Instacart image generation API का उपयोग करके recipe या shopping list में इमेज जोड़ने का परीक्षण कर रहा है
- invideo ने gpt-image-1 अपनाकर text generation में सुधार, precise editing control, और style guide उपलब्ध कराने जैसे फीचर जोड़े हैं
सुरक्षा
- gpt-image-1 में वही सुरक्षा उपाय इस्तेमाल किए गए हैं जो ChatGPT की 4o image generation में उपयोग होते हैं
- यह हानिकारक इमेज जनरेशन को रोकता है, और जनरेट की गई इमेज में C2PA metadata शामिल होता है
moderation parameter के जरिए filtering sensitivity को नियंत्रित किया जा सकता है (डिफ़ॉल्ट: auto, कम sensitivity: low)
- OpenAI API ग्राहक डेटा से मॉडल को train नहीं करता, और input/output API usage policies का पालन करते हैं
मूल्य निर्धारण
- text input tokens: 10 लाख tokens पर $5
- image input tokens: 10 लाख tokens पर $10
- image output tokens: 10 लाख tokens पर $40
- क्वालिटी के अनुसार प्रति इमेज लगभग $0.02 (कम), $0.07 (मध्यम), $0.19 (उच्च) का खर्च आता है
शुरुआत कैसे करें
- gpt-image-1 global Images API में उपलब्ध है, और जल्द ही Responses API का भी समर्थन करेगा
- कुछ डेवलपर्स को उपयोग के लिए organization verification process से गुजरना पड़ सकता है
- Playground में फीचर टेस्ट करके और guide documents के जरिए शुरुआत की जा सकती है
1 टिप्पणियां
Hacker News राय
कल मैंने शिकायत की थी कि सरकार और सेना से जुड़े कामों में रिजेक्शन रेट बहुत ज़्यादा है। इससे ठेकेदार CN में विकसित open source models का इस्तेमाल करने लगते हैं, जिससे काम प्रभावित हो सकता है
जिज्ञासावश मैंने हर quality type के लिए एक ही prompt बनाया: 'Auto', 'low', 'medium', 'high'
मैंने playground में 5 images बनाई थीं। एक में सिर्फ text prompt इस्तेमाल किया, और बाकी 4 में फोन की image का इस्तेमाल किया। family group chat के लिए Studio Ghibli portraits बनाने में $0.85 खर्च हुए, जो customer-facing product में इस्तेमाल करने के लिए बहुत महँगा है
मुझे उन applications के बारे में जिज्ञासा है जिन्हें सैकड़ों या हज़ारों images बनानी होती हैं। मुझे family photos को Ghibli style में बदलना पसंद है, लेकिन उन्हें bulk में बनाने की ज़रूरत नहीं पड़ती। जब भी मैंने image generation इस्तेमाल किया, वह one-off task था, और ChatGPT UI में करना पर्याप्त रूप से संतोषजनक था
कीमत के हिसाब से, यह API तब तक अपनी value justify करना मुश्किल होगा जब तक आप reference देकर value नहीं निकालते। generated 'medium' 1024x1024 की कीमत $0.04 प्रति image है, जो Imagen 3 और Flux 1.1 Pro जैसी cost class में आती है। नए playground में टेस्ट करने पर medium images की quality दोनों competing models से कम थी और फिर भी generate होने में 15 सेकंड से ज़्यादा लगते हैं
"वीडियो एडिटिंग: invideo लाखों users को AI का उपयोग करके ideas को videos में बदलने में सक्षम बनाता है। gpt-image-1 के integration के साथ, platform अब बेहतर text generation, सूक्ष्म editing control, और advanced style guidance प्रदान करता है"
gpt-image-1 का उपयोग token के आधार पर priced है, और text तथा image tokens के लिए अलग-अलग pricing है
जो लोग जिज्ञासु हैं, उनके लिए यह diffusion-based नहीं बल्कि LLM-based है। इसलिए यह text prompts को कहीं ज़्यादा सटीकता से follow करता है
GoDaddy ऐसी image generation integration पर सक्रिय रूप से प्रयोग कर रहा है जिससे ग्राहक आसानी से edit होने वाले logos बना सकें
क्या किसी के पास यह idea है कि pricing में "image tokens" किस चीज़ को दर्शाते हैं?