OpenAI ने API में भी image generation फीचर लॉन्च किया

(openai.com)

1 पॉइंट द्वारा GN⁺ 2025-04-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI द्वारा पिछले महीने ChatGPT में जोड़ा गया image generation फीचर लॉन्च के पहले हफ्ते में 70 करोड़ से अधिक इमेज जनरेशन का रिकॉर्ड हासिल कर चुका है
अब इसे API तक विस्तारित करते हुए gpt-image-1 मॉडल लॉन्च किया गया है, जिससे डेवलपर और कंपनियाँ इसे अपने प्लेटफ़ॉर्म में इंटीग्रेट कर सकती हैं
इसका उपयोग विभिन्न उद्योगों में डिज़ाइन, लोगो निर्माण, मार्केटिंग, वीडियो एडिटिंग आदि में हो रहा है
सुरक्षा सुविधाओं को मजबूत किया गया है, और API उपयोग के दौरान ग्राहक डेटा को डिफ़ॉल्ट रूप से ट्रेनिंग में इस्तेमाल नहीं किया जाता
क्वालिटी के अनुसार प्रति इमेज लगभग $0.02 (कम), $0.07 (मध्यम), $0.19 (उच्च)

API के माध्यम से image generation मॉडल जारी

OpenAI ने ChatGPT में लोकप्रिय रहे image generation फीचर को API तक बढ़ाते हुए gpt-image-1 मॉडल लॉन्च किया है
यह मॉडल विभिन्न स्टाइल जनरेट कर सकता है, टेक्स्ट को सटीक रूप से render कर सकता है, यूज़र-निर्धारित गाइडलाइन का ठीक से पालन कर सकता है, और world knowledge का उपयोग कर सकता है
कंपनियाँ और startup इसे डिज़ाइन, e-commerce, शिक्षा, गेमिंग जैसे विभिन्न क्षेत्रों में उपयोग कर रहे हैं

प्रमुख उपयोग के मामले

Adobe: Firefly और Express ऐप्स के जरिए विभिन्न aesthetic styles पर प्रयोग करने वाली image generation सुविधा प्रदान कर रहा है
Airtable: AI का उपयोग करके बड़े पैमाने के workflow में creative productivity बढ़ा रहा है
Figma: gpt-image-1 के जरिए image generation और editing फीचर को अपने प्लेटफ़ॉर्म में इंटीग्रेट कर रहा है, जिससे यूज़र अपने आइडिया को विज़ुअली एक्सप्लोर कर सकें
Canva gpt-image-1 को Canva AI और Magic Studio में इंटीग्रेट कर डिज़ाइन जनरेशन और editing फीचर के विस्तार की कोशिश कर रहा है
- उदाहरण के लिए, हाथ से बने स्केच को परिष्कृत ग्राफिक एलिमेंट्स में बदलना, या high-precision editing संभव बनाना
GoDaddy लोगो generation और editing में image generation का प्रयोग कर रहा है
- background removal, typography generation, और brand identity दर्शाने वाला कंटेंट निर्माण संभव है
- GoDaddy Airo® के साथ इंटीग्रेशन के जरिए social media content और marketing assets बनाना भी समर्थित है
HubSpot मार्केटिंग और सेल्स सामग्री बनाने के लिए image generation फीचर का प्रयोग कर रहा है
- डिज़ाइनर के बिना भी high-quality images बनाने की संभावना के साथ, इसे email, social media, और landing page में उपयोग किया जा सकता है
Gamma: हर दिन 50 लाख से अधिक AI इमेज जनरेट कर presentation और वेबसाइटों में मदद कर रहा है
HeyGen: avatar generation और editing फीचर को बेहतर बनाकर यूज़र्स को अधिक personalized अनुभव दे रहा है
OpusClip: YouTube creators के लिए क्लिक आकर्षित करने वाले thumbnail बना रहा है
Instacart image generation API का उपयोग करके recipe या shopping list में इमेज जोड़ने का परीक्षण कर रहा है
invideo ने gpt-image-1 अपनाकर text generation में सुधार, precise editing control, और style guide उपलब्ध कराने जैसे फीचर जोड़े हैं

सुरक्षा

gpt-image-1 में वही सुरक्षा उपाय इस्तेमाल किए गए हैं जो ChatGPT की 4o image generation में उपयोग होते हैं
यह हानिकारक इमेज जनरेशन को रोकता है, और जनरेट की गई इमेज में C2PA metadata शामिल होता है
moderation parameter के जरिए filtering sensitivity को नियंत्रित किया जा सकता है (डिफ़ॉल्ट: auto, कम sensitivity: low)
OpenAI API ग्राहक डेटा से मॉडल को train नहीं करता, और input/output API usage policies का पालन करते हैं

मूल्य निर्धारण

text input tokens: 10 लाख tokens पर $5
image input tokens: 10 लाख tokens पर $10
image output tokens: 10 लाख tokens पर $40
क्वालिटी के अनुसार प्रति इमेज लगभग $0.02 (कम), $0.07 (मध्यम), $0.19 (उच्च) का खर्च आता है

शुरुआत कैसे करें

gpt-image-1 global Images API में उपलब्ध है, और जल्द ही Responses API का भी समर्थन करेगा
कुछ डेवलपर्स को उपयोग के लिए organization verification process से गुजरना पड़ सकता है
Playground में फीचर टेस्ट करके और guide documents के जरिए शुरुआत की जा सकती है

1 टिप्पणियां

GN⁺ 2025-04-25

Hacker News राय

कल मैंने शिकायत की थी कि सरकार और सेना से जुड़े कामों में रिजेक्शन रेट बहुत ज़्यादा है। इससे ठेकेदार CN में विकसित open source models का इस्तेमाल करने लगते हैं, जिससे काम प्रभावित हो सकता है
- आज पता चला कि इस क्षेत्र में काम करने वाली कंपनियों के लिए लगभग बिना content censorship वाली API access layer मौजूद है। इसे कैसे माँगा जाता है, यह नहीं पता, लेकिन मैं ऐसे 4 defense contractors से बात कर चुका हूँ जो पहले से इसका इस्तेमाल कर रहे हैं
जिज्ञासावश मैंने हर quality type के लिए एक ही prompt बनाया: 'Auto', 'low', 'medium', 'high'
- Prompt: "एक प्यारा कुत्ता एक प्यारी बिल्ली को गले लगा रहा है"
- तुलना के लिए मैंने कमेंट्स में DALL:E 3 की कुछ images भी दिखाई थीं
मैंने playground में 5 images बनाई थीं। एक में सिर्फ text prompt इस्तेमाल किया, और बाकी 4 में फोन की image का इस्तेमाल किया। family group chat के लिए Studio Ghibli portraits बनाने में $0.85 खर्च हुए, जो customer-facing product में इस्तेमाल करने के लिए बहुत महँगा है
मुझे उन applications के बारे में जिज्ञासा है जिन्हें सैकड़ों या हज़ारों images बनानी होती हैं। मुझे family photos को Ghibli style में बदलना पसंद है, लेकिन उन्हें bulk में बनाने की ज़रूरत नहीं पड़ती। जब भी मैंने image generation इस्तेमाल किया, वह one-off task था, और ChatGPT UI में करना पर्याप्त रूप से संतोषजनक था
कीमत के हिसाब से, यह API तब तक अपनी value justify करना मुश्किल होगा जब तक आप reference देकर value नहीं निकालते। generated 'medium' 1024x1024 की कीमत $0.04 प्रति image है, जो Imagen 3 और Flux 1.1 Pro जैसी cost class में आती है। नए playground में टेस्ट करने पर medium images की quality दोनों competing models से कम थी और फिर भी generate होने में 15 सेकंड से ज़्यादा लगते हैं
- model prompts पारंपरिक models की तुलना में काफ़ी अलग और कठिन हैं। पारंपरिक image tricks मूल रूप से काम नहीं करतीं, और काफ़ी prompt augmentation के बिना कुछ काम का पाना मुश्किल है
"वीडियो एडिटिंग: invideo लाखों users को AI का उपयोग करके ideas को videos में बदलने में सक्षम बनाता है। gpt-image-1 के integration के साथ, platform अब बेहतर text generation, सूक्ष्म editing control, और advanced style guidance प्रदान करता है"
- क्या इसका मतलब यह है कि यह किसी न किसी तरह वीडियो भी संभालता है?
gpt-image-1 का उपयोग token के आधार पर priced है, और text तथा image tokens के लिए अलग-अलग pricing है
- text input tokens (prompt text): 1M tokens पर $5
- image input tokens (input images): 1M tokens पर $10
- image output tokens (generated images): 1M tokens पर $40
- व्यवहार में, यह low, medium, high quality square image के लिए क्रमशः लगभग $0.02, $0.07, $0.19 बनता है
- startups के लिए यह कीमत कुछ ज़्यादा है
जो लोग जिज्ञासु हैं, उनके लिए यह diffusion-based नहीं बल्कि LLM-based है। इसलिए यह text prompts को कहीं ज़्यादा सटीकता से follow करता है
- उदाहरण के लिए, image generation app users (मेरे सहित) कंगारू की थैली में बैठे इंसान की photo बनाने की कोशिश कर रहे थे
- कोई भी prompt इस्तेमाल करें, यह काम नहीं कर रहा था
- इस नए model ने यह एक बार में कर दिया
GoDaddy ऐसी image generation integration पर सक्रिय रूप से प्रयोग कर रहा है जिससे ग्राहक आसानी से edit होने वाले logos बना सकें
- याद है 1-2 साल पहले Discord पर GoDaddy के customer-generated icons पर काम करने वाले किसी व्यक्ति से मिला था। उस पैमाने के custom models को gpt-image-1 replace कर सकता है
क्या किसी के पास यह idea है कि pricing में "image tokens" किस चीज़ को दर्शाते हैं?
- सोच रहा हूँ क्या यह fixed-size image blocks हैं?

OpenAI ने API में भी image generation फीचर लॉन्च किया

API के माध्यम से image generation मॉडल जारी

प्रमुख उपयोग के मामले

सुरक्षा

मूल्य निर्धारण

शुरुआत कैसे करें

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय