OpenAI ने 4o इमेज जनरेशन फीचर पेश किया

(openai.com)

12 पॉइंट द्वारा GN⁺ 2025-03-26 | 3 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI लंबे समय से मानता रहा है कि image generation भाषा मॉडल की मुख्य क्षमताओं में से एक होनी चाहिए, और इसी विज़न के आधार पर उसने सबसे परिष्कृत और शक्तिशाली image generator को GPT‑4o में इंटीग्रेट किया है
GPT‑4o का image generation सिर्फ सुंदर तस्वीरें बनाने तक सीमित नहीं है, बल्कि वास्तव में उपयोगी और मूल्यवान परिणाम तैयार करता है
यह सटीक और भरोसेमंद है, और photorealism स्तर की high-quality images बना सकता है
इसमें multimodal क्षमताएँ डिफ़ॉल्ट रूप से शामिल हैं, जिससे भाषा, इमेज और संदर्भ को साथ लेकर visual content बनाया जा सकता है

उपयोगी image generation फीचर

इंसानों ने प्राचीन भित्ति-चित्रों से लेकर आधुनिक infographics तक, visual images का इस्तेमाल जानकारी देने, समझाने और विश्लेषण करने के लिए किया है
मौजूदा generative models शानदार या प्रभावशाली images बना सकते थे, लेकिन व्यावहारिक जानकारी देने वाली images बनाने में कठिनाई होती थी
GPT‑4o का image generation लोगो या diagrams जैसे अर्थ को स्पष्ट रूप से संप्रेषित करने वाली images बनाने में मजबूत है
इसमें text को सटीक render करना, user conversation context का उपयोग करना, और uploaded images के आधार पर generation जैसी उन्नत क्षमताएँ शामिल हैं
ये क्षमताएँ users को अपनी मनचाही image अधिक सटीकता से बनाने में मदद करती हैं

बेहतर image generation क्षमता

यह online images और text की joint distribution को सीखकर image-language और image-image संबंधों को समझता है
training के बाद calibration process से visual fluency बढ़ती है, जिससे उपयोगी और consistent images बनाई जा सकती हैं

text rendering फीचर

एक image हज़ारों शब्द समेट सकती है, लेकिन सही जगह पर रखा गया थोड़ा text उसके अर्थ को और मजबूत कर सकता है
GPT‑4o image में सटीक symbols या text जोड़कर उसे visual communication tool की तरह इस्तेमाल करने योग्य बनाता है

conversational image generation

GPT‑4o image generation को अपनी मूल क्षमता के रूप में इंटीग्रेट करता है, जिससे बातचीत के प्रवाह में image बनाना और संशोधित करना संभव है
उदाहरण: game character design करते समय उसके रूप को लगातार बनाए रखते हुए बार-बार संशोधन किया जा सकता है

निर्देशों का सटीक पालन

GPT‑4o विस्तृत prompts को सटीक रूप से लागू करता है
अन्य systems लगभग 5-8 objects तक संभाल पाते हैं, जबकि GPT‑4o अधिकतम 10-20 objects को भी consistency के साथ generate कर सकता है
यह object attributes और उनके relationships को अधिक सटीकता से बनाए रखता है

context-आधारित learning

यह user द्वारा upload की गई image का विश्लेषण करके उसके विवरणों को image generation में शामिल करता है

world knowledge से जुड़ाव

GPT‑4o text और image के बीच ज्ञान को जोड़कर अधिक स्मार्ट और कुशल image generation संभव बनाता है

photorealism और विविध styles

इसे कई image styles पर train किया गया है, जिससे realistic images और style transformation संभव हैं

मॉडल की सीमाएँ

यह कोई परफेक्ट मॉडल नहीं है
शुरुआती रिलीज़ के बाद user feedback और data के आधार पर इसमें लगातार सुधार किया जाएगा

सुरक्षा सुनिश्चित करने के प्रयास

game development, history exploration और education जैसी उपयोगी creative activities को बढ़ावा देते हुए भी कड़े safety standards बनाए रखे गए हैं
अनुचित images के generation को रोकने के लिए सख्त policies लागू हैं
C2PA और internal search tool के ज़रिए transparency
- GPT‑4o द्वारा बनाई गई सभी images में C2PA metadata शामिल होता है, जिससे source स्पष्ट रहता है
- internal search tool की मदद से technical attributes के आधार पर image source की जाँच की जा सकती है
अनुचित images को ब्लॉक करना
- child sexual images या deepfakes जैसी policy-violating image requests को ब्लॉक किया जाता है
- वास्तविक व्यक्तियों वाली images पर और कड़े restrictions लागू होते हैं
- nude और violent images के लिए सख्त pre-blocking system चलाया जा रहा है
reasoning-आधारित safety को मजबूत करना
- इंसानों द्वारा लिखे गए policy specifications के आधार पर काम करने वाला reasoning-based LLM train किया गया है
- इसे policy की अस्पष्टताओं को पहचानने और हल करने के लिए इस्तेमाल किया गया, और multimodal technology के साथ जोड़कर input text और output image दोनों को policy standards के अनुरूप समायोजित किया गया

उपलब्धता

आज से Plus, Pro, Team और Free users के लिए यह default image generator के रूप में उपलब्ध है
Enterprise और Edu के लिए support जल्द आएगा
यह Sora में भी उपलब्ध है, जबकि मौजूदा DALL·E model को अलग GPT के ज़रिए access किया जा सकता है
API के माध्यम से image generation फीचर कुछ हफ्तों में developers के लिए उपलब्ध कराया जाएगा
users केवल अपनी इच्छित image का विवरण देकर generation कर सकते हैं, और aspect ratio, रंग (hex code), background transparency आदि भी निर्दिष्ट कर सकते हैं
high-precision image generation के कारण rendering time अधिकतम 1 मिनट तक लग सकता है

3 टिप्पणियां

j2sus91 2025-03-26

अभी free में यह दिख नहीं रहा लगता है, तो क्या यह सिर्फ Plus, Pro और Team के लिए ही खोला गया है?

laeyoung 2025-03-26

Pro में चैट विंडो के नीचे ... दबाने पर "इमेज बनाएं (अपडेट किया गया)" ऐसा दिख रहा है, तो शायद यही है।
लेकिन Best of # तो नहीं दिख रहा, इसलिए समझ नहीं आ रहा कि यह लागू हुआ है या नहीं।

GN⁺ 2025-03-26

Hacker News राय

नई image generation विधि tokens का उपयोग करके diffusion की बजाय pixel space में reasoning करती है
- उदाहरण के लिए, खाली tic-tac-toe वाले notepad को बनवाकर पहला move रखवाया जा सकता है, फिर उपयोगकर्ता के move करने के तरीके से आगे बढ़ा जा सकता है
- चित्र का style बदलना या "दिन को रात में बदलना", "टोपी पहनाना" जैसी information-preserving translation भी संभव है
- मॉडल का resolution सीमित है, लेकिन इस क्षेत्र में प्रगति से apps को images के रूप में step-by-step डिज़ाइन करके code लिखने की संभावना है
- मॉडल बाहरी images से "reasoning" जारी रख सकता है, इसलिए मूल generation अच्छा न हो तब भी उसे सुधारा जा सकता है
- अगर मॉडल तेज हो जाए, तो LLM events के आधार पर app का अगला frame generate करने वाला वास्तविक generative UI कल्पना किया जा सकता है
- diffusion models भी इसी तरह के काम और तेज़ी से कर सकते हैं
4o Image Generation का परिचय: यह सबसे advanced image generator है
- Google का Gemini 2.5: यह सबसे intelligent AI model है
- Gemini 2.0 का परिचय: यह सबसे capable AI model है
- उम्मीद है कि यह trend खत्म हो और Apple किसी प्रभावी चीज़ का उपयोग करे ताकि दूसरी कंपनियाँ नए terms कॉपी करें
यह जिज्ञासा है कि o1 के साथ benchmarks क्यों नहीं जोड़े जाते
OpenAI की GPT-4o Image Generation live stream धीमी है, और प्रति image लगभग 30 सेकंड लगते हैं
- Sam Altman ने समझाया कि "यह धीमा है, लेकिन generated image इसकी कीमत वसूल करा देती है"
- diffusion approach की बजाय, यह मूल DALL-E की तरह image tokens generate और decode करती है
- Google का Gemini कुछ ही सेकंड में images generate और edit कर सकता है
- अभी API नहीं है, और धीमेपन के कारण अनुमान है कि इसकी लागत प्रतिस्पर्धियों के $0.03+/image से अधिक होगी
आज़माने पर, बेटी के birthday invitation को एक ही बार में generate किया जा सका
- मनचाहे elements और style को ठीक-ठीक customize किया
- तारीख, जगह जैसी details जोड़ने को कहने पर भी इसने अच्छा काम किया
- पिछले models इसका आधा भी नहीं कर पाए थे
यह अच्छा लगा कि यह अत्यधिक saturated CG/cartoon style जैसा नहीं है
यह जानने की जिज्ञासा है कि दिए गए prompt को 4o ने process किया या Dall-E ने
- लगता है कि फिलहाल prompts अभी भी बाद वाले द्वारा process किए जाते हैं
- लंबी अवधि की योजना 4o पर पूरी तरह move करना और Dall-E को अलग tab में ले जाना है
wine glass test में यह अब भी fail होता है
यह जिज्ञासा है कि "Best of 8" tag वाली कई images वास्तव में कितनी चुनी गई हैं
- तीन free images में से दो प्रभावशाली थीं और एक असफल रही
नए model के साथ iterative editing का एक example है
- यह पिछले model से काफी बेहतर है, लेकिन अब भी बहुत ज़्यादा fingers या बहुत ज़्यादा arms वाले शरीर generate करता है