- OpenAI लंबे समय से मानता रहा है कि image generation भाषा मॉडल की मुख्य क्षमताओं में से एक होनी चाहिए, और इसी विज़न के आधार पर उसने सबसे परिष्कृत और शक्तिशाली image generator को GPT‑4o में इंटीग्रेट किया है
- GPT‑4o का image generation सिर्फ सुंदर तस्वीरें बनाने तक सीमित नहीं है, बल्कि वास्तव में उपयोगी और मूल्यवान परिणाम तैयार करता है
- यह सटीक और भरोसेमंद है, और photorealism स्तर की high-quality images बना सकता है
- इसमें multimodal क्षमताएँ डिफ़ॉल्ट रूप से शामिल हैं, जिससे भाषा, इमेज और संदर्भ को साथ लेकर visual content बनाया जा सकता है
उपयोगी image generation फीचर
- इंसानों ने प्राचीन भित्ति-चित्रों से लेकर आधुनिक infographics तक, visual images का इस्तेमाल जानकारी देने, समझाने और विश्लेषण करने के लिए किया है
- मौजूदा generative models शानदार या प्रभावशाली images बना सकते थे, लेकिन व्यावहारिक जानकारी देने वाली images बनाने में कठिनाई होती थी
- GPT‑4o का image generation लोगो या diagrams जैसे अर्थ को स्पष्ट रूप से संप्रेषित करने वाली images बनाने में मजबूत है
- इसमें text को सटीक render करना, user conversation context का उपयोग करना, और uploaded images के आधार पर generation जैसी उन्नत क्षमताएँ शामिल हैं
- ये क्षमताएँ users को अपनी मनचाही image अधिक सटीकता से बनाने में मदद करती हैं
बेहतर image generation क्षमता
- यह online images और text की joint distribution को सीखकर image-language और image-image संबंधों को समझता है
- training के बाद calibration process से visual fluency बढ़ती है, जिससे उपयोगी और consistent images बनाई जा सकती हैं
text rendering फीचर
- एक image हज़ारों शब्द समेट सकती है, लेकिन सही जगह पर रखा गया थोड़ा text उसके अर्थ को और मजबूत कर सकता है
- GPT‑4o image में सटीक symbols या text जोड़कर उसे visual communication tool की तरह इस्तेमाल करने योग्य बनाता है
conversational image generation
- GPT‑4o image generation को अपनी मूल क्षमता के रूप में इंटीग्रेट करता है, जिससे बातचीत के प्रवाह में image बनाना और संशोधित करना संभव है
- उदाहरण: game character design करते समय उसके रूप को लगातार बनाए रखते हुए बार-बार संशोधन किया जा सकता है
निर्देशों का सटीक पालन
- GPT‑4o विस्तृत prompts को सटीक रूप से लागू करता है
- अन्य systems लगभग 5-8 objects तक संभाल पाते हैं, जबकि GPT‑4o अधिकतम 10-20 objects को भी consistency के साथ generate कर सकता है
- यह object attributes और उनके relationships को अधिक सटीकता से बनाए रखता है
context-आधारित learning
- यह user द्वारा upload की गई image का विश्लेषण करके उसके विवरणों को image generation में शामिल करता है
world knowledge से जुड़ाव
- GPT‑4o text और image के बीच ज्ञान को जोड़कर अधिक स्मार्ट और कुशल image generation संभव बनाता है
photorealism और विविध styles
- इसे कई image styles पर train किया गया है, जिससे realistic images और style transformation संभव हैं
मॉडल की सीमाएँ
- यह कोई परफेक्ट मॉडल नहीं है
- शुरुआती रिलीज़ के बाद user feedback और data के आधार पर इसमें लगातार सुधार किया जाएगा
सुरक्षा सुनिश्चित करने के प्रयास
- game development, history exploration और education जैसी उपयोगी creative activities को बढ़ावा देते हुए भी कड़े safety standards बनाए रखे गए हैं
- अनुचित images के generation को रोकने के लिए सख्त policies लागू हैं
-
C2PA और internal search tool के ज़रिए transparency
- GPT‑4o द्वारा बनाई गई सभी images में C2PA metadata शामिल होता है, जिससे source स्पष्ट रहता है
- internal search tool की मदद से technical attributes के आधार पर image source की जाँच की जा सकती है
-
अनुचित images को ब्लॉक करना
- child sexual images या deepfakes जैसी policy-violating image requests को ब्लॉक किया जाता है
- वास्तविक व्यक्तियों वाली images पर और कड़े restrictions लागू होते हैं
- nude और violent images के लिए सख्त pre-blocking system चलाया जा रहा है
-
reasoning-आधारित safety को मजबूत करना
- इंसानों द्वारा लिखे गए policy specifications के आधार पर काम करने वाला reasoning-based LLM train किया गया है
- इसे policy की अस्पष्टताओं को पहचानने और हल करने के लिए इस्तेमाल किया गया, और multimodal technology के साथ जोड़कर input text और output image दोनों को policy standards के अनुरूप समायोजित किया गया
उपलब्धता
- आज से Plus, Pro, Team और Free users के लिए यह default image generator के रूप में उपलब्ध है
- Enterprise और Edu के लिए support जल्द आएगा
- यह Sora में भी उपलब्ध है, जबकि मौजूदा DALL·E model को अलग GPT के ज़रिए access किया जा सकता है
- API के माध्यम से image generation फीचर कुछ हफ्तों में developers के लिए उपलब्ध कराया जाएगा
- users केवल अपनी इच्छित image का विवरण देकर generation कर सकते हैं, और aspect ratio, रंग (hex code), background transparency आदि भी निर्दिष्ट कर सकते हैं
- high-precision image generation के कारण rendering time अधिकतम 1 मिनट तक लग सकता है
3 टिप्पणियां
अभी free में यह दिख नहीं रहा लगता है, तो क्या यह सिर्फ Plus, Pro और Team के लिए ही खोला गया है?
Pro में चैट विंडो के नीचे
...दबाने पर "इमेज बनाएं (अपडेट किया गया)" ऐसा दिख रहा है, तो शायद यही है।लेकिन Best of # तो नहीं दिख रहा, इसलिए समझ नहीं आ रहा कि यह लागू हुआ है या नहीं।
Hacker News राय
नई image generation विधि tokens का उपयोग करके diffusion की बजाय pixel space में reasoning करती है
4o Image Generation का परिचय: यह सबसे advanced image generator है
यह जिज्ञासा है कि o1 के साथ benchmarks क्यों नहीं जोड़े जाते
OpenAI की GPT-4o Image Generation live stream धीमी है, और प्रति image लगभग 30 सेकंड लगते हैं
आज़माने पर, बेटी के birthday invitation को एक ही बार में generate किया जा सका
यह अच्छा लगा कि यह अत्यधिक saturated CG/cartoon style जैसा नहीं है
यह जानने की जिज्ञासा है कि दिए गए prompt को 4o ने process किया या Dall-E ने
wine glass test में यह अब भी fail होता है
यह जिज्ञासा है कि "Best of 8" tag वाली कई images वास्तव में कितनी चुनी गई हैं
नए model के साथ iterative editing का एक example है