GPT Images 1.5 जारी
(openai.com)- ChatGPT की इमेज जनरेशन सुविधा को नया अपग्रेड मिला है, जो अधिक सटीक एडिटिंग और तेज़ जनरेशन स्पीड प्रदान करता है
- GPT‑Image‑1.5 मॉडल टेक्स्ट निर्देशों का अधिक सटीक पालन करता है, और व्यक्ति की समानता, रोशनी और कंपोज़िशन बनाए रखते हुए संशोधन कर सकता है
- नए Images sidebar interface के जरिए preset styles, trending prompts और appearance reuse सुविधा मिलती है
- API में भी वही प्रदर्शन सुधार उपलब्ध हैं और लागत 20% कम हुई है, जिससे यह brand logo और product image generation के लिए उपयुक्त है
- यह अपडेट सभी ChatGPT और API उपयोगकर्ताओं के लिए तुरंत रोलआउट किया जा रहा है, जिससे इमेज जनरेशन की उपयोगिता और गुणवत्ता में बड़ा सुधार होता है
GPT‑Image‑1.5 परिचय
- सबसे शक्तिशाली इमेज जनरेशन मॉडल पर आधारित ChatGPT Images का नया संस्करण जारी
- यह टेक्स्ट निर्देशों का अधिक सटीक पालन करता है और चेहरे की समानता जैसे सूक्ष्म तत्वों को बनाए रखते हुए एडिटिंग कर सकता है
- इमेज जनरेशन स्पीड अधिकतम 4 गुना तेज़ हो गई है, जिससे बार-बार प्रयोग और आइडिया एक्सप्लोरेशन अधिक कुशल होता है
- यह मॉडल अभिव्यक्तिपूर्ण रूपांतरण, घने टेक्स्ट रेंडरिंग और स्वाभाविक परिणाम प्रदान करता है
- छोटे बदलावों से लेकर पूरी तरह पुनर्निर्माण तक संभाल सकता है, और preset style चुनकर आसानी से जनरेट किया जा सकता है
- ChatGPT के सभी उपयोगकर्ताओं के लिए क्रमिक रूप से रोलआउट हो रहा है, और API में GPT‑Image‑1.5 के रूप में उपलब्ध है
उपयोगकर्ता की मंशा के अनुरूप परिणाम
- मॉडल केवल अनुरोधित हिस्से को संशोधित करते हुए रोशनी, कंपोज़िशन और व्यक्ति की समानता को लगातार बनाए रखता है
- इससे photo editing, outfit/hair style simulation, style filters और concept transformation जैसे उपयोगों में उच्च स्तर की सटीकता मिलती है
- ChatGPT portable creative studio की तरह व्यावहारिक एडिटिंग और कलात्मक पुनर्रचना, दोनों कर सकता है
- यह विभिन्न एडिटिंग प्रकारों (जोड़ना, हटाना, मिलाना, मिश्रित करना आदि) को सपोर्ट करता है
- टेक्स्ट और layout जैसे तत्व जोड़ने वाली creative transformation capability को मजबूत किया गया है
- GPT Image 1.0 की तुलना में निर्देश समझने की क्षमता बेहतर हुई है, जिससे अधिक सूक्ष्म एडिटिंग संभव है
- घने और छोटे टेक्स्ट रेंडरिंग की गुणवत्ता में सुधार हुआ है
नया इमेज जनरेशन स्पेस
- ChatGPT में Images के लिए समर्पित sidebar जोड़ा गया है, जिससे इमेज खोज और जनरेशन प्रक्रिया छोटी हो जाती है
- इसमें preset filters, trending prompts और appearance reuse सुविधा शामिल है
- camera roll को बार-बार फिर से उपयोग करने की ज़रूरत बिना, एक बार अपलोड की गई सामग्री को बार-बार इस्तेमाल किया जा सकता है
- इमेज जनरेशन स्पीड अधिकतम 4 गुना बढ़ी है, और एक साथ कई इमेज बनाई जा सकती हैं
- छोटे बदलावों से लेकर पूर्ण पुनर्रचना तक उपयोगकर्ता की कल्पना से मेल खाने वाले परिणाम प्रदान किए जाते हैं
अतिरिक्त गुणवत्ता सुधार
- कई छोटे चेहरों का बेहतर चित्रण और अधिक स्वाभाविक परिणाम रेंडरिंग जैसे तुरंत उपयोगी गुणवत्ता सुधार किए गए हैं
- उदाहरण: 1970 के दशक के लंदन सड़क दृश्य को अधिक वास्तविक रूप में पुनर्निर्मित किया गया, जिसमें सूक्ष्म फोकस और व्यक्ति चित्रण बेहतर हुआ
सुधार और सीमाएँ
- शुरुआती संस्करण की तुलना में विभिन्न मामलों में स्पष्ट प्रदर्शन सुधार देखा गया है
- फिर भी कुछ परिणाम अभी भी अपूर्ण हैं, और multiple faces तथा multilingual processing जैसे क्षेत्रों में अभी सुधार की गुंजाइश है
GPT Image 1.5 की API उपलब्धता
- API संस्करण में ChatGPT Images जैसे ही सुधार शामिल हैं
- brand logo और key visual consistency बनाए रखना
- marketing और ecommerce के लिए इमेज जनरेशन में उपयुक्त
- input/output लागत 20% कम हुई है, जिससे समान बजट में अधिक इमेज बनाई जा सकती हैं
- OpenAI Playground, gallery और prompt guide में इसे आज़माया जा सकता है
- Wix, Canva, Figma, Envato जैसी कंपनियाँ पहले से इसका उपयोग कर रही हैं
- Wix ने इसे “high-quality, highly consistent image generation के जरिए तेज़ production workflow का समर्थन” बताया
लॉन्च और रोलआउट
- नया ChatGPT Images मॉडल दुनिया भर के सभी ChatGPT और API उपयोगकर्ताओं के लिए तुरंत रोलआउट किया जा रहा है
- इसे अलग मॉडल चुनने के बिना इस्तेमाल किया जा सकता है, और पिछला संस्करण custom GPT के रूप में बना रहेगा
- OpenAI ने इस अपडेट को इमेज जनरेशन तकनीक की प्रगति में एक महत्वपूर्ण चरण बताया है
- आगे और अधिक सूक्ष्म एडिटिंग और multilingual support जैसे अतिरिक्त सुधार की योजना है
1 टिप्पणियां
Hacker News की राय
GenAI Showdown साइट पर gpt-image 1.5 के नतीजे साझा किए गए
OpenAI की prompt understanding अब भी मज़बूत थी, लेकिन image fidelity अपेक्षाकृत कमज़ोर थी। इस अपडेट से वह कमी काफ़ी हद तक सुधरी है
खास तौर पर, यह कुल aesthetics को बिगाड़े बिना localized edit अच्छे से करता है। पहले स्कोर 4/12 था, जो बढ़कर 8/12 हो गया, और यह इकलौता मॉडल था जिसने ‘Giraffe prompt’ पास किया
मॉडल की steerability भी लगभग 90% तक ऊँची है
नए जोड़े गए फीचर्स में मॉडल-वार failure cases (outtakes) सेक्शन, REVE और Flux.2 Dev मॉडल का जोड़ना, और weight-based scoring system शामिल हैं
तीन मॉडलों (gpt-image-1, gpt-image-1.5, NB Pro) की तुलना के लिए इस लिंक को देखें
Nano Banana पर किए गए प्रयोगों को समेटता एक ब्लॉग पोस्ट तैयार किया जा रहा है
नए ChatGPT Image मॉडल को टेस्ट करने पर, वह Nano Banana Pro से काफ़ी कमज़ोर निकला, लेकिन बेसिक Nano Banana से बेहतर था
कीमत स्पष्ट नहीं है, लेकिन gpt-image-1.5 मौजूदा मॉडल से लगभग 20% सस्ता लगता है
दिलचस्प बात grid generation का मामला है। NBP में 4x4 से ऊपर prompt consistency टूट जाती है, लेकिन OpenAI ने 6x6 उदाहरण आज़माया, यह प्रभावशाली लगा
तब तक NB Pro के प्रभावशाली नतीजे इस ब्लॉग में देखे जा सकते हैं
NB Pro ने पहले कभी न देखे गए jigsaw puzzle को जोड़ने, 3D terrain का अनुमान लगाने, और खिड़की को mirror में बदलने जैसे चौंकाने वाले नतीजे दिए
उदाहरण के लिए, जब नाव चलाते दो लोगों की मांग की गई, तो नाव इतनी छोटी थी कि वे उसमें लगभग समा ही नहीं सकते थे
और हर बार edit prompt देने पर पिछली बातचीत गायब हो जाने वाला bug बहुत असुविधाजनक था
अधिक natural नतीजों के लिए prompt की शुरुआत में “shaky amateur smartphone photo” जैसी पंक्ति जोड़ी गई
संबंधित प्रतिक्रियाएँ इस ट्वीट में भी देखी जा सकती हैं
gpt-image-1, Nano Banana(Pro) की तुलना में previz-to-render में कहीं बेहतर है
Nano Banana low-resolution previz elements को लगभग जस का तस रखता है, जबकि gpt-image-1 character pose और scene blocking को समझकर upscale भी करता है
उदाहरण वीडियो: 3D + Posing + Blocking, set reuse version, Gaussian splats, अतिरिक्त उदाहरण
आगे चलकर style control, speed, और reference image-based styling दे सकने वाले मॉडल की ज़रूरत होगी
Adobe भी इसी तरह के फीचर्स पर प्रयोग कर रहा है, और Relighting, Image→3D editing, Gaussian editing, 3D→Image conversion आदि डेमो दिखा चुका है
मैं खुद इन फीचर्स को open source desktop tool के रूप में लागू कर रहा हूँ और Rust में डेवलप कर रहा हूँ
अगर 2010 में यह Photoshop ऑपरेटरों द्वारा images को जोड़कर देने वाली सेवा होती, तो शायद बड़ा विवाद होता
अब यह ऐसा दौर है जहाँ AI ने copyright और authorship की अवधारणा को हिला दिया है, इसलिए यह जिज्ञासा है कि नए content की रक्षा कैसे की जा सकती है
पहले ऐसा हुआ था कि मैंने खींची हुई एक दुर्लभ शैली की फोटो को gpt ने लगभग वैसा ही दोहरा दिया
जैसे ही उसे सार्वजनिक किया जाता है, एक निश्चित स्तर के दुरुपयोग को स्वीकार करना पड़ता है। मॉडल के मूल source पर overfit होने के मामलों में अभी तक क़ानूनी मिसाल मौजूद नहीं है
gpt-image-1.5 से sprite map और UV texture map बनाने की कोशिश की गई, और उसमें Megaman Legends जैसा एहसास अच्छी तरह आया
उदाहरण1, उदाहरण2
लेकिन असली 3D मॉडल न होने की वजह से यह पक्का नहीं कि यह सटीक UV map है। Nano Banana के शुरुआती वर्ज़न में ऐसा काम संभव नहीं था
ऐसे texture का इस्तेमाल किया जा सकता है, लेकिन उसमें distortion काफ़ी होगा
सही तरीका यह है कि मॉडल को unwrap किया जाए और input के तौर पर wireframe UV map दिया जाए
असली Crash मॉडल यहाँ देखा जा सकता है
software product पर dark theme लागू करने का एक प्रयोग किया गया
Gemini/Nano ने सिर्फ कुछ panels को gray किया, लेकिन GPT ने पूरे app को अच्छी तरह theme कर दिया
फिर भी बारीक design के लिए अब भी designer की ज़रूरत है
यह जिज्ञासा थी कि ChatGPT images में हमेशा रहने वाली पीली आभा की वजह क्या है
“ऐसी यादों से images बनाना जो कभी अस्तित्व में थीं ही नहीं” जैसी product pitch अजीब लगती है
मैं इसे मुख्यतः programming, wiki, math जैसे text-centric tasks के लिए ही इस्तेमाल करता हूँ
यह घटना कुछ हद तक उस समय जैसी है जब Snapchat filters का चलन था। मैं तब भी इसे basic mode पर ही छोड़ता था
आखिर में शायद सब लोग virtual life subscribe करेंगे, और कार्ड पेमेंट फेल होते ही फिर वास्तविकता में लौट आएँगे
नए मॉडल के API पर काम करने की बात सुनकर Golang SDK grail अपडेट किया गया,
लेकिन call करने पर 500 server error आ रही है। model list में भी gpt-image-1.5 नहीं है
code example देखें
मेरे local playground (gpt-image-1-playground) में 404 को handle करने के लिए बदलाव किया गया है
अगर model name ग़लत दिया जाए, तो संदेश आता है कि ‘supported values सिर्फ gpt-image-1 और gpt-image-1-mini हैं’
अब भी Midjourney का इस्तेमाल किया जा रहा है। दूसरे बड़े मॉडल stylistic creativity में कमज़ोर हैं और सिर्फ photorealism पर केंद्रित हैं
अगर एक single image नहीं बल्कि context-rich sequence बनानी हो, तो ऐसे फीचर्स ज़रूरी हैं
कला का मूल्य सिर्फ ‘rendering skill’ से आँकने की प्रवृत्ति रही है, और यह सामाजिक संदर्भ में cultural creation के अर्थ को नज़रअंदाज़ करने वाला रवैया है