ChatGPT Images 2.0 पेश किया गया

(openai.com)

6 पॉइंट द्वारा GN⁺ 2026-04-22 | 4 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने इमेज जनरेशन मॉडल का अगला संस्करण पेश किया है, और परिचय लेख को सीधे टेक्स्ट में लिखने के बजाय केवल Images 2.0 से बनाई गई इमेजों में डाले गए टेक्स्ट के माध्यम से प्रस्तुत किया है
फोकस ऐसे तुरंत उपयोग योग्य आउटपुट बनाने पर है जिनमें जटिल visual tasks और सटीक text rendering शामिल हों
यह thinking क्षमता वाला पहला image model है, जो web search, एक साथ कई इमेज बनाना, और अपने आउटपुट का स्वयं verification कर सकता है
जापानी, कोरियाई, चीनी, हिंदी, बांग्ला आदि non-Latin scripts की rendering performance में बड़ा सुधार हुआ है, जिससे multilingual design बनाना व्यावहारिक हो गया है
3:1 से 1:3 तक flexible aspect ratio support के साथ banner, poster, mobile screen जैसे कई formats के लिए तुरंत उपयोग संभव
rendering tool से strategic design system की ओर बदलाव का दावा, और ChatGPT·Codex·API में उपलब्ध

इमेज जनरेशन के नए युग की शुरुआत

इमेज को सिर्फ सजावट नहीं बल्कि एक भाषा के रूप में परिभाषित किया गया है, जो mechanism समझाने, mood बनाने, ideas validate करने और संदेश पहुँचाने का काम कर सकती है
एक साल पहले लॉन्च हुए ChatGPT Images ने साबित किया था कि AI इमेज सुंदर और उपयोगी हो सकती हैं, और Images 2.0 अब जटिल visual tasks को सटीकता से संभालने वाला अगली पीढ़ी का मॉडल है
विस्तृत निर्देशों का सटीक पालन, objects की सही placement और relationships की अभिव्यक्ति, तथा dense text rendering में बड़ी छलांग
composition और visual sense इतने बेहतर हैं कि परिणाम AI-generated के बजाय जानबूझकर तैयार किए गए design जैसे महसूस होते हैं
यह कई भाषाओं में सटीक रूप से काम करता है, और विस्तारित visual तथा world knowledge का उपयोग करके कम prompts में भी अधिक smart image generation संभव बनाता है
यह मॉडल OpenAI के reasoning model intelligence और visual world understanding को जोड़ता है, जिससे image generation साधारण rendering से strategic design, और tool से visual system की ओर बढ़ता है
आज से ChatGPT, Codex, और API के सभी उपयोगकर्ताओं के लिए उपलब्ध

अधिक सटीकता और नियंत्रण

Images 2.0 इमेज जनरेशन में अभूतपूर्व specificity और fidelity प्रदान करता है
यह केवल अधिक परिष्कृत इमेज की कल्पना नहीं करता, बल्कि उन्हें प्रभावी रूप से लागू भी करता है; instruction following, request details को बनाए रखना, और सूक्ष्म तत्वों की rendering इसकी ताकत हैं
पुराने image models जिन छोटे टेक्स्ट, icons, UI elements, dense layouts, और सूक्ष्म style constraints को ठीक से नहीं संभाल पाते थे, उन्हें यह अधिकतम 2K resolution तक संभाल सकता है
यह सिर्फ "लगभग वैसी इमेज" नहीं, बल्कि वास्तव में तुरंत उपयोग योग्य परिणाम बनाता है

बहुभाषी टेक्स्ट सपोर्ट मजबूत

पहले के models अंग्रेज़ी और Latin script भाषाओं में तो स्थिर प्रदर्शन दिखाते थे, लेकिन जटिल या dense text में non-Latin scripts को ठीक से संभाल नहीं पाते थे
Images 2.0 में multilingual understanding बेहतर हुई है, और खास तौर पर जापानी, कोरियाई, चीनी, हिंदी, बांग्ला के non-Latin text rendering में बड़ा सुधार हुआ है
अब non-English text केवल सही render ही नहीं होता, बल्कि भाषाई रूप से स्वाभाविक flow वाले परिणाम भी संभव हैं
केवल labels के translation से आगे बढ़कर, ऐसे posters, explanatory materials, diagrams, और comics जिनमें भाषा design का हिस्सा हो, उनमें भी visual consistency बनाए रखी जा सकती है
उपयोगकर्ता वास्तव में जिस भाषा का इस्तेमाल करते हैं, उसी में visuals बना सकते हैं, जिससे global usability बढ़ती है

अधिक परिष्कृत स्टाइल और यथार्थवाद

Images 2.0 में विभिन्न visual styles में fidelity काफी बेहतर हुई है
photo की विशेषताओं में यथार्थवाद बढ़ाने वाली सूक्ष्म कमियाँ, film stills, pixel art, comics जैसे विशिष्ट visual languages की texture, lighting, composition और details में consistency सुधरी है
यह केवल मांगे गए style का अनुमानित रूप नहीं, बल्कि उसे अधिक faithfully दर्शाने वाले परिणाम बनाता है
game prototyping, storyboard, marketing creative, और किसी खास medium या genre के assets बनाने में यह विशेष रूप से उपयोगी है

लचीला aspect ratio support

3:1 (horizontal) से 1:3 (vertical) तक व्यापक aspect ratios का समर्थन
wide banners, presentation slides, posters, mobile screens, bookmarks, social graphics आदि ज़रूरी format के अनुरूप आउटपुट तुरंत बनाए जा सकते हैं
prompt में मनचाहा aspect ratio बताकर, या preset options से चुनकर, नए size में फिर से generate किया जा सकता है

वास्तविक दुनिया की बुद्धिमत्ता

Images 2.0 इमेज जनरेशन में दुनिया की अधिक नवीन समझ को शामिल करता है, और इसका knowledge cutoff दिसंबर 2025 तक अपडेट किया गया है
explanatory materials, maps, educational graphics, visual summaries जैसे ऐसे आउटपुट जिनमें accuracy और clarity, aesthetics जितनी ही महत्वपूर्ण हों, उनमें यह फायदेमंद है
बेहतर intelligence के साथ यह जानकारी के synthesis से लेकर copy writing और visualization तक end-to-end काम कर सकता है
- spacing, readability, और flow को ध्यान में रखते हुए साफ़-सुथरा और व्यवस्थित design sense रखता है

visual thinking partner

thinking या pro model चुनने पर, मॉडल अधिक समय लगाकर agentic तरीके से काम को समझता और पूरा करता है
यह web पर संबंधित जानकारी खोज सकता है, upload की गई सामग्री को स्पष्ट visual explanatory material में बदल सकता है, और generation से पहले image structure पर reasoning कर सकता है
इस mode में Images 2.0 visual thinking partner की तरह काम करता है, और draft concept से final asset तक उपयोगकर्ता का workload काफी कम कर देता है
thinking mode में एक बार में कई अलग-अलग इमेज एक साथ generate की जा सकती हैं — ChatGPT image generation में पहली बार
- comic pages की series, पूरे घर के redesign direction, poster concept family, और अलग-अलग aspect ratios व भाषाओं वाले social graphics sets जैसे workflows को support करता है
इमेज को एक-एक करके prompt कर manually जोड़ने के बजाय, characters और objects की continuity बनाए रखने वाले अधिकतम 10 consistent outputs एक साथ मांगे जा सकते हैं
- हर परिणाम क्रमिक रूप से पिछले परिणाम पर आधारित होकर बनता है

4 टिप्पणियां

j2sus91 2026-04-22

इमेज में reasoning शामिल है, इसलिए रिज़ल्ट कमाल के हैं.

मैंने सिर्फ नए बिज़नेस से जुड़े कुछ keywords दिए थे,
लेकिन यह core message और pain points तक infer करके उन्हें landing page में शामिल कर देता है.

पहले जिन sites को reference के तौर पर बताया था, उनके brand colors, brand message tone, यहाँ तक कि model भी वैसे के वैसे ले आना तो अब बेसिक बात है.
और Hindi/Korean टेक्स्ट भी बिल्कुल टूटता नहीं दिख रहा, तो आगे इसका उपयोग बहुत जबरदस्त होने वाला है..

अब AI की प्रगति सच में दिन-ब-दिन और डरावनी लगने लगी है.

kirinonakar 2026-04-22

कमाल है। जब nanobanana आया था तब भी मैं हैरान था, लेकिन अब यह और बेहतर हो गया है। लगता है प्रतिस्पर्धा होने से विकास तेज़ी से होता है।

xguru 2026-04-22

ओह.. टेक्स्ट हैंडलिंग तो Nano Banana जैसी थी, लेकिन लगता है इस बार उन्होंने अच्छी तैयारी की है।
परिचय लेख की सारी सामग्री को इमेज में बदल दिया गया है।
पूरा लेख इमेज स्क्रॉल करते हुए देखा जा सकता है।
बीच में कर्सिव लिखावट काफ़ी प्रभावशाली लगती है

GN⁺ 2026-04-22

Hacker News की राय

मैंने नए मॉडल को इस तरह टेस्ट किया। gpt-image-2 से "हैम रेडियो पकड़े हुए रैकून को ढूँढ़ने वाली Where's Waldo स्टाइल इमेज" बनाई, और कोड यहाँ है। नतीजा यह इमेज है, लेकिन सच कहूँ तो मुझे भी पक्का नहीं कि raccoon सच में हैम रेडियो पकड़े हुए है या नहीं। वैसे भी Where's Waldo जैसे टेस्ट में आखिर तक ढूँढ़ते रहने का धैर्य मुझमें कम ही होता है
- मैंने इसे अधिकतम resolution वाले कमांड से फिर चलाया और काफी बेहतर नतीजा मिला। OpenAI cookbook की सुझाई गई size को देखा था(लिंक), और परिणाम यहाँ है। इस बार raccoon भी मिल गया, और एक इमेज पर लगभग 40 सेंट खर्च हुआ होगा
- इमेज दिखाने के लिए शुक्रिया, लेकिन लोगों के चेहरे इतने अजीब हैं कि लगता है जैसे दुःस्वप्न में आ जाएँगे
- मेरे हिसाब से यह prompt मौजूदा diffusion मॉडल परिवार के लिए वाकई बेहद कठिन काम है। इसलिए सिर्फ कोशिश करना भी काफ़ी प्रभावशाली लगता है
- "आखिर तक ढूँढ़ने का धैर्य नहीं है" वाली बात पढ़कर लगा कि इसे एक नया AI benchmark बनाया जा सकता है
- मुझे यह काम उस तरह का लगा जिसमें AI structural detail में लगातार कमजोर रह सकता है। दूर से देखने पर सब ठीक लगता है, लेकिन पास से देखने पर चीखते हुए चेहरे, एक साथ दोनों दिशाओं की ओर इशारा करते signboard, मौजूद ही न होने वाले emergency tent, और राक्षसी दिखने वाले कुत्तों जैसी बहुत सी गलतियाँ दिखती हैं। प्रचार वाले sample भी ऐसे ही लगते हैं, और anatomy या periodic table जैसे उदाहरण भी ध्यान से देखने पर टूट जाते हैं। आखिर हम इतना RAM & GPUs, पानी और बिजली खर्च करके बस Where's Waldo का और खराब संस्करण बना रहे हैं क्या, ऐसी शंका होती है
मैंने Nano Banana Pro के साथ प्रयोग करते हुए इमेज मॉडल की rule-following क्षमता जाँचने के लिए एक बहुत मजेदार prompt बनाया। कुछ ऐसा: "पहले 64 prime numbers से मेल खाने वाले National Pokédex नंबरों के Pokémon को 8x8 grid में रखो, और नंबर के अंकों की संख्या के हिसाब से 8-bit, charcoal, Ukiyo-e स्टाइल में बनाओ।" NBP का नतीजा यहाँ है; नंबर, Pokémon और स्टाइल ज़्यादातर सही थे, हालांकि स्टाइल लागू करने में थोड़ी आलस दिखी और इमेज के plagiarized लगने पर बहस हो सकती है। वही prompt gpt-2-image high पर चलाने का नतीजा यहाँ है; इसमें स्टाइल ज्यादा creative और original जैसी लगी, लेकिन स्टाइल logic अंकों के आधार पर नहीं बल्कि row-by-row लागू हुआ, कुछ Pokémon गलत थे, font भी गलत था, और नीचे का हिस्सा square भी नहीं था। काफ़ी अजीब नतीजा था
- मुझे यह टेस्ट वाकई शानदार लगा, और साथ ही यह भी थोड़ा मज़ेदार लगा कि gpt-2-image इतना खराब निकला। सच कहूँ तो जैसे search करके copy-paste की हुई plagiarized इमेज ही बेहतर होती। कम से कम "निर्देश सही तरह follow हुए या नहीं" यह जाँचने वाला sanity check या post-processing step भी नहीं दिखा। अंकों की संख्या के हिसाब से स्टाइल constraints का उल्लंघन आसानी से पकड़ा जा सकता था। ऊपर से कीमत भी महँगी है, इसलिए अगर आउटपुट लगभग बेकार हो तो और निराशा होती है
- उल्टा मुझे यह जानना था कि इस prompt को अच्छा prompt क्यों माना जा रहा है
मैंने हिसाब लगाया कि gemini-3.1-flash-image-preview से 4096x4096 इमेज बनाने पर 2,520 tokens और प्रति इमेज लगभग $0.151 लगते हैं, जबकि gpt-image-2 से 3840x2160 इमेज बनाने पर 13,342 tokens और लगभग $0.4 लगते हैं। यानी यह मॉडल Gemini से 2 गुना से भी ज़्यादा महँगा है
- मेरे हिसाब से यह तुलना apples to oranges है। एक तरह से flash version की full version से तुलना हो रही है, और बारीक detail में यह मॉडल flash से महसूस करने लायक करीब 5 गुना बेहतर लगता है
इमेज generation मॉडल टेस्ट करते समय मेरा एक हमेशा इस्तेमाल होने वाला hard prompt है। उसमें पुराने घड़ीसाज़ के हाथ, vintage pocket watch, उथला पानी, refraction और caustics, गिरती पानी की बूंदें, काँच की सतह में दिखता विकृत चेहरा, 100mm macro lens जैसी कई शर्तें एक साथ डालता हूँ। बनी हुई इमेजें Google Drive पर डाली हैं, और web व API दोनों में कई बार चलाया, लेकिन कुल मिलाकर यह Nano Banana जितना अच्छा नहीं लगा
- मैं जानना चाहता था कि इसे अच्छा prompt क्यों माना जाता है
- मैंने साझा की गई इमेजें खोलने की कोशिश की, लेकिन host की तरफ rate limit लगी हुई लग रही थी, बस बताना चाहता था
- मैंने भी पुष्टि की कि links टूटे हुए लग रहे हैं
मुझे लगा कि OpenAI का gpt-image-1.5 और Google का NB2 मेरी comparison site पर काफी कड़े मुकाबले में हैं। Prompt adherence-केंद्रित मूल्यांकन में दोनों ने generation और editing, दोनों में लगभग 70% success rate दिखाया, जबकि visual quality में Gemini हमेशा थोड़ा आगे रहा। फिर भी gpt-image-1.5 OpenAI की तरफ से बड़ा leap था और पहले की तथाकथित "piss filter" जैसी पुरानी समस्याओं को काफी हद तक हटा दिया। Comparison chart editing के लिए यहाँ और generation के लिए यहाँ देखा जा सकता है। Update के मुताबिक gpt-image-2 ने test set के तथाकथित model killer 9-कोण वाले सितारे को पास कर लिया, और text-to-image benchmark में 15 में से 12 सही करके पिछले top model से 1 अंक आगे निकल गया। हालांकि color order सख्ती से माँगने वाला coral snake, पहले 20 prime numbers को faces पर लिखे D20, और किनारों तक लोगों से भरा flat-earth जैसी planet prompt अभी भी fail हुए। पूरा comparison All Models पर है, और मुख्य models वाला दृश्य यहाँ है
मैंने pricing comparison भी संकलित किया। GPT Image 2 में Low पर 1024x1024 की कीमत $0.006, 1024x1536 और 1536x1024 की $0.005 थी; Medium में क्रमशः $0.053, $0.041, $0.041; और High में $0.211, $0.165, $0.165। दूसरी ओर GPT Image 1 में Low $0.011, $0.016, $0.016; Medium $0.042, $0.063, $0.063; और High $0.167, $0.25, $0.25 था
- मुझे इतनी बड़ी resolution limit थोड़ी अजीब लगी। अगर इससे बड़ा बनाया जाए तो zoom करने पर detail टूट जाती है, या फिर बस लागत बहुत तेजी से बढ़ जाती है, यह जानना चाहता था
- यह दिलचस्प लगा कि v2 में बड़ा output छोटे square से महँगा है, जबकि v1 में ठीक उल्टा था। यह pricing structure क्यों बनी, यह जानने की उत्सुकता है
मैंने देखा कि इस बार यह piano keyboard test पास कर गया। सफल उदाहरण यहाँ है, लेकिन middle C की labeling इस कोशिश में गलत थी। फिर भी दोबारा कहने पर उसने इसे ठीक कर दिया
- जब NB 2 आया था, तब मैंने इस टेस्ट की कठिनाई और बढ़ा दी थी। सभी accidentals और naturals के रंग उलट दिए थे, फिर भी उसने एकदम सही किया; उदाहरण यहाँ हैं
मुझे लगा कि चीनी टेक्स्ट rendering में सुधार सचमुच बहुत स्पष्ट और प्रभावशाली है। फिर भी Wuxi sample image में टाइपो बचे हुए थे; उदाहरण के लिए 小笼包 में 笼 गलत लिखा गया था। "极小中文也清晰可读" सेक्शन में भी कुछ और टाइपो थे, लेकिन पढ़ने में बड़ी दिक्कत नहीं थी। इसके बावजूद, यह पहले के image generation models की तुलना में बहुत बड़े अंतर से बेहतर लगा
- मैं जानना चाहता था कि क्या यह चीन के स्थानीय चीनी मॉडल्स से भी बेहतर है। Training data में चीनी उदाहरण बहुत अधिक होंगे, इसलिए आम तौर पर लगता है कि उस पहलू पर उनका ज़्यादा फोकस रहा होगा
मुझे लगता है कि अभी C2PA का ज़िक्र करने का अच्छा समय है। यह इमेज के provenance को सक्रिय रूप से साबित करने वाला एक standard है, और OpenAI भी इसमें शामिल है। जब मैं AI से बनाई गई इमेज को C2PA Viewer में डालता हूँ, तो उसका स्रोत ChatGPT दिखता है। बेशक कोई दुर्भावनापूर्ण उपयोगकर्ता metadata हटाकर उसे सामान्य इमेज जैसा बना सकता है, लेकिन लंबे समय में मेरा मानना है कि provenance label के बिना आने वाली इमेजों को non-https की तरह एक warning sign माना जाना चाहिए। अधिक जानकारी के लिए c2pa.org देख सकते हैं
- मुझे नहीं लगता कि इस समस्या को सिर्फ bad actors के व्यवहार तक सीमित करके देखा जा सकता है। Instagram, Facebook जैसे ज़्यादातर platforms privacy कारणों से metadata डिफ़ॉल्ट रूप से हटा देते हैं, और EXIF में location, filename, creation time, device info जैसी चीजें हो सकती हैं। इसलिए अभी दुर्भावनापूर्ण छेड़छाड़ से ज़्यादा व्यावहारिक समस्या यह लगती है कि ज़्यादातर sites इमेज upload होते ही metadata stripping कर देती हैं, और यही C2PA को बचाए रखने में बड़ी बाधा है
- मैं यह भी जोड़ना चाहता था कि OpenAI शुरू से generated images में C2PA manifests जोड़ता आया है। और मेरी छोटी-सी evaluation के हिसाब से OmniAID जैसे नए ML-आधारित AI image detectors GPT-Image-2 से बनी इमेजों को काफी अच्छी तरह पकड़ लेते हैं। संबंधित paper यहाँ है, और मैंने इन दोनों को मिलाकर on-device AI image detector भी बनाया है
मैंने इस मॉडल को कुछ घंटों तक इस्तेमाल किया, और ईमानदारी से कहूँ तो यह काफी प्रभावशाली लगा। पहली बार लगा कि कोई image model मेरे असली काम में मददगार है, और खासकर PowerPoint slides और mockup बनाने में यह बहुत शक्तिशाली महसूस हुआ