3 पॉइंट द्वारा GN⁺ 2025-12-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ChatGPT की इमेज जनरेशन सुविधा को नया अपग्रेड मिला है, जो अधिक सटीक एडिटिंग और तेज़ जनरेशन स्पीड प्रदान करता है
  • GPT‑Image‑1.5 मॉडल टेक्स्ट निर्देशों का अधिक सटीक पालन करता है, और व्यक्ति की समानता, रोशनी और कंपोज़िशन बनाए रखते हुए संशोधन कर सकता है
  • नए Images sidebar interface के जरिए preset styles, trending prompts और appearance reuse सुविधा मिलती है
  • API में भी वही प्रदर्शन सुधार उपलब्ध हैं और लागत 20% कम हुई है, जिससे यह brand logo और product image generation के लिए उपयुक्त है
  • यह अपडेट सभी ChatGPT और API उपयोगकर्ताओं के लिए तुरंत रोलआउट किया जा रहा है, जिससे इमेज जनरेशन की उपयोगिता और गुणवत्ता में बड़ा सुधार होता है

GPT‑Image‑1.5 परिचय

  • सबसे शक्तिशाली इमेज जनरेशन मॉडल पर आधारित ChatGPT Images का नया संस्करण जारी
    • यह टेक्स्ट निर्देशों का अधिक सटीक पालन करता है और चेहरे की समानता जैसे सूक्ष्म तत्वों को बनाए रखते हुए एडिटिंग कर सकता है
    • इमेज जनरेशन स्पीड अधिकतम 4 गुना तेज़ हो गई है, जिससे बार-बार प्रयोग और आइडिया एक्सप्लोरेशन अधिक कुशल होता है
  • यह मॉडल अभिव्यक्तिपूर्ण रूपांतरण, घने टेक्स्ट रेंडरिंग और स्वाभाविक परिणाम प्रदान करता है
    • छोटे बदलावों से लेकर पूरी तरह पुनर्निर्माण तक संभाल सकता है, और preset style चुनकर आसानी से जनरेट किया जा सकता है
  • ChatGPT के सभी उपयोगकर्ताओं के लिए क्रमिक रूप से रोलआउट हो रहा है, और API में GPT‑Image‑1.5 के रूप में उपलब्ध है

उपयोगकर्ता की मंशा के अनुरूप परिणाम

  • मॉडल केवल अनुरोधित हिस्से को संशोधित करते हुए रोशनी, कंपोज़िशन और व्यक्ति की समानता को लगातार बनाए रखता है
  • इससे photo editing, outfit/hair style simulation, style filters और concept transformation जैसे उपयोगों में उच्च स्तर की सटीकता मिलती है
  • ChatGPT portable creative studio की तरह व्यावहारिक एडिटिंग और कलात्मक पुनर्रचना, दोनों कर सकता है
    • यह विभिन्न एडिटिंग प्रकारों (जोड़ना, हटाना, मिलाना, मिश्रित करना आदि) को सपोर्ट करता है
    • टेक्स्ट और layout जैसे तत्व जोड़ने वाली creative transformation capability को मजबूत किया गया है
    • GPT Image 1.0 की तुलना में निर्देश समझने की क्षमता बेहतर हुई है, जिससे अधिक सूक्ष्म एडिटिंग संभव है
    • घने और छोटे टेक्स्ट रेंडरिंग की गुणवत्ता में सुधार हुआ है

नया इमेज जनरेशन स्पेस

  • ChatGPT में Images के लिए समर्पित sidebar जोड़ा गया है, जिससे इमेज खोज और जनरेशन प्रक्रिया छोटी हो जाती है
    • इसमें preset filters, trending prompts और appearance reuse सुविधा शामिल है
    • camera roll को बार-बार फिर से उपयोग करने की ज़रूरत बिना, एक बार अपलोड की गई सामग्री को बार-बार इस्तेमाल किया जा सकता है
  • इमेज जनरेशन स्पीड अधिकतम 4 गुना बढ़ी है, और एक साथ कई इमेज बनाई जा सकती हैं
  • छोटे बदलावों से लेकर पूर्ण पुनर्रचना तक उपयोगकर्ता की कल्पना से मेल खाने वाले परिणाम प्रदान किए जाते हैं

अतिरिक्त गुणवत्ता सुधार

  • कई छोटे चेहरों का बेहतर चित्रण और अधिक स्वाभाविक परिणाम रेंडरिंग जैसे तुरंत उपयोगी गुणवत्ता सुधार किए गए हैं
  • उदाहरण: 1970 के दशक के लंदन सड़क दृश्य को अधिक वास्तविक रूप में पुनर्निर्मित किया गया, जिसमें सूक्ष्म फोकस और व्यक्ति चित्रण बेहतर हुआ

सुधार और सीमाएँ

  • शुरुआती संस्करण की तुलना में विभिन्न मामलों में स्पष्ट प्रदर्शन सुधार देखा गया है
  • फिर भी कुछ परिणाम अभी भी अपूर्ण हैं, और multiple faces तथा multilingual processing जैसे क्षेत्रों में अभी सुधार की गुंजाइश है

GPT Image 1.5 की API उपलब्धता

  • API संस्करण में ChatGPT Images जैसे ही सुधार शामिल हैं
    • brand logo और key visual consistency बनाए रखना
    • marketing और ecommerce के लिए इमेज जनरेशन में उपयुक्त
  • input/output लागत 20% कम हुई है, जिससे समान बजट में अधिक इमेज बनाई जा सकती हैं
  • OpenAI Playground, gallery और prompt guide में इसे आज़माया जा सकता है
  • Wix, Canva, Figma, Envato जैसी कंपनियाँ पहले से इसका उपयोग कर रही हैं
    • Wix ने इसे “high-quality, highly consistent image generation के जरिए तेज़ production workflow का समर्थन” बताया

लॉन्च और रोलआउट

  • नया ChatGPT Images मॉडल दुनिया भर के सभी ChatGPT और API उपयोगकर्ताओं के लिए तुरंत रोलआउट किया जा रहा है
  • इसे अलग मॉडल चुनने के बिना इस्तेमाल किया जा सकता है, और पिछला संस्करण custom GPT के रूप में बना रहेगा
  • OpenAI ने इस अपडेट को इमेज जनरेशन तकनीक की प्रगति में एक महत्वपूर्ण चरण बताया है
    • आगे और अधिक सूक्ष्म एडिटिंग और multilingual support जैसे अतिरिक्त सुधार की योजना है

1 टिप्पणियां

 
GN⁺ 2025-12-17
Hacker News की राय
  • GenAI Showdown साइट पर gpt-image 1.5 के नतीजे साझा किए गए
    OpenAI की prompt understanding अब भी मज़बूत थी, लेकिन image fidelity अपेक्षाकृत कमज़ोर थी। इस अपडेट से वह कमी काफ़ी हद तक सुधरी है
    खास तौर पर, यह कुल aesthetics को बिगाड़े बिना localized edit अच्छे से करता है। पहले स्कोर 4/12 था, जो बढ़कर 8/12 हो गया, और यह इकलौता मॉडल था जिसने ‘Giraffe prompt’ पास किया
    मॉडल की steerability भी लगभग 90% तक ऊँची है
    नए जोड़े गए फीचर्स में मॉडल-वार failure cases (outtakes) सेक्शन, REVE और Flux.2 Dev मॉडल का जोड़ना, और weight-based scoring system शामिल हैं
    तीन मॉडलों (gpt-image-1, gpt-image-1.5, NB Pro) की तुलना के लिए इस लिंक को देखें

  • Nano Banana पर किए गए प्रयोगों को समेटता एक ब्लॉग पोस्ट तैयार किया जा रहा है
    नए ChatGPT Image मॉडल को टेस्ट करने पर, वह Nano Banana Pro से काफ़ी कमज़ोर निकला, लेकिन बेसिक Nano Banana से बेहतर था
    कीमत स्पष्ट नहीं है, लेकिन gpt-image-1.5 मौजूदा मॉडल से लगभग 20% सस्ता लगता है
    दिलचस्प बात grid generation का मामला है। NBP में 4x4 से ऊपर prompt consistency टूट जाती है, लेकिन OpenAI ने 6x6 उदाहरण आज़माया, यह प्रभावशाली लगा

    • आज ही gpt-image-1.5 को अपने GenAI Showdown में चलाने वाला हूँ
      तब तक NB Pro के प्रभावशाली नतीजे इस ब्लॉग में देखे जा सकते हैं
      NB Pro ने पहले कभी न देखे गए jigsaw puzzle को जोड़ने, 3D terrain का अनुमान लगाने, और खिड़की को mirror में बदलने जैसे चौंकाने वाले नतीजे दिए
    • GPT1.5 को सीधे टेस्ट करने पर image quality NBP जैसी लगी, लेकिन prompt consistency और world model understanding कमज़ोर थे
      उदाहरण के लिए, जब नाव चलाते दो लोगों की मांग की गई, तो नाव इतनी छोटी थी कि वे उसमें लगभग समा ही नहीं सकते थे
      और हर बार edit prompt देने पर पिछली बातचीत गायब हो जाने वाला bug बहुत असुविधाजनक था
      अधिक natural नतीजों के लिए prompt की शुरुआत में “shaky amateur smartphone photo” जैसी पंक्ति जोड़ी गई
      संबंधित प्रतिक्रियाएँ इस ट्वीट में भी देखी जा सकती हैं
    • 10 साल से ज़्यादा समय से फ़िल्म निर्माण कर रहे व्यक्ति के नज़रिए से, consistent scene composition tool की बेहद ज़रूरत है
      gpt-image-1, Nano Banana(Pro) की तुलना में previz-to-render में कहीं बेहतर है
      Nano Banana low-resolution previz elements को लगभग जस का तस रखता है, जबकि gpt-image-1 character pose और scene blocking को समझकर upscale भी करता है
      उदाहरण वीडियो: 3D + Posing + Blocking, set reuse version, Gaussian splats, अतिरिक्त उदाहरण
      आगे चलकर style control, speed, और reference image-based styling दे सकने वाले मॉडल की ज़रूरत होगी
      Adobe भी इसी तरह के फीचर्स पर प्रयोग कर रहा है, और Relighting, Image→3D editing, Gaussian editing, 3D→Image conversion आदि डेमो दिखा चुका है
      मैं खुद इन फीचर्स को open source desktop tool के रूप में लागू कर रहा हूँ और Rust में डेवलप कर रहा हूँ
    • यह फ़ीडबैक मिला कि प्रयोग काफ़ी दिलचस्प थे। इसकी वजह से prompt लिखने का तरीका बेहतर हुआ और अपेक्षाएँ भी ज़्यादा यथार्थवादी हुईं
  • अगर 2010 में यह Photoshop ऑपरेटरों द्वारा images को जोड़कर देने वाली सेवा होती, तो शायद बड़ा विवाद होता
    अब यह ऐसा दौर है जहाँ AI ने copyright और authorship की अवधारणा को हिला दिया है, इसलिए यह जिज्ञासा है कि नए content की रक्षा कैसे की जा सकती है
    पहले ऐसा हुआ था कि मैंने खींची हुई एक दुर्लभ शैली की फोटो को gpt ने लगभग वैसा ही दोहरा दिया

    • reference image का उपयोग digital art industry की मानक प्रथा है। लेकिन AI में बहुत ज़्यादा मिलती-जुलती नकल का ख़तरा है
    • content की रक्षा का एकमात्र तरीका air gap है। यानी उसे इंटरनेट पर अपलोड ही न किया जाए
      जैसे ही उसे सार्वजनिक किया जाता है, एक निश्चित स्तर के दुरुपयोग को स्वीकार करना पड़ता है। मॉडल के मूल source पर overfit होने के मामलों में अभी तक क़ानूनी मिसाल मौजूद नहीं है
    • हम शायद post-copyright era में प्रवेश कर रहे हैं। क़ानून जल्द ही पीछे-पीछे आएगा
    • यह सवाल भी उठाया गया कि अगर कोई मेरे काम की नकल करे, लेकिन उससे बहुत सारे लोग उसे देखें, तो क्या वह ज़रूरी तौर पर बुरी बात ही होगी
  • gpt-image-1.5 से sprite map और UV texture map बनाने की कोशिश की गई, और उसमें Megaman Legends जैसा एहसास अच्छी तरह आया
    उदाहरण1, उदाहरण2
    लेकिन असली 3D मॉडल न होने की वजह से यह पक्का नहीं कि यह सटीक UV map है। Nano Banana के शुरुआती वर्ज़न में ऐसा काम संभव नहीं था

    • साफ़ तौर पर कहें तो यह असली UV map नहीं है। उदाहरण के लिए Crash मॉडल की पीठ वाला हिस्सा इसमें नहीं है
      ऐसे texture का इस्तेमाल किया जा सकता है, लेकिन उसमें distortion काफ़ी होगा
      सही तरीका यह है कि मॉडल को unwrap किया जाए और input के तौर पर wireframe UV map दिया जाए
      असली Crash मॉडल यहाँ देखा जा सकता है
  • software product पर dark theme लागू करने का एक प्रयोग किया गया
    Gemini/Nano ने सिर्फ कुछ panels को gray किया, लेकिन GPT ने पूरे app को अच्छी तरह theme कर दिया
    फिर भी बारीक design के लिए अब भी designer की ज़रूरत है

  • यह जिज्ञासा थी कि ChatGPT images में हमेशा रहने वाली पीली आभा की वजह क्या है

    • यह किसी खास समय के बाद से शुरू हुई घटना है। लगता है कि इसका असर Ghibli style boom से जुड़े reinforcement learning से आया
    • मेरा अनुमान है कि OpenAI ने image normalization calculation में गलती की हो सकती है। नए मॉडल में यह समस्या गायब है
    • Meta के Codec Avatars ने भी इसी तरह की समस्या झेली थी। लाखों डॉलर के उपकरणों से data इकट्ठा किया गया, लेकिन camera calibration failure की वजह से हरा tint आ गया था
    • एक और परिकल्पना यह है कि फ़िल्मों में आम तौर पर इस्तेमाल होने वाला ‘Mexico filter’ training data में समा गया
    • human preference के आधार पर style tuning करते समय हल्का पीला bias बन गया, और edit बार-बार दोहराने पर वही bias जमा होता गया
  • ऐसी यादों से images बनाना जो कभी अस्तित्व में थीं ही नहीं” जैसी product pitch अजीब लगती है

    • मुझे भी ऐसा ही लगता है, लेकिन market research देखें तो image generation बहुत लोकप्रिय है
      मैं इसे मुख्यतः programming, wiki, math जैसे text-centric tasks के लिए ही इस्तेमाल करता हूँ
      यह घटना कुछ हद तक उस समय जैसी है जब Snapchat filters का चलन था। मैं तब भी इसे basic mode पर ही छोड़ता था
    • अगर उसी prompt से origami animals बनाए जाएँ, तो शायद वह और भी ज़्यादा डरावना लगे
    • कभी ऐसा दौर आ सकता है जब अभिनेता अपनी ही छवि बेचकर fake photos बनवाएँ
      आखिर में शायद सब लोग virtual life subscribe करेंगे, और कार्ड पेमेंट फेल होते ही फिर वास्तविकता में लौट आएँगे
  • नए मॉडल के API पर काम करने की बात सुनकर Golang SDK grail अपडेट किया गया,
    लेकिन call करने पर 500 server error आ रही है। model list में भी gpt-image-1.5 नहीं है
    code example देखें

    • वास्तव में यह अभी API पर उपलब्ध नहीं है। OpenAI के लिंक किए गए Image Playground में भी यह नहीं दिखता
      मेरे local playground (gpt-image-1-playground) में 404 को handle करने के लिए बदलाव किया गया है
      • मैंने भी कोशिश की, और वही 500 error आई।
        अगर model name ग़लत दिया जाए, तो संदेश आता है कि ‘supported values सिर्फ gpt-image-1 और gpt-image-1-mini हैं’
      • लगता है यह gradual rollout में है, और backend पर भी अभी इसकी पुष्टि नहीं होती
  • अब भी Midjourney का इस्तेमाल किया जा रहा है। दूसरे बड़े मॉडल stylistic creativity में कमज़ोर हैं और सिर्फ photorealism पर केंद्रित हैं

    • Midjourney के हालिया updates की पूरी जानकारी नहीं, लेकिन style consistency और character retention फीचर्स बहुत महत्वपूर्ण हैं
      अगर एक single image नहीं बल्कि context-rich sequence बनानी हो, तो ऐसे फीचर्स ज़रूरी हैं
    • इसे ‘opinionated model vs user-choice model’ के अंतर के रूप में देखा जा सकता है। पहला अगर अच्छे से काम करे, तो उसमें अपनी ताकत होती है
    • कुछ लोगों ने इसे चौंकाने वाला कहा, और कुछ ने पूछा कि क्या इससे जुड़ी images की कोई gallery है
    • यह रुझान image generation से पहले से मौजूद cultural issue है।
      कला का मूल्य सिर्फ ‘rendering skill’ से आँकने की प्रवृत्ति रही है, और यह सामाजिक संदर्भ में cultural creation के अर्थ को नज़रअंदाज़ करने वाला रवैया है