3 पॉइंट द्वारा GN⁺ 2025-08-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT‑5 में रीयल‑टाइम रूटर बातचीत के संदर्भ के हिसाब से मॉडल बदलने वाली एक एकीकृत प्रणाली की तरह काम करता है, और API में Regular·Mini·Nano के 3 विकल्पों के साथ Minimal·Low·Medium·High के 4 चरणों वाले reasoning स्तर दिए गए हैं।
  • यह इनपुट के लिए 272,000 टोकन और आउटपुट के लिए 128,000 टोकन की सीमा का समर्थन करता है; इनपुट में टेक्स्ट·इमेज और आउटपुट केवल टेक्स्ट उपलब्ध है।
  • कीमत को आक्रामक तरीके से सेट किया गया है; GPT‑4o की तुलना में इनपुट की लागत आधी है, और पिछले कुछ मिनटों में दोबारा भेजे जाने वाले इनपुट पर 90% टोकन कैशिंग डिस्काउंट लागू होता है।
  • सिस्टम कार्ड में हैलुसिनेशन में कमी, निर्देश पालन में सुधार और चापलूसी न्यूनतम करने पर फोकस किया गया है, जबकि Safe‑Completions प्रशिक्षण मॉडल को बाइनरी रिजेक्शन के बजाय सुरक्षित उत्तर सीमा में रहने के लिए प्रेरित करता है।
  • सुरक्षा की दृष्टि से प्रॉम्प्ट इंजेक्शन प्रतिरोध बेहतर हुआ है, लेकिन k=10 प्रयासों पर 56.8% सफल होने का आँकड़ा अभी भी अनसुलझे क्षेत्र की ओर इशारा करता है; API में reasoning summary और reasoning_effort=minimal विकल्प से reasoning टोकन का प्रवाह नियंत्रित किया जा सकता है।

GPT‑5: मुख्य विशेषताएँ, कीमत और सिस्टम कार्ड का विश्लेषण

  • लेखक Simon Willison ने 2 सप्ताह के प्रीव्यू एक्सेस के साथ GPT‑5 का रोज़मर्रा उपयोग करके देखा कि इसमें कोई नाटकीय छलांग नहीं है, पर यह समग्र रूप से बहुत सक्षम है, गल्तियाँ कम करता है और एक भरोसेमंद डिफ़ॉल्ट मॉडल की तरह उपयोग करने में आसान लगता है।
  • यह लेख श्रृंखला का पहला भाग है और इसमें मुख्य विशेषताएँ, कीमत, तथा सिस्टम कार्ड से निकाले गए मुख्य निष्कर्ष व्यवस्थित रूप से दिए गए हैं।

मॉडल की मुख्य विशेषताएँ

  • ChatGPT सेटिंग में GPT‑5 ने तेज़ जनरल मॉडल और गहरे reasoning मॉडल को एकीकृत कर रखा है और बातचीत का प्रकार, कठिनाई, टूल की जरूरत और स्पष्ट intent signals के अनुसार रीयल‑टाइम रूटर सही मॉडल चुनने के लिए हाइब्रिड सेटअप की तरह काम करता है।

    रीयल‑टाइम रूटर बातचीत के प्रकार, जटिलता, टूल की आवश्यकता और ‘think hard’ जैसे intent संकेतों के आधार पर मॉडल चुनता है, और जब यूज़ेज़ सीमा खत्म होने लगे तो हर मॉडल का mini संस्करण प्रतिस्थापन के लिए सक्रिय होता है” — ऐसा सिस्टम कार्ड में उल्लेख है।

  • API में इसे सरल कर Regular·Mini·Nano के 3 विकल्प दिए गए हैं और प्रत्येक मॉडल Minimal·Low·Medium·High के 4 reasoning स्तर सपोर्ट करता है।
  • संदर्भ सीमा क्रमशः 272,000 इनपुट टोकन और 128,000 आउटपुट टोकन है; इनविज़िबल reasoning टोकन भी आउटपुट टोकन के रूप में गणना होते हैं।
  • इनपुट/आउटपुट कॉन्फ़िगरेशन में टेक्स्ट·इमेज इनपुट और केवल टेक्स्ट आउटपुट शामिल है, तथा नॉलेज कटऑफ हैं: GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
  • फुल GPT‑5 उपयोग में मुझे एक सटीक और संतुलित जवाब देने वाला व्यवहार महसूस हुआ, और किसी अन्य मॉडल पर दोबारा रन करने की जरूरत लगभग नहीं पड़ी

OpenAI मॉडल परिवार में GPT‑5 की स्थिति

  • सिस्टम कार्ड की mapping table के अनुसार पुराने lineup को GPT‑5 लाइन से replace करने की पोज़िशनिंग की गई है।
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro अभी ChatGPT के “GPT‑5 Pro” नाम से दिखता है और केवल मासिक $200 tier में उपलब्ध है, जहाँ parallel test‑time compute इस्तेमाल होता है।
  • ऑडियो इनपुट/आउटपुट और इमेज जनरेशन अभी भी GPT‑4o Audio/Realtime तथा GPT Image 1/DALL‑E के जिम्मे हैं; यानी फंक्शनल boundary बरकरार है।

Pricing is aggressively competitive

  • कीमतें सचमुच आक्रामक हैं।
    • GPT‑5: इनपुट $1.25/मिलियन, आउटपुट $10/मिलियन
    • GPT‑5 Mini: इनपुट $0.25/मिलियन, आउटपुट $2.00/मिलियन
    • GPT‑5 Nano: इनपुट $0.05/मिलियन, आउटपुट $0.40/मिलियन
  • GPT‑4o की तुलना में इनपुट की unit price लगभग आधी और आउटपुट कीमत समान है।
  • reasoning टोकन को आउटपुट टोकन की तरह bill किया जाता है, इसलिए समान prompt पर भी चुने गए reasoning स्तर के अनुसार कुल खर्च बदल सकता है।
  • 90% टोकन-कैशिंग छूट उपलब्ध है, इसलिए जिन chat UI में conversation context बार-बार resend होता है वहाँ खर्च में बड़ा लाभ दिखता है।
  • प्रतिस्पर्धी तुलना तालिका में Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro के इनपुट $2.5~$15/मिलियन और आउटपुट $10~$75/मिलियन के दाम दिखाए गए हैं, जिससे GPT‑5 लाइन की कीमत में बढ़त स्पष्ट है।
  • कीमत तुलना तालिका को सीधे GPT‑5 पर sort करने देने पर कुछ entries गलत क्रम में चली गईं, और जब Python से टेबल बनाकर sort किया तो समस्या ठीक हो गई।

सिस्टम कार्ड से अतिरिक्त नोट्स

  • ट्रेनिंग डेटा composition में पब्लिक वेब, पार्टनर डेटा, और यूज़र/ह्यूमन ट्रैनर जनरेटेड डेटा शामिल है; साथ ही privacy-reduction filtering लागू किए जाने का सिद्धांत स्तर पर उल्लेख मिलता है।
  • प्रमुख सुधार फोकस में हैलुसिनेशन में गिरावट, इंस्ट्रक्शन फॉलो करने की क्षमता में सुधार और साइकोफैंसी/चापलूसी में कमी रखा गया है; ChatGPT के तीन मुख्य use-cases के रूप में writing·coding·health को नाम लेकर इन क्षेत्रों में performance boost की गई है।
  • Safe‑Completions एक आउटपुट-सेंट्रिक सेफ्टी ट्रेनिंग है जो बाइनरी rejection की जगह आउटपुट सेफ्टी पर फोकस करती है, और biosecurity/defense जैसी दोहरे उपयोग की पूछताछ में उद्देश्य स्पष्ट न होने पर भी जोखिम घटाते हुए usefulness को preserve करने की कोशिश करती है।
  • Sycophancy के लिए, production conversational distribution और reward signals के आधार पर post-training करके चापलूसी-प्रधान सहमति की प्रवृत्ति कम की गई है।
  • तथ्यनिष्ठता के लिए, browsing डिफ़ॉल्टतः enabled है और tool बिना केवल internal knowledge से जवाब देने पर hallucinatory responses कम करने के लिए ट्रेनिंग की गई।
  • मिसलिडिंग/हेराफेरी रोकने हेतु reward design में यह शामिल किया गया कि संभव न होने पर मॉडल ईमानदारी से ‘cannot’ स्वीकार करे; साथ ही browser आदि tools को जानबूझकर disable कर hallucinated responses को दबाने के लिए simulation eval भी की गई।

सिस्टम कार्ड में Prompt Injection

  • दो बाहरी red team टीमों ने system-level weaknesses और connector paths पर फोकस करके prompt injection evaluation किया।
  • तुलना चार्ट में gpt‑5‑thinking की k=10 attack-success rate 56.8% दर्ज हुई, जो Claude 3.7 और अन्य कई मॉडलों के 60~90% से नीचे है, लेकिन अभी भी लगभग आधे से ज्यादा सफल प्रयास होने के कारण इसे पूरी तरह solved नहीं कहा जा सकता।
  • निष्कर्ष यही है कि मॉडल सुधार के बावजूद product design-level defenses और guardrails को फाउंडेशनल आवश्यकता मानना चाहिए।

API में Thinking traces

  • शुरुआत में यह समझा गया था कि reasoning traces दिखाई नहीं देते, लेकिन Responses API में reasoning: { "summary": "auto" } सेट करने पर reasoning summary मिलती है।
  • बिना इस विकल्प के, deep reasoning स्तर में visible output से पहले भी काफी reasoning tokens खर्च हो जाते हैं, जिससे latency महसूस हो सकती है; जबकि reasoning_effort=minimal सेट करने पर तेज़ streaming response के लिए प्रेरित किया जा सकता है।

कुछ पेलिकन SVGs

  • लेखक के नियमित SVG benchmark यानी “साइकिल चलाने वाला pelican” जनरेशन में GPT‑5 (डिफ़ॉल्ट Medium reasoning) का आउटपुट बाइक डिटेल और आकार की accuracy में बेहतर था, जिससे एक साफ़-सुथरी vector output मिली।
  • GPT‑5 Mini में रंग और ग्रेडिएशन बेहतर हैं, लेकिन कुछ जगह pelican का गला दो बार बनने जैसी स्ट्रक्चरल गलती दिखी।
  • GPT‑5 Nano ने साइकिल और pelican का सरल रूप दिया, यानी अधिकतर एक functional summary स्तर का आउटपुट।

व्यावहारिक बिंदु सारांश

  • मॉडल चयन: शुरुआत Regular से करें; पर्याप्त लगे तो Mini/Nano पर डाउनशिफ्ट करें, और जटिल केसों के लिए thinking लाइन व अधिक reasoning स्तर पर जाएँ।
  • कॉस्ट कंट्रोल: टोकन कैशिंग 90%, reasoning_effort=minimal, और छोटे सिस्टम prompts/सारांशित context के साथ आउटपुट टोकन + reasoning tokens घटाने की रणनीति प्रभावी है।
  • सुरक्षा डिज़ाइन: Prompt injection अभी भी risk है, इसलिए connector privilege reduction, output validation, और safe output templates जैसी सिस्टम-स्तरीय protections साथ में चलानी चाहिए।
  • डोमेन अनुप्रयोग: writing·coding·health में hallucination और sycophancy में कमी की रिपोर्ट के आधार पर, documentation writing·code review·healthcare QA जैसे high-risk narrative workflows में ब्राउज़िंग + स्रोत-समर्थन (evidence) को डिफ़ॉल्ट फ़्लो के रूप में रखना बेहतर रहेगा।

1 टिप्पणियां

 
GN⁺ 2025-08-08
Hacker News टिप्पणी
  • मुझे लगता है कि यह वाकई शानदार है और ज्यादा भरोसेमंद भी दिख रहा है, लेकिन पिछले दो वर्षों से लोग जिस GPT-5 की उम्मीद कर रहे थे, उसकी तुलना में यह दुनिया बदल देने वाला बदलाव नहीं, बल्कि क्रमिक और स्थिर सुधार ही है—यह थोड़ा निराशाजनक है। लगता है कि सिर्फ स्केल बढ़ाने वाला एप्रोच किसी सीमा पर अटक गया है। अगर सिर्फ कंप्यूटिंग संसाधन बढ़ाकर ही सुधार संभव होता, तो OpenAI शायद पहले से मौजूद यूज़र-रूटिंग सिस्टम को थोड़ा-थोड़ा fine-tune करके औसत इंटरैक्शन सुधारने में इतना वक्त नहीं लगाता। मैं खुद भी डेटा और कंप्यूट बढ़ाने भर से AGI आ जाएगा, इस दावे पर पहले से ही सशंकित था। कुल मिलाकर उद्योग में बढ़ती बंदिशें और घोषणाओं में असली जानकारी की बजाय मार्केटिंग भाषा ज्यादा दिखने से बड़ी समस्या यह है कि किसी को भी ठीक-ठीक पता नहीं कि मॉडल की वर्तमान स्थिति क्या है। बड़े निवेशों में शायद यह अनिवार्य हो सकता है। यह संभावना भी पूरी तरह नकार नहीं सकता कि अगली बार कोई बड़ा मॉडल सच में सामने आ जाए।

    • असली बदलाव शायद टूल उपयोग और मल्टीमोडल क्षमता में धीरे-धीरे हो रहा है। सामान्य बुद्धिमत्ता में बदलाव क्रमिक है, लेकिन टूल के multi-step उपयोग और वास्तविक दुनिया से इंटरेक्शन पिछले एक साल में नाटकीय रूप से बेहतर हुए हैं। मुझे लगता है इसी दिशा का फीडबैक आखिर बेहतर intelligence में बदल जाएगा।

    • स्केल बढ़ाना ही समाधान नहीं—यह भावना मजबूत हो रही है; देखना है कि क्या निवेशक अब उन लोगों को फंड करना शुरू करेंगे जिन्होंने सबूत के साथ यह लाइन पहले से कही है। सिर्फ एक ही दिशा (LLM से AGI) पर अटक क्यों रहे हैं, समझ नहीं आता। जब बड़ा प्लेयर-डॉमिनेटेड मार्केट पहले से भर चुका है, तो किसी और LLM startup में निवेश की जरूरत नहीं लगती। मान लें कि LLM कभी AGI तक पहुँच भी जाए, फिर भी तेज़ और सस्ता रास्ता किसी न किसी दिन आ ही सकता है। बिना बैकअप प्लान के आगे बढ़ना भी रिस्की है। मुझे लगता है टेक्नोलॉजी S-curve (growth curve) AI पर भी लागू होती है। गणित/साइंस बैकग्राउंड वाले मेरे जैसे दोस्तों के साथ भी, सिर्फ स्केल-अप ही उत्तर है—इस दावे पर मैं सशंकित हूँ।

    • अब यह लगभग साबित हो गया है कि GPU तरह-तरह की जानकारी सीखकर अलग-अलग tasks में काम आ सकता है। लेकिन वास्तविक उपयोग के लिए हर समस्या पर इसे कैसे apply करना है, इसमें अतिरिक्त मेहनत करनी ही पड़ेगी। अगर GPT से पूछकर “1 साल में सिर्फ $1,000 से तय तौर पर $1 billion वैल्यू का startup बना दो” जैसा जवाब सीधे मिल जाता, तो कोई न कोई पहले ही कर चुका होता। अभी के लिए इंसानों को ही पसीना बहाना पड़ेगा। फिलहाल बार-बार होने वाली गलतियों को कम करने वाली ट्रेनिंग ही व्यावहारिक तौर पर meaningful लगती है।

    • मेरा अंदाज़ा है कि performance हर 4–7 महीने में लगभग दोगुना हो रही है, और यह trend अभी भी जारी है। यह रफ्तार ही पहले से अविश्वसनीय लगती है; इससे आगे की अपेक्षा करना शायद ओवरहाइप में फंसना है। साल में 2–3 बार प्रदर्शन दो गुना होने की स्थिति को मैं कहीं भी स्थिरता नहीं मानता। संबंधित लिंक

    • सच में, performance perspective से यह incremental upgrade है, लेकिन product simplification के नजरिये से यह “leap” वाला रास्ता GPT-5 के लिए करीब छह महीने पहले से ही चर्चा में था। अब लगता है आगे AI progress छोटे-छोटे, सूक्ष्म सुधारों की लड़ाई होगी।

  • OpenAI का यह दावा कि hallucination “काफ़ी घट गया है” मुझे confusing लगता है। मेरे अनुभव में Claude 4 (Sonnet, Opus) में भी बहुत छोटे या कठिन सवालों पर लगभग रोज़ hallucination होता है—क्योंकि आसान हिस्सों में भी ऐसा दिखता है।

    • डेमो में भी कई बार hallucination आया (Claude और GPT में paid हो या free, दोनों में बार-बार)। अगर कहीं नहीं दिखता तो या तो झूठ है या अक्षम्यता। LLM का बेसिक issue यह है कि ये human preference सीखते-सीखते stealthy errors पर optimize होने लगते हैं। मैं अभी भी विफलता दर कम होने के बावजूद stealth failures वाले tool उपयोग में बहुत सावधान रहता हूँ। ऐसे मॉडल काम की speed धीमी कर देते हैं और debugging कठिन हो जाती है। जैसे Python कोड में indentation error जैसे छिपे हुए bugs दिखे बिना मौजूद रहते हैं। ऐसा स्रोत स्तर का error एरर मेसेज से तुरंत पकड़ा जा सकता है, जबकि LLM का stealth error ऐसे नहीं पता चलता। आख़िरकार यह “LGTM (Looks Good To Me)” वाली संस्कृति को बढ़ावा देता है।

    • बस “तुम गलत हो” कहना ही काफी होता है कि Claude या ChatGPT तुरंत खुद को बदलने के बजाय hallucination repeat करते रहते हैं; सही या गलत से परे, ये confident होकर अपना पक्ष रखने में कमजोर हैं।

    • Simon ने LLM को लंबे समय से use किया है, इसलिए मुझे लगता है प्रश्न frame करते वक्त hallucination कम निकले—इसका intuition उन्हें आ गया है।

    • input पर depend करता है। मैंने जो Claude 4 use किया उसमें hallucination सच में बहुत बार आया, खासकर JSON generate करते वक्त syntax errors वाले परिणामों को बहुत confidence के साथ देता था।

  • “तुम GPT5 हो?” “नहीं, मैं 4o हूँ, 5 अभी नहीं आया।” “आज आया है।” “ओह हाँ, मैं GPT5 हूँ।” <i>4o का free-use quota खत्म हो गया</i> जैसी उलझन हमने देखी—जहाँ वास्तविकता और मॉडल जानकारी मिल-मिलाकर आ जाती है।

  • OpenAI की आक्रामक pricing policy कुछ हद तक आश्चर्यजनक लगती है। अगर सच में कोई competitor नहीं होता तो शायद इस तरह के number की जरूरत ही नहीं पड़ती। इसका मतलब है कि competition काफ़ी तेज़ हुआ है।

    • app market में यह अभी भी बेहतरीन स्थिति में है, लेकिन API side पर anthropic के आगे पीछे-पीछे है। संबंधित लेख

    • शायद हाल में PRO ग्राहकों (मेरे साथ) के churn होने का असर है। PRO मॉडल का मूल्य PLUS की तुलना में 10x बेहतर नहीं था। z.ai जैसे नए competitors आने से differentiation मुश्किल हो रही है।

    • यह बदलाव लगभग 5% सुधार जैसा लगता है। Gemini 2.5 Pro से pricing battle में पीछे न रहना हो तो शायद यही विकल्प था। Cursor ने default बदलना भी शायद इसी का असर है।

    • Nano मॉडल $0.05 का बदलाव काफी interesting बदलाव है। शायद इसी वजह से Google भी जो price अभी धीरे-धीरे ऊपर ले जा रहा था, उसे थोड़े समय के लिए नीचे लाने पर मजबूर हो सकता है।

    • सिर्फ अधिक data की जरूरत की वजह से भी ये policy आई हो सकती है।

  • API में GPT-5 को regular, mini और nano में बाँटकर प्रत्येक के लिए 4 reasoning levels (minimal, low, medium, high) चुनने की सुविधा देने पर, पहले GPT 4.1 में सिर्फ तीन विकल्प (regular, mini, nano) थे—उनकी तुलना में शायद complexity बढ़ गई। क्योंकि mini अकेला हो तो भी minimal से high तक चार चरण हैं, यानी कुल 8 विकल्प; और हर बार सोचना पड़ता है कि बेहतर prompt tuning करें या version बदलें या reasoning level।

    • असल में reasoning level के हिसाब से पहले से ही o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low जैसी कई विकल्प मौजूद थे। इसलिए GPT-5 का तरीका शायद ज्यादा सरल दिखता है।

    • प्रत्येक मॉडल को n=1,2,3 और reasoning स्तर m=0,1,2,3 के साथ देखें तो यह काफी structural लगता है। किस कॉम्बिनेशन से स्तर ऊपर जाता है, यह intuitive समझ आता है।

    • “और सरल” की मेरी समझ यह है कि पहले chat services या API के chat-optimized मॉडल में heuristics (यांत्रिक अनुमान) से reasoning level और model बदलने वाला harness था। API में अब user सीधे model type और reasoning effort चुन सकता है, यानी एक clear mental model बनता है। विकल्प ज्यादा हैं पर चुनने का तरीका स्पष्ट हो गया है।

    • आखिरकार, OpenAI का टोकन-आधारित pricing model होने की वजह से कई versions आज़माने ही पड़ते हैं।

  • reasoning models (GPT-5 सहित) में parameters (temperature, top-p) सीधे adjust करने का विकल्प क्यों हटाया गया, यह सवाल है। छोटे tasks में consistency महत्वपूर्ण होती है, और यह हटने पर handle करना कठिन हो जाता है; API में इसे fine-grained control करना user के लिए बहुत important लगता है।

    • शायद इसलिए कि सभी sampler settings का safety और alignment पर नकारात्मक प्रभाव पड़ता है। इसलिए top_p/top_k ही allowed हैं और tfs, min_p, top_n sigma आदि हटाए गए। temperature को 0-2 range में सीमित करने का कारण भी यही है। ओपन-सोर्स शायद sampler सेटिंग्स में इससे आगे है। इस माहौल में भी मॉडल की performance निकालना दिखाता है कि OpenAI की तकनीकी क्षमता कितनी मजबूत है।
  • अरबों डॉलर वैल्यू वाली कंपनी होने के बावजूद, hiring, business, education जैसे कई वास्तविक उपयोग मामलों के बावजूद, केवल BBQ जैसी synthetic benchmark से मॉडल की fairness को आँकना दुखद लगता है।

  • pelican का bicycle चलाता हुआ SVG अभी भी AI के लिए कठिन समस्या है—जो मजेदार भी है और रुचिकर भी।

    • पूछना चाहता हूँ कि क्या कोई सीधे text editor में pelican को bicycle पर दिखाते हुए SVG बना सकता है। सच में इंसानों के लिए भी उतना आसान नहीं।
  • पहले से अलग, यह अब बेहतर तरीके से tools का उपयोग करके context इकट्ठा करने के लिए trained दिखता है। वास्तव में 4.1 और o3 की तुलना में पहले ही turn में इसने 6 categories से तुरंत परिणाम ला दिए—एकदम smooth तरीके से। Tools call बढ़ने पर token खर्च ज्यादा होगा, पर इस आक्रामक pricing policy की वजह से शायद कोई बड़ी दिक्कत नहीं बनेगी। अगर prompt engineering सही हो तो tool-call frequency भी घटाई जा सकती है। संबंधित उदाहरण

  • Simon की concise और thorough review की वजह से वास्तविक परिणाम समझने में सच में बहुत मदद मिली।

  • “Claude और o3 में भी इस साल hallucination काफी कम हो गया लगता है” वाली राय पर, लेखक ने पोस्ट के उसी हिस्से में अपनी मंशा साफ़ करके explain अपडेट किया।