• GPT‑5 में रीयल‑टाइम रूटर बातचीत के संदर्भ के हिसाब से मॉडल बदलने वाली एक एकीकृत प्रणाली की तरह काम करता है, और API में Regular·Mini·Nano के 3 विकल्पों के साथ Minimal·Low·Medium·High के 4 चरणों वाले reasoning स्तर दिए गए हैं।
  • यह इनपुट के लिए 272,000 टोकन और आउटपुट के लिए 128,000 टोकन की सीमा का समर्थन करता है; इनपुट में टेक्स्ट·इमेज और आउटपुट केवल टेक्स्ट उपलब्ध है।
  • कीमत को आक्रामक तरीके से सेट किया गया है; GPT‑4o की तुलना में इनपुट की लागत आधी है, और पिछले कुछ मिनटों में दोबारा भेजे जाने वाले इनपुट पर 90% टोकन कैशिंग डिस्काउंट लागू होता है।
  • सिस्टम कार्ड में हैलुसिनेशन में कमी, निर्देश पालन में सुधार और चापलूसी न्यूनतम करने पर फोकस किया गया है, जबकि Safe‑Completions प्रशिक्षण मॉडल को बाइनरी रिजेक्शन के बजाय सुरक्षित उत्तर सीमा में रहने के लिए प्रेरित करता है।
  • सुरक्षा की दृष्टि से प्रॉम्प्ट इंजेक्शन प्रतिरोध बेहतर हुआ है, लेकिन k=10 प्रयासों पर 56.8% सफल होने का आँकड़ा अभी भी अनसुलझे क्षेत्र की ओर इशारा करता है; API में reasoning summary और reasoning_effort=minimal विकल्प से reasoning टोकन का प्रवाह नियंत्रित किया जा सकता है।

GPT‑5: मुख्य विशेषताएँ, कीमत और सिस्टम कार्ड का विश्लेषण

  • लेखक Simon Willison ने 2 सप्ताह के प्रीव्यू एक्सेस के साथ GPT‑5 का रोज़मर्रा उपयोग करके देखा कि इसमें कोई नाटकीय छलांग नहीं है, पर यह समग्र रूप से बहुत सक्षम है, गल्तियाँ कम करता है और एक भरोसेमंद डिफ़ॉल्ट मॉडल की तरह उपयोग करने में आसान लगता है।
  • यह लेख श्रृंखला का पहला भाग है और इसमें मुख्य विशेषताएँ, कीमत, तथा सिस्टम कार्ड से निकाले गए मुख्य निष्कर्ष व्यवस्थित रूप से दिए गए हैं।

मॉडल की मुख्य विशेषताएँ

  • ChatGPT सेटिंग में GPT‑5 ने तेज़ जनरल मॉडल और गहरे reasoning मॉडल को एकीकृत कर रखा है और बातचीत का प्रकार, कठिनाई, टूल की जरूरत और स्पष्ट intent signals के अनुसार रीयल‑टाइम रूटर सही मॉडल चुनने के लिए हाइब्रिड सेटअप की तरह काम करता है।

    रीयल‑टाइम रूटर बातचीत के प्रकार, जटिलता, टूल की आवश्यकता और ‘think hard’ जैसे intent संकेतों के आधार पर मॉडल चुनता है, और जब यूज़ेज़ सीमा खत्म होने लगे तो हर मॉडल का mini संस्करण प्रतिस्थापन के लिए सक्रिय होता है” — ऐसा सिस्टम कार्ड में उल्लेख है।

  • API में इसे सरल कर Regular·Mini·Nano के 3 विकल्प दिए गए हैं और प्रत्येक मॉडल Minimal·Low·Medium·High के 4 reasoning स्तर सपोर्ट करता है।
  • संदर्भ सीमा क्रमशः 272,000 इनपुट टोकन और 128,000 आउटपुट टोकन है; इनविज़िबल reasoning टोकन भी आउटपुट टोकन के रूप में गणना होते हैं।
  • इनपुट/आउटपुट कॉन्फ़िगरेशन में टेक्स्ट·इमेज इनपुट और केवल टेक्स्ट आउटपुट शामिल है, तथा नॉलेज कटऑफ हैं: GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
  • फुल GPT‑5 उपयोग में मुझे एक सटीक और संतुलित जवाब देने वाला व्यवहार महसूस हुआ, और किसी अन्य मॉडल पर दोबारा रन करने की जरूरत लगभग नहीं पड़ी

OpenAI मॉडल परिवार में GPT‑5 की स्थिति

  • सिस्टम कार्ड की mapping table के अनुसार पुराने lineup को GPT‑5 लाइन से replace करने की पोज़िशनिंग की गई है।
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro अभी ChatGPT के “GPT‑5 Pro” नाम से दिखता है और केवल मासिक $200 tier में उपलब्ध है, जहाँ parallel test‑time compute इस्तेमाल होता है।
  • ऑडियो इनपुट/आउटपुट और इमेज जनरेशन अभी भी GPT‑4o Audio/Realtime तथा GPT Image 1/DALL‑E के जिम्मे हैं; यानी फंक्शनल boundary बरकरार है।

Pricing is aggressively competitive

  • कीमतें सचमुच आक्रामक हैं।
    • GPT‑5: इनपुट $1.25/मिलियन, आउटपुट $10/मिलियन
    • GPT‑5 Mini: इनपुट $0.25/मिलियन, आउटपुट $2.00/मिलियन
    • GPT‑5 Nano: इनपुट $0.05/मिलियन, आउटपुट $0.40/मिलियन
  • GPT‑4o की तुलना में इनपुट की unit price लगभग आधी और आउटपुट कीमत समान है।
  • reasoning टोकन को आउटपुट टोकन की तरह bill किया जाता है, इसलिए समान prompt पर भी चुने गए reasoning स्तर के अनुसार कुल खर्च बदल सकता है।
  • 90% टोकन-कैशिंग छूट उपलब्ध है, इसलिए जिन chat UI में conversation context बार-बार resend होता है वहाँ खर्च में बड़ा लाभ दिखता है।
  • प्रतिस्पर्धी तुलना तालिका में Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro के इनपुट $2.5~$15/मिलियन और आउटपुट $10~$75/मिलियन के दाम दिखाए गए हैं, जिससे GPT‑5 लाइन की कीमत में बढ़त स्पष्ट है।
  • कीमत तुलना तालिका को सीधे GPT‑5 पर sort करने देने पर कुछ entries गलत क्रम में चली गईं, और जब Python से टेबल बनाकर sort किया तो समस्या ठीक हो गई।

सिस्टम कार्ड से अतिरिक्त नोट्स

  • ट्रेनिंग डेटा composition में पब्लिक वेब, पार्टनर डेटा, और यूज़र/ह्यूमन ट्रैनर जनरेटेड डेटा शामिल है; साथ ही privacy-reduction filtering लागू किए जाने का सिद्धांत स्तर पर उल्लेख मिलता है।
  • प्रमुख सुधार फोकस में हैलुसिनेशन में गिरावट, इंस्ट्रक्शन फॉलो करने की क्षमता में सुधार और साइकोफैंसी/चापलूसी में कमी रखा गया है; ChatGPT के तीन मुख्य use-cases के रूप में writing·coding·health को नाम लेकर इन क्षेत्रों में performance boost की गई है।
  • Safe‑Completions एक आउटपुट-सेंट्रिक सेफ्टी ट्रेनिंग है जो बाइनरी rejection की जगह आउटपुट सेफ्टी पर फोकस करती है, और biosecurity/defense जैसी दोहरे उपयोग की पूछताछ में उद्देश्य स्पष्ट न होने पर भी जोखिम घटाते हुए usefulness को preserve करने की कोशिश करती है।
  • Sycophancy के लिए, production conversational distribution और reward signals के आधार पर post-training करके चापलूसी-प्रधान सहमति की प्रवृत्ति कम की गई है।
  • तथ्यनिष्ठता के लिए, browsing डिफ़ॉल्टतः enabled है और tool बिना केवल internal knowledge से जवाब देने पर hallucinatory responses कम करने के लिए ट्रेनिंग की गई।
  • मिसलिडिंग/हेराफेरी रोकने हेतु reward design में यह शामिल किया गया कि संभव न होने पर मॉडल ईमानदारी से ‘cannot’ स्वीकार करे; साथ ही browser आदि tools को जानबूझकर disable कर hallucinated responses को दबाने के लिए simulation eval भी की गई।

सिस्टम कार्ड में Prompt Injection

  • दो बाहरी red team टीमों ने system-level weaknesses और connector paths पर फोकस करके prompt injection evaluation किया।
  • तुलना चार्ट में gpt‑5‑thinking की k=10 attack-success rate 56.8% दर्ज हुई, जो Claude 3.7 और अन्य कई मॉडलों के 60~90% से नीचे है, लेकिन अभी भी लगभग आधे से ज्यादा सफल प्रयास होने के कारण इसे पूरी तरह solved नहीं कहा जा सकता।
  • निष्कर्ष यही है कि मॉडल सुधार के बावजूद product design-level defenses और guardrails को फाउंडेशनल आवश्यकता मानना चाहिए।

API में Thinking traces

  • शुरुआत में यह समझा गया था कि reasoning traces दिखाई नहीं देते, लेकिन Responses API में reasoning: { "summary": "auto" } सेट करने पर reasoning summary मिलती है।
  • बिना इस विकल्प के, deep reasoning स्तर में visible output से पहले भी काफी reasoning tokens खर्च हो जाते हैं, जिससे latency महसूस हो सकती है; जबकि reasoning_effort=minimal सेट करने पर तेज़ streaming response के लिए प्रेरित किया जा सकता है।

कुछ पेलिकन SVGs

  • लेखक के नियमित SVG benchmark यानी “साइकिल चलाने वाला pelican” जनरेशन में GPT‑5 (डिफ़ॉल्ट Medium reasoning) का आउटपुट बाइक डिटेल और आकार की accuracy में बेहतर था, जिससे एक साफ़-सुथरी vector output मिली।
  • GPT‑5 Mini में रंग और ग्रेडिएशन बेहतर हैं, लेकिन कुछ जगह pelican का गला दो बार बनने जैसी स्ट्रक्चरल गलती दिखी।
  • GPT‑5 Nano ने साइकिल और pelican का सरल रूप दिया, यानी अधिकतर एक functional summary स्तर का आउटपुट।

व्यावहारिक बिंदु सारांश

  • मॉडल चयन: शुरुआत Regular से करें; पर्याप्त लगे तो Mini/Nano पर डाउनशिफ्ट करें, और जटिल केसों के लिए thinking लाइन व अधिक reasoning स्तर पर जाएँ।
  • कॉस्ट कंट्रोल: टोकन कैशिंग 90%, reasoning_effort=minimal, और छोटे सिस्टम prompts/सारांशित context के साथ आउटपुट टोकन + reasoning tokens घटाने की रणनीति प्रभावी है।
  • सुरक्षा डिज़ाइन: Prompt injection अभी भी risk है, इसलिए connector privilege reduction, output validation, और safe output templates जैसी सिस्टम-स्तरीय protections साथ में चलानी चाहिए।
  • डोमेन अनुप्रयोग: writing·coding·health में hallucination और sycophancy में कमी की रिपोर्ट के आधार पर, documentation writing·code review·healthcare QA जैसे high-risk narrative workflows में ब्राउज़िंग + स्रोत-समर्थन (evidence) को डिफ़ॉल्ट फ़्लो के रूप में रखना बेहतर रहेगा।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.