1 पॉइंट द्वारा GN⁺ 2025-08-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5 API का आधिकारिक लॉन्च किया गया है, जो डेवलपर्स को कोडिंग और एजेंट-आधारित कार्य में नए स्तर का प्रदर्शन देता है
  • SWE-bench Verified, Aider polyglot जैसे प्रमुख benchmarks में SOTA (सबसे बेहतर प्रदर्शन) हासिल किया और Cursor, Windsurf, Vercel जैसे कई ग्राहक उदाहरणों में श्रेष्ठता दिखायी
  • लंबा रन-टाइम वाले एजेंट कार्य, परिष्कृत टूल इंटीग्रेशन, और लंबी संदर्भ लंबाई वाले कामों में, वास्तविक और जटिल कामों के लिए इसकी मजबूत क्षमता दिखाई दी
  • verbosity, reasoning_effort जैसे सूक्ष्म पैरामीटर तथा custom tools सपोर्ट के साथ डेवलपर्स को अनुकूलित नियंत्रण मिलता है
  • gpt-5, gpt-5-mini, gpt-5-nano के साथ अलग-अलग लागत/प्रदर्शन विकल्प उपलब्ध हैं और यह Microsoft व विभिन्न डेवलपर टूल्स में इंटीग्रेट किया गया है

GPT-5 लॉन्च और महत्त्व

  • OpenAI ने GPT-5 को API प्लेटफ़ॉर्म पर सार्वजनिक किया और कहा कि अब तक जारी किए गए मॉडलों में यह कोडिंग और एजेंट कार्यों के लिए सबसे बेहतर प्रदर्शन वाला मॉडल है
  • प्रमुख कोडिंग benchmarks में SOTA (state-of-the-art) रिकॉर्ड किया गया, और इसे वास्तविक startup तथा enterprise testers के साथ मिलकर प्रशिक्षित किया गया
  • कोड जनरेशन, बग फिक्सिंग, कोड एडिटिंग, जटिल codebase queries जैसे वास्तविक डेवलपर कामों में यह उत्कृष्ट सहयोगी साबित हुआ
  • यह विस्तृत निर्देशों को बहुत सटीकता से फॉलो करता है और टूल कॉल के पहले व बाद में अपनी कार्रवाई व प्लान को बेहतर तरीके से समझा पाता है
  • फ्रंटएंड डेवलपमेंट performance भी बहुत मजबूत रही, और internal परीक्षणों में यह पहले के मॉडलों से 70% आगे रहा

प्रमुख ग्राहक और वास्तविक उपयोग के केस

  • Cursor, Windsurf, Vercel, Manus, Notion, Inditex ने GPT-5 की बुद्धिमत्ता, आसानी से नियंत्रण, टूल-एरर हैंडलिंग और कोड क्वालिटी की सराहना की
  • वास्तविक deployment स्थितियों में जटिल बैकग्राउंड tasks, लंबे समय तक चलने वाली एजेंट रोल, और परिष्कृत टूल इंटीग्रेशन के साथ यह पुराने मॉडलों की तुलना में बेहतर स्थिरता और efficiency देता है

बेंचमार्क और प्रदर्शन संकेतक

  • SWE-bench Verified (वास्तविक software issue patching): o3 की तुलना में 74.9% बेहतर performance और 22% कम tokens व 45% कम tool calls के साथ बेहतर efficiency
  • Aider polyglot (कोड एडिटिंग benchmark): 88% स्कोर, जिससे o3 की तुलना में गलत जवाब की दर लगभग 1/3 रह गई
  • जटिल codebase विश्लेषण में, बड़े LLM को अनुरोध करने वाले प्रश्न के अनुसार बेहतर ढंग से ऑप्टिमाइज़ करके डेवलपर्स/शोधकर्ताओं के लिए उपयोग आसान बनता है
  • फ्रंटएंड code generation में टेस्टिंग के दौरान सौंदर्य और सटीकता दोनों में 70% का edge

एजेंट-आधारित कार्य और लंबे संदर्भ (long context) परिणाम

  • τ2-bench telecom (tool-calling benchmark) में 96.7% के साथ latest SOTA सेट किया
  • दसियों tool calls को क्रमिक या parallel तरीके से चलाने की उच्च task completion क्षमता
  • COLLIE, Scale MultiChallenge जैसे निर्देश पालन मूल्यांकन में शीर्ष स्कोर
  • OpenAI-MRCR, BrowseComp Long Context जैसे लंबे संदर्भ Q&A परीक्षणों में o3 और GPT-4.1 से बेहतर प्रदर्शन
  • 400,000 tokens तक context लंबाई का समर्थन, बड़े documents/long conversations analyze करने के लिए उपयुक्त

विश्वसनीयता और सुरक्षा

  • LongFact, FactScore में o3 के मुकाबले fact errors में 80% से ज्यादा कमी
  • मॉडल अपनी सीमाओं को पहचानकर सूचित करता है और विशेषकर हेल्थ से जुड़े प्रश्नों में accuracy बेहतर की गयी है
  • वास्तविक उपयोग के दौरान भी महत्वपूर्ण क्षेत्रों में डेवलपर्स द्वारा manual verification की सलाह दी जाती है

डेवलपर नियंत्रण और API की नई सुविधाएँ

  • reasoning_effort : minimal/low/medium/high मानों के साथ जवाब की गति और reasoning quality का balance सेट किया जा सकता है
    • minimal: तेज़ जवाब, high: उच्च गुणवत्ता वाला logical reasoning
  • verbosity : low/medium/high से आउटपुट लंबाई नियंत्रित
    • स्पष्ट निर्देश होने पर पैरामीटर से ज्यादा explicit निर्देश प्राथमिकता लेते हैं
  • custom tools: अब केवल JSON नहीं, बल्कि plaintext फॉरमेट भी support होता है; regex या Context-Free Grammar से tool input format को restrict किया जा सकता है
  • बड़े code snippets/रिपोर्ट्स में JSON escape errors की चिंता कम, जिससे developer tool integration आसान हुआ

विभिन्न API मॉडल और प्राइसिंग पॉलिसी

  • gpt-5: $1.25 प्रति million input token, $10 प्रति million output token
  • gpt-5-mini: $0.25 प्रति million input, $2 प्रति million output
  • gpt-5-nano: $0.05 प्रति million input, $0.40 प्रति million output
  • सभी मॉडल reasoning_effort, verbosity, custom tools, parallel tool calls, web/file/image inbuilt tools और streaming जैसी प्रमुख सुविधाओं का समर्थन करते हैं
  • gpt-5-chat-latest ChatGPT के लिए non-reasoning model के रूप में same pricing पर उपलब्ध है

इंटीग्रेशन और स्केलेबिलिटी

  • Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry जैसे कई Microsoft प्लेटफ़ॉर्म पर इंटीग्रेशन जारी
  • Cursor, Windsurf, GitHub Copilot, Codex CLI जैसी developer-agent systems में core engine के रूप में लागू
  • alpha tester internal evaluation और अलग-अलग code/workflow automation products में पुराने मॉडलों की तुलना में नया benchmark सेट

सुरक्षा, विश्वसनीयता और अतिरिक्त सामग्री

  • हैलुसिनेशन/गलत आउटपुट की संभावना काफी कम हुई है और मॉडल अब workflow और सीमाओं पर अधिक ईमानदारी से बताने लगा है
  • system card और internal research blogs में implementation, evaluation details और सुरक्षा उपायों को पारदर्शी रूप में साझा किया गया है
  • यह उच्च स्तर का स्वचालित कोडिंग पार्टनर है और जटिल एजेंटिव वर्कफ्लो ऑटोमेशन में विशेष रूप से उपयोगी है

निष्कर्ष

  • GPT-5 अभी तक के उपलब्ध सबसे शक्तिशाली coding और agentic work-optimized मॉडल में से एक है, और वास्तविक development environment तथा workflow automation के लिए एक evolved partner है
  • बेहतर API और टूल सिस्टम, अलग-अलग मॉडल capacity और pricing विकल्प, तथा मजबूत benchmark परिणामों के साथ यह डेवलपर्स और organizations के लिए नई productivity era की शुरुआत करता है

1 टिप्पणियां

 
GN⁺ 2025-08-08
Hacker News टिप्पणी
  • Opus और GPT-5 में सॉफ़्टवेयर डेवलपमेंट विशेषज्ञता में मुझे कोई बड़ा वास्तविक अंतर महसूस नहीं हुआ, लेकिन मेरे लिए वास्तविक रूप से अहम बात यह है कि लंबे समय तक संदर्भ कितना अच्छी तरह बनाए रखा जाता है और दिया गया उद्देश्य कैसे हासिल किया जाता है। रियल‑वर्ल्ड सॉफ़्टवेयर इंजीनियरिंग में मुझे लगता है कि यह सबसे महत्वपूर्ण हिस्सा है। इसे सटीक तरीके से मापकर सत्यापित करने वाला कोई evaluation metric क्या है, यह मैं जानना चाहता हूँ।
    • Charlie Labs के साथ पिछले कुछ हफ्तों में GPT-5 पर लंबी अवधि के संदर्भ-निरंतरता प्रयोगों में काफी अच्छे परिणाम मिले। वास्तव में मैंने GitHub issues के 10 केस हल कराए और Claude Code से तुलना की तो performance अंतर काफी बड़ा था। संबंधित प्रयोग का विवरण यहाँ देखा जा सकता है। आमतौर पर 30–45 मिनट के जटिल संदर्भ में दिशा बदलने पर भी यह ठीक से follow करता है और Linear या GitHub के बड़े-बड़े थ्रेड भी अच्छे से handle करता है। अभी issue की संख्या कम है, लेकिन प्रभावशाली लगा; आगे और scale करके performance measure करने की योजना है।
    • मेरे काम में रोज़ाना कई जटिल और बार-बार बदलते लक्ष्य बनते हैं, इसलिए ऐसा context retention बेहद जरूरी होता है। GitHub Copilot का सच में अभी भी पहले के coding-assist tools की तुलना में underdog बना रहना खलता है; Anthropic, OpenAI, Google आदि अलग-अलग मॉडल्स की तुलना में इसे उतना major attention नहीं मिल रहा। मैंने spaces नाम की वेब-आधारित फीचर को भी आज़माया, जो IDE से बड़े काम में बेहतर लगी। downside यह रहा कि context इकट्ठा करने और परिणाम review में मुझसे ज्यादा समय लगा; ऐसा लगता है कि context को जमा करने/बनाने में यह मज़बूत रहेगी।
    • इस समय frontier LLMs अगर पर्याप्त संदर्भ दे दें तो अधिकांश समस्याएँ हल हो जाती हैं। फेल होने पर अक्सर हम यही देख रहे होते हैं कि किस संदर्भ की कमी रह गई थी। इसलिए मुझे सबसे ज्यादा ज़रूरत है ज्यादा फोकस्ड context collection की। मेरे इस्तेमाल के केस सामान्यतः code files, issues, PRs, discussions से सच में संबंधित सामग्री चुनने पर निर्भर करते हैं। इस मामले में GPT-5 से एक step आगे बढ़ने की अपेक्षा है; अगर OPUS की तुलना में सस्ता होकर समान या बेहतर परिणाम दे तो उत्साह और बढ़ेगा।
    • GPT-5 की pricing policy Opus से काफ़ी बेहतर हो गई है, अब तो लगभग Gemini 2.5 Pro के level तक आ गई है।
    • अगर GPT-5 सच में 400k context पर काम करे तो Opus को meaningful तरीके से पीछे छोड़ सकता है, ऐसा लगता है।
  • gpt-5-mini से मैं RAG scenario टेस्ट कर रहा हूँ और अब तक काफी impressive रहा। reasoning_effort="minimal" विकल्प के साथ इस्तेमाल करने पर पहले वाले मॉडल जहां लगभग सब जगह hallucinate करते थे, वहाँ अकेले कोई false output नहीं बना। संबंधित screenshot मैंने यहाँ पोस्ट किए हैं, आगे formal evaluation भी होने वाली है।
    • “प्रोडक्ट मैनेजर क्या करता है?” जैसे सवाल पर GPT-4 ने department collaboration जैसी अतिरिक्त बातें दीं, जबकि GPT-5 ने “मुझे नहीं पता” कहा। उसी लाइन में लगा कि AI ने सच में आँखें खोली हैं।
    • phi-4 और gemma-3n ने भी RAG scenario में सिर्फ दी गई context का उपयोग किया और संदर्भ के बाहर का जवाब जबरन नहीं बनाया; इससे hallucination control बेहतर हुआ है।
    • मेरे हिसाब से सबसे बड़ा बदलाव शायद इसी जगह है। मैं ऐसे workflow में काम करता हूँ जहाँ बहुत सारे tool calls होते हैं; मॉडल का fake tools बना-बनाकर hallucinate करना बड़ा issue था। कभी-कभी तो बिना कारण सीधे जवाब दे देता था, बिना tool call के। हाल की training-reward tuning में hallucination और tool-skip suppression पर meaningful सुधार दिख रहा है।
  • पिछले लगभग 70 घंटे मैं लगभग एक हफ्ते तक Cursor, Claude Code आदि कई tools पर प्रयोग कर चुका हूँ। असर काफी अच्छा और trustworthy लगा, लेकिन वास्तविक काम में लगातार ठीक चलने वाला अभी भी Claude लाइन के मॉडल ही हैं। benchmark से अलग, वास्तविक उपयोग में यही ज्यादा महत्वपूर्ण लगता है; नए gpt मॉडल से इस case में बेहतर चलने की उम्मीद है, क्योंकि competition बढ़ रही है और price भी अच्छा है।
    • Cursor (1.4) के नए tool updates के कारण Gemini जैसे मॉडल में भी tool use पहले से काफी भरोसेमंद हो गया है। पहले file edit जैसी basic चीज़ें भी अक्सर गलत हो जाती थीं, अब लगभग हर बार ठीक काम कर रहा है।
    • यह इस्तेमाल होने वाले stack पर भी निर्भर करता है। हाल ही में मैंने t3.gg का Convex intro वीडियो देखा—वीडियो, Convex की structure शुरुआती प्रयास में चीज़ों को सही निकलने देती है। खुद इस्तेमाल करके भी मैं सहमत हुआ। आगे development workflow शायद बदलकर ऐसा होगा कि सीधे code में jump करने की बजाय पहले PM tools (शायद अभी Linear ही trend में है) में कई tickets बनें, AI उन्हें पहले से filter करे कि कौन से parallel चल सकते हैं, फिर IDE या Warp पर कई tickets को साथ में execute किया जाए। मैं अभी पूरी तरह इस तरीके पर काम नहीं कर पाया, लेकिन आगे बदलना पड़ेगा। और इसके लिए git worktree तो जरूरी है। संबंधित स्रोत, डॉक्यूमेंट, ब्लॉग
    • सच में यह पूछना चाहता हूँ कि कब कह सकते हैं कि product “अच्छा/trustworthy” बन गया। 70 घंटे में शायद PoC तक बन जाएगा, लेकिन आगे features add करते रहने वाले चरण की completeness कितनी होगी, यह देखना बाकी है।
    • OpenAI के reasoning-based मॉडल बेहतर code और problem-solving दिखाते हैं, लेकिन Claude code अभी भी ज़्यादा useful लगता है। शायद मॉडल थोड़ा weak हो, फिर भी वास्तविक उपयोग में बेहतर fit बैठता है।
  • यदि benchmark performance अच्छी हो, तो pricing भी बहुत appealing है—input tokens $1.25/मिलियन, cached input $0.125/मिलियन, output $10/मिलियन। संदर्भ के लिए Claude Opus 4.1 में input $15/मिलियन और output $75/मिलियन है। अब वास्तविक सवाल यह है कि Claude Code के मुकाबले tool use कितना अच्छा होगा। डेमो ठीक रहे, लेकिन Tau2-bench airline में o3 से नीचे आने की वजह से अभी अंतिम निष्कर्ष नहीं।
    • पिछले कुछ घंटों के direct टेस्ट के बाद लगता है कि Opus 4.1 की तुलना में GPT-5 धीरे-धीरे बेहतर हो रहा है। कई महीनों से Claude Code 200 plan use करने पर आउटपुट लगातार disappointing होता गया, जबकि GPT-5 मुझे एक step आगे दिखा।
    • दो से ज्यादा sub-model्स के mixed setup में भी uniform token pricing लगना काफी रोचक है। ऐसा लगता है कि design ऐसा है कि सस्ते मॉडल ज्यादा इस्तेमाल हों; अगर यूज़र बार-बार बेहतर मॉडल की तरफ जाएँ तो देखना होगा कि pricing model टिकेगा या नहीं। या शायद price margin काफी आराम से सेट किया गया है, इसलिए फर्क नहीं पड़ेगा।
    • price मतलब cost नहीं। अभी की price शायद platform share capture करने के लिए जानबूझकर कम रखी गई है, जो वास्तविक operational खर्च से दूर हो सकती है। मार्च में मिले 400 मिलियन डॉलर में से बड़ा हिस्सा शायद इसी price war में जाएगा—मैं यही अनुमान लगा रहा हूँ।
  • “GPT-5 ने agentic task tool-calling benchmark (τ2-bench telecom) में 96.7% का नया high बनाया” वाली लाइन सही है, लेकिन airline benchmark में o3 से कमजोर रहा; लगता है announcement ने सिर्फ उनके पक्ष के data को ही emphasize किया।
    • इस graph और section को मैंने direct बनाया है, इसलिए यह कहना चाहता हूँ कि telecom वाले evaluation data ही वास्तव में बेहतर हैं। retail और airline दोनों में automatic evaluation बहुत strict था और सिर्फ एक सही answer को सही मानकर score देता था, इसलिए कई अच्छे solutions score नहीं ले पाए। telecom bench result-state के आधार पर scoring करता है और कई सही जवाब allow करता है, जिससे auto-eval की कमजोरी दूर होती है; model का वास्तविक performance signal साफ दिखता है। इसलिए telecom bench पर focus करना तर्कसंगत लगता है। साथ ही tau2-bench पेपर भी देखें। इन evaluations में partial score नहीं होते, इसलिए एक छोटी गलती भी कुल score पर बड़ा असर डालती है, यानी वास्तविक performance score से ऊपर या नीचे हो सकती है।
    • cost angle भी रोचक है। o3 काफी expensive चल रहा है—अगर GPT-5 उससे cheaper हो, तो performance करीब होने पर भी यह एक meaningful improvement होगा।
    • क्योंकि body में airline में नीचे score की बात पहले से है, इसलिए इसे trap प्रश्न नहीं मानता।
  • CFG (Context-Free Grammar) और regex support दिलचस्प लगता है। विशेषकर OpenAI API के JSON schema implement करने वाले llguidance के Lark-like CFG से इसमें फर्क क्या है, यह देखने की जिज्ञासा है। संबंधित स्रोत
    • इस announcement का शायद सबसे exciting हिस्सा CFG और structured output ही है। अन्य जगहों पर (API, Google, OpenAI आदि) इस हिस्से में practical usage में लगातार issues आए हैं; इसे जल्दी इस्तेमाल करना चाहता हूँ।
  • Cursor कई दिन के लिए मुफ्त उपलब्ध है। मैंने कई IDE/CLI में agentic coding power-user की तरह काम किया है, और Cursor+GPT-5 combo काफी अच्छा लगा। जब भी समय मिले, ज़रूर खुद ट्राइ करें।
  • आउटपुट में context-free grammar सीधे force कर पाने की सुविधा देखकर बहुत ही आश्चर्यजनक और रोचक लगा; sampling stage में सही grammar कैसे force होती है, ये भी देखना चाहता हूँ।
    • यह शायद “structured generation” या “guided generation” जैसा होगा। अगर सीधे LLM use कर सकते हैं तो यह technique पहले से ही लागू थी। example1, example2 पहले से मौजूद हैं। असल concept यह है कि प्रत्येक token generation चरण में पूरे vocabulary की जगह वर्तमान grammar के हिसाब से allowed token set ही options में दिया जाता है; जैसे JSON grammar में { के बाद केवल valid next tokens ही दिए जाते हैं।
    • grammar production rules के हिसाब से केवल valid tokens को sampling pool में रखा जाता है; यानी inference चरण के दौरान ही limiting structure लगती है।
  • benchmark में rival models से तुलना किए बिना सिर्फ GPT-5 को उसी की पिछली generation से compare करना, मुझे Apple का अपनी ही previous iPhone generation से तुलना करने जैसा लगा।
  • कठिन प्रश्न पर GPT-5 test करने के बाद देखा कि Gemini जो solve नहीं कर पाया, उसे GPT-5 ने ठीक से analyze करके solve किया; लेकिन उसके बाद code edit में 6 बार फेल हुआ। जब GPT-5 का analysis Google Gemini को दिया तो Gemini ने तुरंत सही सुधार वाला code बना दिया। निष्कर्ष: ChatGPT analysis और code review अच्छी तरह करता है, लेकिन real coding ability अभी थोड़ी कमज़ोर है।
    • मैं भी Gemini(GCA) और CoPilot(Claude) दोनों से उसी समस्या में analysis में वही गलत समाधान पाया; गलतियाँ बता देने पर भी और गलत जवाब दिए। ChatGPT अभी तक नहीं आज़माया, पर जल्द कोशिश करूँगा।