Every की GPT-5 हैंड्स-ऑन समीक्षा

(every.to)

11 पॉइंट द्वारा GN⁺ 2025-08-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GPT-5 को ChatGPT में गति, सरलता और उत्तर गुणवत्ता में बड़े सुधार के साथ अधिकांश सामान्य उपयोगकर्ताओं के लिए सबसे बेहतरीन मॉडल माना गया है
API pricing में इसने प्रतिस्पर्धियों के मुकाबले मजबूत price competitiveness हासिल की है; खासकर GPT-5-mini, Google Gemini 2.5 Flash से सस्ता है और GPT-5 Standard, Claude 4 Opus से 12 गुना सस्ता है
दैनिक काम, pair programming, research, debugging में यह शानदार है, लेकिन agentic programming और लेखन गुणवत्ता के मूल्यांकन में इसकी सीमाएँ हैं
टीम review में GPT-5 ने well-defined tasks, code merge, draft writing, deep analysis में ताकत दिखाई, लेकिन लंबे समय तक autonomous work और creative large-scale development में कमी महसूस हुई
benchmark tests में इसने कुछ खास समस्याएँ हल करने, app features implement करने और research capability में अच्छा प्रदर्शन किया, लेकिन game, UI design, writing consistency जैसे क्षेत्रों में Opus 4.1 को बेहतर रेटिंग मिली

ChatGPT में GPT-5

गति इसकी सबसे प्रमुख विशेषता है; सरल queries का यह तुरंत जवाब देता है, और जटिल requests पर खुद अधिक समय लेकर अधिक गहराई वाले उत्तर देता है
model selection menu हटाकर auto-switcher तरीका अपनाया गया है, जो request के अनुसार non-reasoning और reasoning versions को अपने-आप चुनता है
- सरल knowledge questions के लिए तेज non-reasoning version का उपयोग
- जटिल generation, coding, analysis requests के लिए reasoning version का उपयोग
उत्तरों को structured subheadings, spacing, bold text जैसी readability-first शैली में व्यवस्थित किया गया है
Canvas में frontend app को एक बार में generate (one-shot) किया जा सकता है, लेकिन 1,000 lines of code की सीमा और कुछ feature restrictions मौजूद हैं
reasoning model को मुफ्त और default रूप में देकर इसने आम लोगों के AI अनुभव की गुणवत्ता को ऊपर उठाया है

API में GPT-5

GPT-5-mini: input के प्रति 1 million tokens पर $0.25 → Google Gemini 2.5 Flash($0.30) से सस्ता
GPT-5 Standard: input के प्रति 1 million tokens पर $1.25 → Google Gemini 2.5 Pro के बराबर, Claude 4 Opus($15) की 1/12 कीमत
output token की unit price o4-mini से अधिक है, लेकिन steerability बेहतर होने के कारण बारीक निर्देशों वाले कामों में इसकी ताकत दिखती है
price-performance के आधार पर API market में प्रतिद्वंद्वियों के users को अपनी ओर खींचने की इसकी संभावना अधिक है

Agentic engineering

precision backend work, debugging, code understanding में यह उत्कृष्ट है, लेकिन लंबे समय तक autonomous code writing और frontend के बड़े कामों में यह कम प्रभावी है
Cursor और Codex CLI को fully agentic development की तुलना में pair programming-केंद्रित तरीके से design किया गया है
Claude Code की तुलना में इसमें long-running tasks के लिए कम persistence और autonomy है, और work volume संभालने की speed भी कम है

उपयोग के मामलों के अनुसार विस्तृत मूल्यांकन

दैनिक काम: model चुनने की जरूरत नहीं, तेज Q&A, research की जरूरत वाले सवालों को भी व्यापक रूप से संभालता है, hallucination की आवृत्ति कम हुई
Pair programming: bug fix, feature implementation, large codebase understanding में बेहतरीन; speed और accuracy दोनों ऊँचे
लेखन: AI-विशिष्ट sentence patterns कम हुए हैं और अभिव्यक्ति अधिक विविध है, इसलिए draft writing के लिए उपयुक्त; specific styles भी सीख सकता है
Agentic engineering: long-term projects और autonomous code generation में यह अक्सर रुक जाता है और output quality कम रहती है
लेखन संपादन: writing quality evaluation और sentence naturalness के निर्णय में consistency कम है, इसलिए reliability भी कम है

टीम roundtable insights

Kieran Klaassen (Cora प्रमुख) : GPT-5 बारीक निर्देशों पर आधारित दोहराए जाने वाले कामों के लिए उपयुक्त है, और Sonnet 3.5 को replace करने लायक है

"GPT-5 वही करता है जो आप उससे कहते हैं। सावधानी से, छोटे-छोटे कदम लेते हुए, और कभी रास्ते से नहीं भटकता — और यही मेरी समस्या है। coding में यह मजबूत है, लेकिन agentic काम के लिए optimized नहीं है। अधिक पारंपरिक iterative development process में, जब आप कहते हैं 'यह अच्छा है, अब यह करो', तब इसे संभालना आसान है। लेकिन 2024 में हम AI के साथ ऐसे काम करते थे। GPT-5 भविष्य की छलांग नहीं है, बल्कि Sonnet 3.5 killer है।"
Danny Aziz (Spiral प्रमुख) : जटिल code merge जैसे well-scoped tasks के लिए यह सबसे उपयुक्त है, लेकिन long review और large-scale analysis के लिए वह Claude को पसंद करते हैं

"GPT-5 का जादुई पल तब था जब मैंने दो जटिल codebases को merge कराया। जिस open source framework का मैं उपयोग कर रहा था, वह मेरी मनचाही functionality नहीं दे रहा था, इसलिए मैंने उससे दूसरे framework का code मिलाने को कहा। यह एक ही बार में पूरा नहीं हुआ, लेकिन ऐसा लगा जैसे हम मिलकर लक्ष्य की ओर बढ़ रहे हों। स्पष्ट और अच्छी तरह परिभाषित coding tasks में मैं GPT-5 का खूब उपयोग करता हूँ। code review जैसे long agentic कामों के लिए मैं अभी भी Claude Code का उपयोग करता हूँ, लेकिन जब मैं अटक जाता हूँ या गहराई से सोचने का मन नहीं होता, तब GPT-5 मुझे मंज़िल तक पहुँचा देता है।"
Alex Duffy (AI education lead) : मुफ्त users के लिए यह GPT-4o की तुलना में बड़ा upgrade है, और large-scale data processing व structured tasks में इसकी ताकत है

"consumers के लिए GPT-5, GPT-4o की तुलना में स्पष्ट upgrade है। अगर आप free user हैं, तो फर्क साफ महसूस होगा। expert users अब भी o3 या Opus जैसे specialized tools का उपयोग कर सकते हैं, लेकिन developers के लिए GPT-5 की अहमियत यह है कि यह भरोसेमंद है और prompts का अच्छी तरह पालन करता है। खास तौर पर यह विशाल जानकारी को high quality में summarize और organize करने के लिए उपयुक्त है। output tokens की कीमत o4-mini से ज्यादा है, लेकिन उसी अनुपात में इसकी instruction-following क्षमता भी बेहतर है। GPT-5-mini की कीमत Flash से मुकाबला कर सकती है, और अगर speed भी साथ दे तो यह सचमुच dark horse बन सकता है।"
Naveen Naidu (EIR) : 4 दिनों तक न सुलझे app freezing bug को GPT-5 के साथ सहयोग करके हल किया

"मेरे AI dictation app 'Monologue' में एक app freezing bug था जिसे मैं 4 दिनों तक पकड़ नहीं पाया। Claude Code के साथ मैंने केवल रविवार को ही 4 घंटे लगाए, फिर भी नाकाम रहा। GPT-5 के साथ मैंने जैसे किसी teammate की तरह काम किया, समस्या किस हिस्से में है यह ट्रेस किया, और अंततः सही bug ढूँढ निकाला।"
Katie Parrott (लेखिका·AI operations lead) : first draft लिखने में Opus से ज़्यादा संतोषजनक, interview और question design में मजबूत, लेकिन vibe coding में कम प्रभावी

"लेखन में मैंने GPT-5 का उपयोग outline को first draft में बदलने के लिए किया और अनुभव अच्छा रहा। कुछ prompts के बाद मैंने इसे Every की शैली सिखाई, फिर 'Atlantic article और लोकप्रिय Hacker News post के intersection' जैसी शैली मांगी, और इसने मजबूत परिणाम दिए। AI writing में अक्सर दिखने वाले 'It's not just X, but Y' जैसे घिसे-पिटे patterns कम थे। interview के दौरान भी इसने सवालों की रूपरेखा अच्छी बनाई। draft writing में GPT-5, Opus से अधिक संतोषजनक था.
लेकिन Codex में vibe coding करते समय यह कम efficient लगा। यह काम को केवल छोटे-छोटे हिस्सों में बाँटकर ही करना चाहता था, और हर बार मुझे 'continue' दबाना पड़ता था। Claude की तरह यह अगले कदम की योजना भी नहीं बताता था।"
Yash Poojary (Sparkle प्रमुख): Swift coding में कुछ निराशा, लेकिन जटिल technical analysis, design और trade-off evaluation में सर्वश्रेष्ठ

"मेरे लिए सिर्फ Swift मायने रखता है। GPT-5 ने शुरुआत में प्रभावित नहीं किया। कोई खास setup prompt देने के बाद ही यह उपयोगी बना। फिर भी Swift coding में यह Claude की जगह लेने लायक नहीं था।
लेकिन pure research में यह सर्वोत्तम था। उदाहरण के लिए, जब मैंने Mac पर duplicate files ढूँढने का तरीका पूछा, तो इसने अब तक देखे गए किसी भी AI से सबसे अधिक technically precise analysis दिया। ऐसा लगा मानो 140 IQ वाला कोई system architect, जिसने यह system तीन बार बनाया हो, अपने सारे lessons समझा रहा हो। pure implementation के लिए मैं Claude का उपयोग करूँगा, लेकिन deep context, trade-off analysis और design discussion के लिए GPT-5 का उपयोग करूँगा।"
Dan’s mom (सामान्य उपयोगकर्ता का दृष्टिकोण) : जानकारी की मात्रा, readability और flow — तीनों में इसे अब तक के ChatGPT उत्तरों में सर्वश्रेष्ठ स्तर का बताया

"यह मॉडल वास्तव में अद्भुत है। ChatGPT में अब तक मिले किसी भी उत्तर से यह कहीं अधिक comprehensive है। जानकारी पढ़ने में आसान है और flow बहुत smooth है। यह मॉडल सचमुच सोने की खान है।"

benchmark के विस्तृत परिणाम

लेखन मूल्यांकन: एक ही लेख पर भी परिणामों में consistency की कमी, Opus की तुलना में reliability कम
one-shot game creation: स्थिर रूप से चलता है, लेकिन creativity और मज़ा कम; Opus 4.1 को बेहतर रेटिंग मिली
AI Diplomacy: base prompt performance कम, लेकिन optimized instructions के साथ Flash के बराबर; steerability इसकी ताकत
असंभव puzzle: 1 मिनट 10 सेकंड में हल, o3 की तुलना में कहीं तेज
one-shot music app creation: GarageBand जैसी functionality लागू की, UI साधारण; Opus 4 का design अधिक पसंद किया गया
अन्य tests: Pelican on a bicycle और thup benchmarks में Claude के साथ इसके चरित्रगत अंतर स्पष्ट दिखे

1 टिप्पणियां

anveloper 2025-08-11

GPT-5 से ज़्यादातर जवाब 10 सेकंड से ज़्यादा सोचने के बाद ही मिले। इस हिसाब से तो लगा कि शायद 3~4 बार और सवाल पूछे जा सकते थे, और साथ ही यह भी महसूस हुआ कि हाँ, फिर तो मुझे और सवाल पूछने चाहिए थे
तकनीकी रूप से यह कितना बेहतरीन है, कहना मुश्किल है; बस ऐसा लगता है कि यह ज़्यादा समय लगाकर बेहतर नतीजे देने का तरीका है