GPT-5 लॉन्च

(openai.com)

14 पॉइंट द्वारा GN⁺ 2025-08-08 | 5 टिप्पणियां | WhatsApp पर शेयर करें

GPT-5 कोडिंग, गणित, लेखन, स्वास्थ्य, विज़ुअल रिकग्निशन सहित सभी क्षेत्रों में पिछले मॉडलों से बेहतर प्रदर्शन देता है, और यह एक एकीकृत सिस्टम है जो तेज़ प्रतिक्रिया और गहरी reasoning को स्थिति के अनुसार जोड़ता है
‘GPT-5 Thinking’ जटिल समस्याओं पर लंबी reasoning लागू करके सटीकता बढ़ाता है, और Pro प्लान उपयोगकर्ता इसके विस्तारित संस्करण GPT-5 Pro के जरिए सर्वोच्च स्तर का प्रदर्शन उपयोग कर सकते हैं
वास्तविक उपयोग में hallucination (गलत तथ्य उत्पन्न करना) की दर को काफी कम किया गया है, और multimodal समझ, निर्देश पालन, तथा जटिल tool-chaining कार्यों की क्षमता में सुधार हुआ है
frontend UI generation·बड़े पैमाने की debugging जैसे डेवलपर सपोर्ट को मज़बूत किया गया है, और स्वास्थ्य क्षेत्र में इसने HealthBench का सर्वोच्च स्कोर दर्ज करते हुए सक्रिय health partner की भूमिका निभाई है
सुरक्षा के लिहाज़ से ‘safe completion’ training लागू की गई है, जिससे अनावश्यक इनकार कम हुए हैं, और bio·chemistry क्षेत्रों में उच्च-स्तरीय multi-layer defense system मौजूद है

GPT-5 परिचय

एकीकृत सिस्टम

एक ही सिस्टम में smart·efficient model, deep reasoning model (GPT-5 Thinking), और परिस्थिति·जटिलता·tool की ज़रूरत·user intent के आधार पर इन्हें चुनने वाला real-time router शामिल है
उपयोग सीमा पार होने पर हर मॉडल का ‘mini’ संस्करण शेष queries को संभालता है
भविष्य में इन सुविधाओं को एक single model में एकीकृत किया जाएगा

प्रदर्शन और उपयोगिता में सुधार

कुल benchmarks में GPT-4o की तुलना में कहीं बेहतर प्रदर्शन
hallucination में कमी, निर्देश पालन में सुधार, चापलूसी-प्रवृत्ति वाले उत्तर (sycophancy) में कमी
तीन मुख्य क्षेत्रों में सुधार
- कोडिंग: जटिल frontend generation, बड़े repositories की debugging, और सौंदर्यबोध को दर्शाने वाले UI/UX generation की क्षमता मज़बूत
- लेखन: संरचनात्मक अस्पष्टता को संभालते हुए साहित्यिक गहराई और लय वाले अभिव्यक्ति संभव, रोज़मर्रा के दस्तावेज़ लेखन·संपादन में बेहतर सहायता
- स्वास्थ्य: HealthBench में सर्वोच्च रिकॉर्ड, और संदर्भ·ज्ञान स्तर·क्षेत्र के अनुसार सुरक्षित और सटीक उत्तर

मूल्यांकन परिणाम

गणित 94.6% (AIME 2025), कोडिंग SWE-bench Verified 74.9%, multimodal MMMU 84.2%, स्वास्थ्य HealthBench Hard 46.2% के साथ SOTA हासिल
GPQA में GPT-5 Pro ने 88.4% के साथ सर्वोच्च स्कोर दर्ज किया
multimodal·tool integration·multi-step task processing की क्षमता में बड़ा सुधार

कुशल reasoning

समान प्रदर्शन पर token उपयोग 50~80% कम
जटिल और कठिन कार्यों में GPT-5 Thinking ने o3 की तुलना में error rate और hallucination rate को स्पष्ट रूप से घटाया

विश्वसनीयता और factuality में सुधार

open-ended factuality tests में hallucination rate 6 गुना कम
असंभव कार्यों या जानकारी की कमी की स्थिति में अपनी सीमाओं को स्पष्ट रूप से बताता है
sycophancy अनुपात 14.5% → 6% से कम

सुरक्षा में सुधार

‘safe completion’ training के जरिए संभावित जोखिम वाले अनुरोधों पर भी सुरक्षित और उपयोगी उत्तर देता है
bio·chemistry क्षेत्रों के high-risk scenarios के लिए multi-layer defense system लागू

GPT-5 Pro

सबसे कठिन कार्यों के लिए विस्तारित reasoning model
विशेषज्ञ मूल्यांकन में GPT-5 Thinking की तुलना में 67.8% अधिक पसंद, प्रमुख त्रुटियाँ 22% कम
स्वास्थ्य·विज्ञान·गणित·कोडिंग में सर्वोच्च प्रदर्शन

उपयोग और पहुँच

GPT-5 को ChatGPT के default model के रूप में लागू किया गया, और यह पिछले मॉडलों (GPT-4o, o3 आदि) की जगह लेता है
‘think hard about this’ इनपुट देने पर reasoning mode को force किया जा सकता है
Plus·Pro·Team·Free पर क्रमिक रूप से उपलब्ध, Enterprise·Edu पर 1 सप्ताह बाद लागू
free users सीमा पार होने पर GPT-5 mini पर स्विच हो जाते हैं

डेवलपर्स के लिए GPT-5 की मुख्य बातें

प्रदर्शन और विशेषताएँ

कोडिंग प्रदर्शन:
- SWE-bench Verified 74.9% (o3: 69.1%), token उपयोग 22%↓, tool calls 45%↓
- Aider polyglot 88% के साथ code-fix error rate 1/3 कम
- frontend code generation में o3 की तुलना में 70% अधिक पसंद
एजेंट कार्य:
- τ 2-bench telecom 96.7%, multi-tool calls·parallel calls की स्थिरता में सुधार
- progress और योजना को user के सामने स्पष्ट रूप से दिखाने वाले preamble messages आउटपुट कर सकता है
लॉन्ग context:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- अधिकतम 4 लाख token context process कर सकता है

नई API सुविधाएँ

reasoning_effort: minimal~high रेंज में reasoning time को नियंत्रित करता है
verbosity: low~high के जरिए उत्तर की default लंबाई सेट करता है
custom tools: JSON की जगह plaintext में call संभव, regex/grammar constraints का समर्थन
parallel tool calling·web search·file search·image generation जैसी built-in tools शामिल
prompt caching·Batch API जैसी cost-saving सुविधाओं का समर्थन

स्थिरता और विश्वसनीयता

LongFact·FactScore benchmarks में hallucination rate o3 की तुलना में ~80% कम
self-limitation awareness और अप्रत्याशित स्थितियों से निपटने की क्षमता बेहतर
high-risk·high-accuracy वाले कार्यों (code·data·decision-making) के लिए उपयुक्त

Availability & pricing

उपलब्ध आकार और endpoints

size options: gpt-5·gpt-5-mini·gpt-5-nano उपलब्ध
supported interfaces: Responses API, Chat Completions API, Codex CLI default के रूप में उपयोग संभव
model characteristics: API में GPT‑5 series एक reasoning model है, जबकि ChatGPT का non‑reasoning model अलग ID के साथ उपलब्ध है

मूल्य सूची और billing units

gpt-5: input $1.25/दस लाख token, output $10/दस लाख token
gpt-5-mini: input $0.25/दस लाख, output $2/दस लाख
gpt-5-nano: input $0.05/दस लाख, output $0.40/दस लाख
gpt-5-chat-latest (non-reasoning): input $1.25/दस लाख, output $10/दस लाख, यानी gpt-5 के समान

समर्थित सुविधाओं का सार

reasoning control: reasoning_effort में minimal·low·medium·high देकर speed↔accuracy tradeoff नियंत्रित किया जा सकता है
response length: verbosity से छोटा/डिफ़ॉल्ट/लंबा default tendency सेट की जा सकती है
tooling: custom tools के साथ plaintext arguments call का समर्थन और regex/CFG constraints लागू किए जा सकते हैं
execution features: parallel tool calling, built-in tools (web search, file search, image generation आदि), streaming, Structured Outputs का समर्थन
cost optimization: prompt caching, Batch API से token और latency लागत घटाई जा सकती है

deployment channels: Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry में GPT‑5 लागू किया गया है

सरल लागत उदाहरण

gpt-5 से input 50k + output 5k tokens process करने पर कुल लागत ≈ $0.1125
- calculation: input 0.05M × $1.25 = $0.0625, output 0.005M × $10 = $0.05, कुल $0.1125
वही काम gpt-5-mini से करने पर कुल लागत ≈ $0.0175
- input 0.05M × $0.25 = $0.0125, output 0.005M × $2 = $0.01, कुल $0.0225 सही है, लेकिन output unit cost को देखते हुए input-heavy workload में अंतर और बड़ा होता है
जिन pipelines में बड़े पैमाने का generative output अधिक होता है, वहाँ कम output cost वाले model चुनने की प्रेरणा अधिक होती है

चयन गाइड नोट्स

यदि सटीकता सर्वोच्च प्राथमिकता है और जटिल tool chains की ज़रूरत वाले backend agent बनाने हैं, तो gpt-5 पर विचार करें
रोज़मर्रा का code editing·lightweight agents·बड़े पैमाने की batch processing के लिए gpt-5-mini cost-to-quality संतुलन में बेहतर है
ultra-low latency·ultra-low cost वाले preprocessing·rule checking·simple summarization के लिए gpt-5-nano उपयुक्त है

संदर्भ

यदि आप ChatGPT का non‑reasoning default model वैसे ही उपयोग करना चाहते हैं, तो API में gpt-5-chat-latest चुनें
response length में स्पष्ट निर्देश को प्राथमिकता दी जाती है, इसलिए verbosity से अलग, यदि “5-paragraph essay” जैसी लंबाई साफ़ तौर पर दी जाए तो मॉडल निर्देश का पालन करेगा

5 टिप्पणियां

shakespeares 2025-08-08

मेरे हिसाब से refactoring के लिए claude-code ज़्यादा बेहतर लगता है।
जब मैंने cursor + GPT5 से अनावश्यक methods हटाने या ऐसी refactoring का काम कराया, तो claude-code उन्हें अच्छी तरह ढूँढकर हटा देता था, जबकि GPT5 के बारे में लगा कि वह पूरे project को समग्र रूप से समझ नहीं पा रहा था।

cgl00 2025-08-08

यह महसूस होता है कि usability में बहुत बड़ी छलांग आई है, लेकिन जिस तरह लोग शोर मचा रहे थे कि यह AGI के करीब पहुँच गया है, वैसी प्रतिक्रिया आखिरकार बढ़ा-चढ़ाकर कही गई लगी।

laeyoung 2025-08-08

सिर्फ कोडिंग (SWE-bench) की तरफ देखें, तो यह 74.9%(thinking), 52.8%(without thinking) था, जबकि Claude के लिए 74.5%(Opus 4.1), 72.5%(Opus 4.0), 62.3%(Sonnet 3.7) था।

Thinking mode का इस्तेमाल न करें, तो यह Sonnet से भी खराब है, और इस्तेमाल करें तब भी Opus 4.1 से बस बहुत थोड़ा बेहतर लगता है।

xguru 2025-08-08

OpenAI का आधिकारिक घोषणा वीडियो (1 घंटा 17 मिनट) https://www.youtube.com/watch?v=0Uu_VJeVVfo

GN⁺ 2025-08-08

Hacker News राय

बहुत लोगों का दावा था कि अगर AI कंपनियों में से कोई एक AGI (सामान्य कृत्रिम बुद्धिमत्ता) की दहलीज़ पार कर ले, तो वह अकेले बहुत आगे निकल जाएगी, लेकिन दिलचस्प बात यह है कि वास्तव में सभी मॉडलों की परफॉर्मेंस धीरे-धीरे एक जैसी होती जा रही है। अभी GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro — सभी कुल मिलाकर अच्छा प्रदर्शन कर रहे हैं, और यूज़र के नज़रिए से लगता है कि प्रतिस्पर्धा पहले से कहीं ज़्यादा तीखी हो गई है। आगे AI प्रतिस्पर्धियों की सेवाएँ और ज़्यादा समान होंगी या अलग-अलग दिशा में जाएँगी, इस पर शोधकर्ताओं की राय जानने की उत्सुकता है
- यह बात ध्यान देने लायक है कि एक निश्चित सीमा के बाद यूज़र के लिए यह पहचानना मुश्किल हो सकता है कि कौन-सा मॉडल बेहतर है। जैसे, अगर किसी यूज़र की chess ELO 1000 हो, तो Magnus Carlsen और किसी दूसरे grandmaster के खिलाफ खेलकर यह समझना आसान नहीं होगा कि कौन अधिक ताकतवर है। मानव मूल्यांकन मानकों से बनने वाला यह clustering effect असल में भ्रम भी हो सकता है
- AGI को singularity पैदा करने वाला इसलिए माना जाता है क्योंकि वह खुद सीख सकता है। अभी हम वहाँ पहुँचने से बहुत दूर हैं, और निजी तौर पर मुझे लगता है कि अपने जीवनकाल में AGI देखने की संभावना लगभग नहीं है। 1970 के दशक के mainframe और LLM के बीच जितनी दूरी है, लगभग उतनी ही दूरी आज AGI तक भी है
- संभव है कि probabilistic text prediction model से उच्च स्तर की बुद्धिमत्ता को simulate करना ही असंभव हो। AI रिसर्चर दोस्तों को भी LLM-आधारित AGI को लेकर चिंता नहीं है, क्योंकि data के मुकाबले performance growth की limits हैं और diminishing returns दिखते हैं। मानव बुद्धिमत्ता कम उदाहरणों से भी शानदार generalization कर लेती है, जबकि LLM मुख्यतः training data में बार-बार आए उत्तरों को दोहराते हैं। लेकिन AGI न भी हो, तब भी मौजूदा AI/ML/SL तकनीकें दुनिया बदलने वाले बिंदु तक पहुँच सकती हैं। उदाहरण के लिए, search जैसे क्षेत्रों में, जहाँ व्यापक ज्ञान का पुनरुत्पादन महत्वपूर्ण है, यह और भी सही है
- पहले मैं AI को लेकर निराशावादी था, लेकिन अब राहत है कि लगभग 70% झुकाव इस ओर है कि मौजूदा तकनीकी paradigm निकट भविष्य में AI के अंत जैसी स्थिति नहीं लाएगा। अभी का AI “हमारी नकल करने” में विशेषज्ञ है और औसत मानव output से आगे नहीं निकल पा रहा — फिलहाल यह अपने-आप में एक blessing है। इसके बावजूद, सिद्धांततः ‘AI doomers’ की दलीलों में वजन है, और खतरे को गंभीरता से लेना चाहिए
- मैं इस दावे से सहमत नहीं हो सकता कि बस एक और जटिल encyclopedia बना देने और उसे दिलचस्प search interface के साथ मानव-जैसा महसूस करा देने से हम AGI के करीब पहुँच जाएँगे। असल सामान्य बुद्धिमत्ता (GI) कहाँ से आती है, इसका न किसी के पास सबूत है, न समझ। यह ठोस आधार के बिना बढ़ा-चढ़ाकर बोलना और investment जुटाने वाली शेखी से ज़्यादा नहीं है। जो लोग AGI को व्यावहारिक रूप से संभव बताकर बेचते हैं, वे मुझे charlatan लगते हैं। उद्योग में बहुत-से engineers का इस तर्क पर पूरी तरह यकीन कर लेना हैरान करता है, और इससे पूरे उद्योग की सेहत पर सवाल उठता है
GPT-5 का knowledge cutoff: 30 सितंबर 2024 (रिलीज़ से लगभग 10 महीने पहले), Gemini 2.5 Pro: जनवरी 2025 (3 महीने पहले), Claude Opus 4.1: मार्च 2025 (4 महीने पहले)। संबंधित लिंक: OpenAI मॉडल तुलना, DeepMind Gemini Pro, Anthropic Claude मॉडल ओवरव्यू
- अब जबकि web search संभव है, यह सवाल उठता है कि knowledge cutoff का महत्व कितना बचता है। शायद यह ज़्यादा इस बात का संकेतक है कि post-training में कितना समय लगा
- Gemini लगभग हर query में साधारण web search के ज़रिए knowledge cutoff के बाद की सूचना-खाई भरने की कोशिश करता है
- GPT-5 nano और mini का cutoff इससे भी पहले का है: 30 मई 2024
- अगर मॉडल web search कर सकता है, तो knowledge cutoff अपने-आप में बहुत महत्वपूर्ण नहीं लगता
- बल्कि इसका मतलब यह भी हो सकता है कि OpenAI ने safety के मामले में कोई shortcut लेने की इजाज़त नहीं दी
GPT-5 system card के अनुसार, GPT-5 एक integrated system है जिसमें कई मॉडल (तेज़ जवाबों के लिए, गहरे reasoning के लिए) और एक router जुड़े हुए हैं। चैट के दौरान “इस पर गंभीरता से सोचो” जैसे prompt के आधार पर router मॉडल चुनता है। ऊपर से यह एक सिस्टम दिखता है, लेकिन वास्तव में कई sub-models का संयुक्त ढाँचा है। लगता है कि एक ही विशाल model को end-to-end train करना बहुत महँगा हो गया, इसलिए यह तरीका चुना गया
- यह अर्थ का फर्क हो सकता है, लेकिन अगर components अपने-आप चलें और यूज़र केवल एक interface इस्तेमाल करे, तो इसे ‘integrated system’ कहा जा सकता है। बेशक, यह ‘integrated model’ नहीं है
- इससे फिर एक बार 'bitter lesson' के समकक्ष सिद्धांत की पुष्टि होती दिखती है कि एक विशाल general-purpose system की तुलना में, एक तय budget के भीतर हाथ से डिज़ाइन किया गया specialized system कहीं बेहतर प्रदर्शन दे सकता है
- डेवलपर्स के लिए GPT-5 के अनुसार, ChatGPT में GPT-5 कई मॉडलों (reasoning, non-reasoning, router आदि) को जोड़कर बना सिस्टम है। API का GPT-5 केवल अधिकतम प्रदर्शन वाला reasoning model अकेले उपलब्ध कराता है। ChatGPT के कुछ non-reasoning models gpt-5-chat-latest के रूप में उपलब्ध हैं, और उन्हें developers को ध्यान में रखकर tune किया गया है
- अगर कई छोटे specialized models का संयोजन ही सही दिशा है, तो यह रणनीति वांछनीय लगती है
- यह केवल cost का सवाल नहीं भी हो सकता; संभव है कि उपलब्ध training data लगभग खत्म हो गया हो, जिससे प्रभावी training कठिन हो रही हो, या नया data AI-generated content से दूषित हो चुका हो और उपयोग लायक न रहा हो
benchmark की बड़ी गलती भी हुई, और demo भी उम्मीद जितना प्रभावशाली नहीं था, इसलिए इस साल के अंत तक सबसे बेहतरीन AI कौन होगा, इस पर betting market में भी बड़ा बदलाव आया। Gemini 3.0 या Google के नए मॉडल से अधिक उम्मीद है, और LLM race में ‘जो अंत में आता है’ उसके लिए बढ़त होना संभव है
- मैंने खुद Opus 4.1 में असफल हुए काम GPT-5 से करवाने की कोशिश की, और उसने सिर्फ सफल ही नहीं किया बल्कि Opus की की गई गलतियाँ भी ठीक कर दीं। इससे लगा कि यह सचमुच दमदार चीज़ है
- मैं यह नहीं चाहता कि पहले से खरबों डॉलर market cap वाली कोई monopoly कंपनी पूरी दुनिया पर मालिकाना जमा ले
वास्तविक परीक्षण में यह बहुत शानदार model लगा। सवालों के जवाब देते समय यह 4.1 या o3 की तुलना में tools का अधिकतम उपयोग करने के लिए कहीं अधिक सक्रिय दिखा। उदाहरण के लिए, पहली ही response में जानकारी जुटाने के लिए इसने 6 बार tool calls किए। उदाहरण: tool use example
marketing copy और livestream में दिखाई गई दलीलें “यह बेहतर है क्योंकि यह बेहतर है” जैसी self-referential लगीं। अभी तक यह स्पष्ट नहीं किया गया कि GPT-5 को major version upgrade की आवश्यकता क्यों थी। हमेशा की तरह, आखिरकार outputs का overall feel (‘vibe check’) ही मॉडल की विश्वसनीयता तय करेगा
- पिछले 6 महीनों में लोकप्रिय JS libraries नए training set में शामिल हो गई हैं, इसलिए अब कहा जा रहा है कि यह ‘coding में और मजबूत’ हो गया है। चिंता यह है कि क्या यह तरीका टिकाऊ है
- प्रचार बहुत है, पर असली data/benchmark कम हैं, इसलिए simonw जैसे व्यावहारिक users के छोटे-छोटे impressions का भी इंतज़ार है
- मैंने high-difficulty code refactoring जैसे कामों से LLM की सीमाओं को परखने की कोशिश की, लेकिन पिछले मॉडल की तुलना में गुणवत्ता में कोई बुनियादी सुधार महसूस करना मुश्किल रहा। इस समय ऐसा लगता है कि quality improvement अपनी limit, यानी S-curve के धीमे पड़ने वाले हिस्से, तक पहुँच गया है। उसी quality को सस्ता करके देना मायने रखता है, लेकिन रोज़मर्रा के उपयोग में quality का अंतर महसूस नहीं होता
- GPT-5 परिचय पेज में AIME 2025, SWE-bench आदि सहित कई benchmark परिणाम शामिल हैं। कुछ भी खास तौर पर चौंकाने वाला नहीं है
- अभी ऐसा लग रहा है कि हम ‘नया है, इसलिए चाहिए’ वाले smartphone युग में प्रवेश कर चुके हैं
livestream के आधार पर, पुराने models की तुलना में benchmark improvement बहुत कम है। रिलीज़ से पहले expectations को कम करने की कोशिश क्यों की गई थी, यह समझ आता है, लेकिन वास्तविक सुधार उम्मीद से भी बहुत छोटा निकला
- रिलीज़ से पहले Sam Altman ने Death Star की image ट्वीट करके लोगों की उम्मीदें बढ़ा दी थीं
- AI big tech कंपनियाँ अब काफ़ी मिलते-जुलते क्षेत्र में प्रतिस्पर्धा कर रही हैं और अलग पहचान नहीं बना पा रहीं। लगता है OpenAI अब superintelligence की तुलना में cost optimization और everyday/business assistant उपयोगों पर अधिक ध्यान देगा। दूसरी ओर, Anthropic और Google के पास growth में अधिक गुंजाइश है, इसलिए वे उच्चतर intelligence में निवेश कर सकते हैं। नतीजतन, o series जैसी लाइनों में और अधिक smart models आ सकते हैं, लेकिन अंततः revenue और market reality की भी सीमा है
- GPT-5, WebDev Arena में Gemini 2.5 Pro से 75 अंक और Claude Opus 4 से 100 अंक आगे रहकर पहले स्थान पर है। संदर्भ: lmarena.ai leaderboard
- code demos ज़्यादातर Cursor-आधारित GPT-5 MAX पर किए गए, जबकि अधिकांश users इस तरह के MAX mode का बार-बार उपयोग नहीं कर पाएँगे। अच्छा होता अगर सामान्य version में भी demo दिखाया जाता
- Sam ने 2 साल पहले कहा था कि वह shocking one-off announcement की बजाय gradual progress चुनेगा। अभी तो पहला ही दिन है, इसलिए आने वाले महीनों में 10~20% अतिरिक्त optimization की गुंजाइश हो सकती है
इस presentation material के y-axis को लेकर भ्रम है संबंधित ग्राफ विवाद
- पूरी प्रस्तुति में पहला graph ही ढीला और जल्दबाज़ी में तैयार किया हुआ लगा। अगर Opus 4.1 के साथ तुलना भी होती तो बेहतर होता। संदर्भ के लिए, Opus 4.1 का score 74.5% है Anthropic Opus 4.1 समाचार। यह दिखाता है कि upgrade के बाद भी उस metric पर Anthropic अब भी leader है
ChatGPT5 demo उदाहरण में “विमान के पंख (airfoil)” के काम करने के सिद्धांत की गलत व्याख्या दिखाई गई। उसमें कहा गया कि ऊपर की हवा को अधिक दूरी तय करनी होती है, इसलिए वह तेज़ चलती है और pressure कम हो जाता है, जबकि नीचे की हवा धीमी चलती है और pressure अधिक होता है, जिससे lift बनती है। लेकिन वास्तव में ऐसा कोई भौतिक आधार नहीं है कि ऊपर और नीचे की हवा एक ही समय पर पहुँचे। संबंधित लेख: University of Cambridge। पहले demo से ही ऐसी गलत व्याख्या देना अजीब लगा
- यह पूरी तरह गलत व्याख्या है। अगर वह सही होती, तो flat plate airfoil lift पैदा ही नहीं कर पाता, जबकि वास्तविकता अलग है। यह मैं विमान डिज़ाइन में PhD अनुभव के आधार पर कह रहा हूँ
- यह बहुत प्रसिद्ध misconception है, यानी equals transit time fallacy, इसलिए aeronautical engineering विशेषज्ञ न होने पर भी लोग इस गलती के बारे में सुन चुके होते हैं
- “PhD-level” कहना अजीब है। कोई वास्तविक PhD हो तो उसे सिर्फ मौजूदा जानकारी दोहरानी नहीं, बल्कि नया विज्ञान भी बनाना चाहिए। अब तक मैंने ऐसा कोई उदाहरण नहीं देखा जहाँ LLM ने अपने-आप नया science पैदा किया हो। मूल रूप से LLM उत्कृष्ट word parser से अधिक कुछ नहीं हैं
- NASA भी गलत व्याख्या पर अलग से समझाने वाली साइट चलाता है
- Bartosz इस विषय की व्याख्या सबसे अच्छी तरह करता है
GPT-5 की context window 4 लाख है, अधिकतम output 1.28 लाख tokens, input $1.25, output $10.00 है। आधिकारिक दस्तावेज़ अगर यह प्रदर्शन के साथ needle-in-haystack समस्या में उत्कृष्ट साबित होता है, तो Gemini 2.5 Pro और Claude Opus 4.1 की तुलना में यह बेहद प्रतिस्पर्धी होगा। और अगर mini/nano versions भी ठीक से काम करते हैं, तो यह वास्तव में बहुत बड़ी छलांग होगी
- gpt-5 का cutoff 1 अक्टूबर 2024 है, जबकि mini/nano का 31 मई 2024। पिछली 4.1 product family 1M/32k tokens सपोर्ट करती थी। pricing में input tokens 37% सस्ते और output tokens 25% महंगे हो गए हैं। केवल nano product में input 50% सस्ता है और output pricing वही है
- API इस्तेमाल करने के लिए identity verification की लागत (समय, प्रक्रिया आदि) को भी ध्यान में रखना चाहिए