4 पॉइंट द्वारा GN⁺ 6 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • एक agentic मॉडल जो जटिल कामों की खुद योजना बनाकर tools को जोड़ते हुए उन्हें अंत तक पूरा करता है, और code लिखने व debugging से लेकर web research, data analysis, document·spreadsheet बनाना, software को संचालित करना तक व्यापक काम संभालता है
  • GPT-5.4 जैसी ही per-token latency बनाए रखते हुए coding, computer use, knowledge work, शुरुआती scientific research में performance बढ़ी है, और वही Codex काम कम tokens में पूरा करके efficiency भी बेहतर हुई है
  • software engineering में Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6% दर्ज किए गए, और implementation·refactoring·debugging·testing·verification तथा बड़े codebase के context को बनाए रखने में इसकी ताकत दिखी
  • सामान्य कामकाजी और research workflows में भी document·spreadsheet·slide generation, स्क्रीन-ऑपरेशन आधारित computer use, multi-step data analysis, hypothesis validation, result interpretation तक जुड़ी पूरी flow को मजबूत किया गया है, और GPT-5.5 Pro का लक्ष्य अधिक accuracy और comprehensiveness है
  • लॉन्च से पहले मजबूत किए गए safety safeguards और internal·external testing से गुजारा गया, और ChatGPT व Codex में Plus, Pro, Business, Enterprise users के लिए क्रमिक rollout चल रहा है, इसलिए यह व्यावहारिक AI उपयोग का दायरा और बढ़ाने वाला चरण दिखता है

मॉडल ओवरव्यू और डिप्लॉयमेंट दायरा

  • GPT-5.5 को ऐसे मॉडल के रूप में पेश किया गया है जो इरादे को अधिक तेज़ी से समझता है, कई चरणों में उलझे कामों की खुद योजना बनाता है, और tools का इस्तेमाल करते हुए उन्हें अंत तक आगे बढ़ाता है
    • यह code writing और debugging, web research, data analysis, documents और spreadsheets बनाना, software operation, और कई tools के बीच जाकर काम करना कर सकता है
    • इसे हर step को बारीकी से manage करने के बजाय, जटिल और अव्यवस्थित काम एक साथ सौंपकर plan, tool use, verification और ambiguity handling तक निरंतर आगे बढ़ने के लिए डिज़ाइन किया गया है
  • agentic tasks में हुए सुधार पर खास ज़ोर दिया गया है, और coding·computer use·knowledge work·शुरुआती scientific research में यह मजबूत performance दिखाता है
    • बड़े models अक्सर धीमे हो जाते हैं, लेकिन वास्तविक service आधार पर per-token latency को GPT-5.4 के बराबर रखा गया है
    • वही Codex काम कम tokens में पूरा करके efficiency भी बढ़ाई गई है
  • लॉन्च से पहले safeguards को मजबूत किया गया, और internal·external red team testing, advanced cybersecurity·biology capabilities पर अतिरिक्त परीक्षण, तथा लगभग 200 trusted partners के शुरुआती feedback को शामिल किया गया
  • फिलहाल ChatGPT और Codex में Plus, Pro, Business, Enterprise users के लिए क्रमिक rollout जारी है, और GPT-5.5 Pro ChatGPT के Pro·Business·Enterprise में उपलब्ध कराया जा रहा है
    • API के लिए अलग safety requirements पूरी की जा रही हैं, और GPT-5.5 व GPT-5.5 Pro जल्द उपलब्ध कराए जाएंगे

software engineering और agentic coding

  • OpenAI agentic AI infrastructure बना रहा है, और पिछले एक साल में AI ने software engineering को काफी तेज़ किया है
    • GPT-5.5 के Codex और ChatGPT में आने के साथ यह बदलाव scientific research और सामान्य computer work तक फैलना शुरू हो गया है
  • Artificial Analysis Coding Index के आधार पर प्रतिस्पर्धी frontier coding models की तुलना में आधी लागत पर top-tier intelligence देता है
  • GPT-5.5 को OpenAI के अनुसार सबसे मजबूत agentic coding model के रूप में पेश किया गया है
    • Terminal-Bench 2.0 में इसने 82.7% स्कोर किया, जहां planning·iteration·tool composition की जरूरत वाले जटिल command-line workflows का मूल्यांकन किया जाता है
    • SWE-Bench Pro में इसने 58.6% स्कोर किया, और वास्तविक GitHub issues को हल करने में पिछले model की तुलना में अधिक काम single pass में end-to-end पूरा किया
    • internal evaluation Expert-SWE में भी यह GPT-5.4 से आगे रहा
  • तीनों coding evaluations में GPT-5.4 से कम tokens इस्तेमाल करते हुए इससे ऊंचे scores मिले
  • Codex में इसकी ताकत implementation, refactoring, debugging, testing, verification में साफ दिखती है
    • बड़े systems के context को बनाए रखना, ambiguous failure causes को trace करना, tools से assumptions verify करना, और codebase-व्यापी changes लागू करना जैसे वास्तविक engineering behaviors में यह अधिक मजबूत हुआ है

coding use examples और शुरुआती testing

  • Artemis II के वास्तविक data का इस्तेमाल करने वाले WebGL + Vite app implementation prompt को उदाहरण के रूप में शामिल किया गया है
    • NASA/JPL Horizons vector data का उपयोग करके Orion, Moon, Sun की trajectories render की जाती हैं
    • readability के लिए display scale लागू किया जाता है
  • शुरुआती testers ने आकलन किया कि GPT-5.5 system architecture को बेहतर समझता है
    • क्या और क्यों fail हो रहा है, fix कहां जाना चाहिए, और codebase के दूसरे हिस्सों पर उसका क्या असर पड़ेगा, यह वह अधिक सटीक तरीके से पहचानता है
  • Dan Shipper ने लॉन्च के बाद outage को rewind करके यह परखा कि क्या उसी स्तर का redesign बनाया जा सकता है, और GPT-5.4 असफल रहा जबकि GPT-5.5 सफल रहा
  • Pietro Schirano ने सैकड़ों frontend और refactor changes वाले branch को काफी बदल चुके main branch में करीब 20 मिनट में एक ही बार में merge किया
  • senior engineer testing में GPT-5.4 और Claude Opus 4.7 की तुलना में reasoning और autonomy अधिक उभरकर सामने आए
    • बिना explicit prompt के भी यह पहले से problems पकड़ लेता है, और testing व review की जरूरत का अनुमान लगा लेता है
    • collaborative markdown editor के comment system के redesign का अनुरोध करने पर 12-diff stack लगभग पूरी अवस्था में निकला
    • implementation fixes अपेक्षा से कम चाहिए थे, और plan पर भरोसा भी GPT-5.4 की तुलना में बढ़ा
  • Cursor के Michael Truell के उद्धरण में यह गुण सामने आया कि यह ज़्यादा देर तक काम जारी रखता है, और बिना जल्दी रुकने के जटिल व लंबे समय तक चलने वाले tasks के लिए अधिक उपयुक्त है

सामान्य knowledge work और computer use

  • coding में दिखी ताकतें रोज़मर्रा के computer work में भी सीधे जारी रहती हैं
    • इरादे को बेहतर समझने की वजह से information खोज, महत्वपूर्ण जानकारी छांटना, tools का उपयोग, results verify करना, और raw materials को उपयोगी outputs में बदलने की पूरी प्रक्रिया अधिक स्वाभाविक ढंग से होती है
  • Codex में GPT-5.5, GPT-5.4 की तुलना में documents, spreadsheets, slides बनाने में अधिक मजबूत है
    • alpha testers ने कहा कि operations research, spreadsheet modeling, और अव्यवस्थित business input को plan में बदलने जैसे कामों में यह पिछले model से बेहतर है
  • Codex की computer use क्षमता के साथ मिलकर यह स्क्रीन देख सकता है, click कर सकता है, typing कर सकता है, interface में navigate कर सकता है, और कई tools के बीच सटीकता से आ-जा सकता है
  • OpenAI के भीतर भी इसका इस्तेमाल पहले से वास्तविक workflows में हो रहा है, और फिलहाल 85% से अधिक कर्मचारी हर हफ्ते Codex का उपयोग कर रहे हैं
    • इसका उपयोग software engineering, finance, communications, marketing, data science, product management में व्यापक रूप से हो रहा है
  • communications team ने 6 महीनों के speaking request data का analysis करके scoring·risk framework बनाया, और low-risk requests को auto-process व high-risk requests को human review में भेजने वाले Slack agent को validate किया
  • Finance team ने 24,771 K-1 tax forms, कुल 71,637 pages की समीक्षा की, और personal information हटाने वाले workflow के जरिए पिछले साल की तुलना में काम 2 हफ्ते पहले पूरा किया
  • Go-to-Market team में साप्ताहिक business report generation को automate करके प्रति सप्ताह 5~10 घंटे बचाए गए

ChatGPT में GPT-5.5 Thinking और GPT-5.5 Pro

  • ChatGPT का GPT-5.5 Thinking इस तरह डिज़ाइन किया गया है कि वह अधिक कठिन समस्याओं का अधिक तेज़ी से उत्तर दे, और अधिक स्मार्ट व संक्षिप्त जवाबों के साथ जटिल कामों को अधिक कुशलता से पूरा करने में मदद करे
    • coding, research, जानकारी के संकलन और विश्लेषण, तथा दस्तावेज़-केंद्रित कार्यों में मजबूत है और खासकर plugin इस्तेमाल करते समय फायदेमंद है
  • GPT-5.5 Pro अधिक कठिन कार्यों और उच्च गुणवत्ता को लक्ष्य बनाता है, और कम latency के कारण वास्तविक कार्यस्थल में इसकी उपयोगिता बढ़ती है
    • GPT-5.4 Pro की तुलना में इसके जवाब अधिक व्यापक, बेहतर संरचित, अधिक सटीक, अधिक प्रासंगिक और अधिक उपयोगी हैं
    • business, legal, education, data science में विशेष रूप से मजबूत है
  • पेशेवर कार्यों के करीब वाले benchmarks में भी इसने उच्च स्कोर दिखाए हैं
    • GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0% दर्ज किया गया
    • Tau2-bench Telecom prompt tuning के बिना किया गया
    • FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1% भी साथ में प्रस्तुत किए गए
  • NVIDIA के Justin Boitano के उद्धरण में बताया गया है कि यह NVIDIA GB200 NVL72 सिस्टम पर उपलब्ध है, natural language prompts के जरिए end-to-end क्षमताएँ शिप की जाती हैं, debug समय दिनों से घटकर घंटों में आ जाता है, और जो प्रयोग कई हफ्ते लेते थे वे अब रात भर में पूरे हो सकते हैं

वैज्ञानिक शोध और तकनीकी शोध वर्कफ़्लो

  • GPT-5.5 ने वैज्ञानिक और तकनीकी शोध वर्कफ़्लो में भी प्रदर्शन सुधार दिखाया है
    • यह सिर्फ कठिन सवालों के जवाब देने तक सीमित नहीं है, बल्कि idea exploration, evidence collection, hypothesis validation, result interpretation और अगले experiment के निर्णय तक जाने वाले लूप को बेहतर ढंग से बनाए रखता है
  • GeneBench में GPT-5.4 की तुलना में स्पष्ट सुधार दिखा
    • यह genetics और quantitative biology की multi-step data analysis को लक्ष्य करने वाला नया evaluation है
    • इसमें अस्पष्ट या त्रुटिपूर्ण डेटा, छिपे हुए confounder, QC failures, और आधुनिक statistical techniques के implementation व interpretation को शामिल किया गया है
    • यहाँ के कार्य वैज्ञानिक विशेषज्ञों के लिए भी कई दिनों की परियोजना के बराबर हैं
  • BixBench में भी सार्वजनिक स्कोर वाले मॉडलों के बीच इसने अग्रणी प्रदर्शन दर्ज किया
    • इसे वास्तविक bioinformatics और data analysis को दर्शाने वाला benchmark बताया गया है
    • यह biomedical research की अग्रिम पंक्ति में co-scientist स्तर की acceleration क्षमता दिखाता है
  • आंतरिक संस्करण GPT-5.5 और custom harness का उपयोग Ramsey numbers पर नया proof खोजने में भी किया गया
    • नए proof का लिंक
    • combinatorics में लंबे समय से लंबित off-diagonal Ramsey numbers के asymptotic fact पर proof खोजा गया, जिसे बाद में Lean से verify किया गया
    • इसने सिर्फ code या explanation से आगे बढ़कर मूल शोध क्षेत्रों में उपयोगी गणितीय तर्क में भी योगदान दिया
  • शुरुआती testers ने GPT-5.5 Pro को एक-बारगी जवाब देने वाले इंजन से अधिक एक research partner की तरह इस्तेमाल किया
    • इसने drafts की कई बार आलोचनात्मक समीक्षा की, technical arguments का stress test किया, analysis सुझाए, और code, notes, PDF context के साथ काम किया
    • यह सवाल से experiment और फिर deliverables तक जाने वाले प्रवाह में बेहतर मदद करता है

शोध उदाहरण

  • Jackson Laboratory for Genomic Medicine के Derya Unutmaz ने GPT-5.5 Pro से 62 samples और लगभग 28,000 genes वाले gene-expression dataset का विश्लेषण किया
    • इसने एक विस्तृत research report तैयार की, जिसमें सिर्फ results summary ही नहीं बल्कि मुख्य प्रश्न और insights भी सामने आए
    • यह काम उनकी टीम करती तो इसमें कई महीने लगते
  • Adam Mickiewicz University के Bartosz Naskręcki ने Codex की मदद से एक ही prompt से 11 मिनट में algebraic-geometry app बना लिया
    • इसने दो quadratic surfaces के intersection को visualize किया और result curve को Weierstrass model में बदला
    • बाद में इसने singularity visualization को अधिक स्थिर बनाया और आगे के काम में पुन: उपयोग योग्य exact coefficients भी जोड़े
    • Codex ने उन custom math visualization और computer-algebra workflows के implementation में भी मदद की, जिनके लिए आमतौर पर dedicated tools की ज़रूरत होती थी
  • Credit: Bartosz Naskręcki
  • Axiom Bio के Brandon White के उद्धरण में कहा गया है कि यह विशाल biochemical datasets पर reasoning करके human drug outcomes की भविष्यवाणी करता है, और सबसे कठिन drug discovery evaluations में सार्थक accuracy improvement दिखाता है

inference infrastructure और performance optimization

  • GPT-5.4 जैसी latency के साथ GPT-5.5 को सेवा में लाने के लिए inference को अलग-अलग optimizations के समूह के रूप में नहीं, बल्कि एक integrated system के रूप में फिर से डिज़ाइन करना पड़ा
    • GPT-5.5 को NVIDIA GB200 और GB300 NVL72 systems को ध्यान में रखकर co-design, training और serving के साथ विकसित किया गया
  • Codex और GPT-5.5 ने प्रदर्शन लक्ष्य हासिल करने में सीधा योगदान दिया
    • Codex का उपयोग ideas को जल्दी benchmarkable implementations में बदलने, approaches का sketch बनाने, experiments को जोड़ने, और उन optimizations को खोजने में किया गया जिनमें गहरे निवेश की ज़रूरत थी
    • GPT-5.5 ने stack के अंदर मुख्य सुधार बिंदुओं की पहचान कर उन्हें लागू करने में मदद की
    • अंततः मॉडल ने खुद को serve करने वाली infrastructure को बेहतर बनाने में भी योगदान दिया
  • प्रमुख सुधार उदाहरण के रूप में load balancing और partitioning heuristics पेश किए गए
    • पहले accelerator पर आने वाले requests को fixed संख्या के chunks में बाँटा जाता था, ताकि बड़े और छोटे requests एक ही GPU पर चलें
    • लेकिन static chunk count हर तरह के traffic pattern के लिए optimal नहीं था
    • Codex ने कई हफ्तों के production traffic patterns का विश्लेषण किया और tasks को optimal तरीके से विभाजित व संतुलित करने के लिए custom heuristic algorithm लिखा
    • इस काम से token generation speed में 20% से अधिक बढ़ोतरी हुई

साइबर सुरक्षा और safeguards

  • ऐसे मॉडल को दुनिया के लिए तैयार करना जो vulnerability detection और patching में सक्षम हो, लगभग एक team sport जैसा है, और अगली साइबर defense की era के लिए पूरे ecosystem की resilience ज़रूरी है
  • frontier models की cybersecurity capability लगातार मजबूत हो रही है, और चूँकि यह क्षमता व्यापक रूप से फैलेगी, इसलिए इसे साइबर defense को तेज़ करने और ecosystem को मजबूत बनाने में इस्तेमाल करने का रास्ता महत्वपूर्ण हो गया है
  • GPT-5.5 को cybersecurity जैसी कठिन समस्याएँ हल करने वाले AI की दिशा में एक क्रमिक लेकिन महत्वपूर्ण कदम के रूप में रखा गया है
    • GPT-5.2 के समय संभावित cyber दुरुपयोग को सीमित करने वाले cyber safeguards को पहले से लागू किया गया था
    • GPT-5.5 में संभावित cyber risk के लिए और अधिक सख्त classifier लगाए गए हैं, और शुरुआत में यह कुछ उपयोगकर्ताओं को असुविधाजनक लग सकता है
  • OpenAI कई वर्षों से Preparedness Framework के भीतर cybersecurity को एक अलग category के रूप में संभालता आया है, और capability में सुधार के साथ mitigation उपायों को भी बार-बार समायोजित करता रहा है
  • इस स्तर की cyber capability के अनुरूप industry-leading safeguards लागू किए गए हैं
    • GPT-5.2 में पहली बार cyber-specific safeguard पेश किए गए थे और उसके बाद हर deployment में इन्हें test, refine और expand किया गया है
    • GPT-5.5 में high-risk activities, sensitive cyber requests और बार-बार होने वाले misuse के खिलाफ सुरक्षा को और मजबूत किया गया है
    • व्यापक access मॉडल safety, verified usage और unauthorized usage monitoring में किए गए निवेश की वजह से संभव हो पाया है
    • बाहरी विशेषज्ञों के साथ कई महीनों तक robustness को विकसित, test और improve किया गया
    • डेवलपर्स के लिए code को आसानी से सुरक्षित रखना संभव बनाया गया है, वहीं ऐसे cyber workflows पर अधिक मजबूत control रखा गया है जहाँ malicious actors के लिए नुकसान पहुँचाना आसान हो सकता है
  • defense-focused access expansion भी साथ में आगे बढ़ाई जा रही है
    • Trusted Access for Cyber के जरिए cyber-permissive model access दिया जा रहा है, और इसकी शुरुआत Codex से हो रही है
    • जो verified users कुछ trust signals पूरा करते हैं, उन्हें GPT-5.5 की advanced cybersecurity features कम restrictions के साथ दी जाती हैं
    • जो संगठन critical infrastructure defense की ज़िम्मेदारी संभालते हैं, वे GPT-5.4-Cyber जैसे cyber-permissive model access के लिए आवेदन कर सकते हैं
    • उद्देश्य verified defenders को वैध security work के लिए tools कम friction के साथ उपलब्ध कराना है
    • आवेदन लिंक: chatgpt.com/cyber
  • इसमें सरकारी साझेदारों के साथ सहयोग भी शामिल है
    • टैक्स डेटा की सुरक्षा के लिए digital systems, power grid, और स्थानीय समुदायों की पेयजल व्यवस्था जैसी critical infrastructure की रक्षा करने वाले public officials को advanced AI कैसे support कर सकता है, इस पर साथ मिलकर काम किया जा रहा है
  • GPT-5.5 की biological/chemical और cybersecurity capability को Preparedness Framework में High के रूप में वर्गीकृत किया गया है
    • यह अभी Critical स्तर की cybersecurity capability तक नहीं पहुँचा है, लेकिन evaluation और testing में GPT-5.4 की तुलना में एक स्तर ऊँची cyber capability की पुष्टि हुई है
  • रिलीज़ से पहले पूरी safety and governance process से गुज़रा गया
    • इसमें preparedness evaluation, domain-specific testing, advanced biology और cybersecurity के लिए नए targeted evaluations, और बाहरी विशेषज्ञों के साथ robust testing शामिल है
    • अधिक जानकारी GPT-5.5 system card में दी गई है
  • यह approach अधिक शक्तिशाली मॉडल के युग के लिए ज़रूरी AI resilience strategy का हिस्सा है
    • शक्तिशाली AI उन लोगों तक भी पहुँचना चाहिए जो systems, institutions और public की रक्षा करते हैं, और trust-based access, capability के अनुपात में सख्त होते safeguards, तथा गंभीर misuse का पता लगाने और उस पर प्रतिक्रिया देने की operational capability को मुख्य रास्ते के रूप में प्रस्तुत किया गया है

उपलब्ध प्लान और कीमत

  • फिलहाल ChatGPT और Codex में GPT-5.5 को Plus, Pro, Business, Enterprise users के लिए रोल आउट किया जा रहा है, और GPT-5.5 Pro, ChatGPT के Pro, Business, Enterprise में उपलब्ध है
  • ChatGPT में GPT-5.5 Thinking Plus, Pro, Business, Enterprise के लिए उपलब्ध है
    • GPT-5.5 Pro अधिक कठिन सवालों और अधिक उच्च सटीकता को लक्ष्य करता है, और Pro, Business, Enterprise में इस्तेमाल किया जा सकता है
  • Codex में GPT-5.5 Plus, Pro, Business, Enterprise, Edu, Go plans पर उपलब्ध है, और इसमें 400K context window है
    • Fast mode भी उपलब्ध है, जिसमें token generation speed 1.5 गुना तेज़ है और लागत 2.5 गुना है
  • API developers के लिए gpt-5.5 जल्द ही Responses API और Chat Completions API में उपलब्ध होगा
    • कीमत input के लिए प्रति 1M tokens 5 डॉलर, output के लिए प्रति 1M tokens 30 डॉलर है, और 1M context window दिया गया है
    • Batch और Flex pricing मानक API शुल्क की आधी है, और Priority processing 2.5 गुना शुल्क पर उपलब्ध होगी
  • gpt-5.5-pro भी API में लॉन्च किया जाएगा, जिसका लक्ष्य अधिक उच्च सटीकता है
    • इसकी कीमत input के लिए प्रति 1M tokens 30 डॉलर और output के लिए प्रति 1M tokens 180 डॉलर बताई गई है
    • पूरी pricing जानकारी pricing page से जुड़ी है
  • GPT-5.5 की कीमत GPT-5.4 से अधिक है, लेकिन इसकी intelligence और token efficiency भी अधिक है
    • Codex में अधिकांश users के लिए अनुभव को इस तरह adjust किया गया है कि GPT-5.4 की तुलना में कम tokens में बेहतर परिणाम मिलें
    • subscription tiers के पूरे दायरे में उदार usage limits जारी रखी जाएँगी

विस्तृत बेंचमार्क

  • Coding

    • SWE-Bench Pro (Public) में GPT-5.5 58.6% है, GPT-5.4 57.7%, Claude Opus 4.7 64.3%, और Gemini 3.1 Pro 54.2% है
    • Terminal-Bench 2.0 में GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, और Gemini 3.1 Pro 68.5% है
    • Expert-SWE (Internal) में GPT-5.5 73.1% और GPT-5.4 68.5% बताया गया है
  • पेशेवर कार्य

    • GDPval (wins or ties) में GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, और Gemini 3.1 Pro 67.3% है
    • FinanceAgent v1.1 में GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, और Gemini 3.1 Pro 59.7% है
    • Investment Banking Modeling Tasks (Internal) में GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, और GPT-5.4 Pro 83.6% है
    • OfficeQA Pro में GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, और Gemini 3.1 Pro 18.1% है
  • कंप्यूटर उपयोग और विज़न

    • OSWorld-Verified में GPT-5.5 78.7%, GPT-5.4 75.0%, और Claude Opus 4.7 78.0% है
    • MMMU Pro (no tools) में GPT-5.5 और GPT-5.4 दोनों 81.2% पर समान हैं, जबकि Gemini 3.1 Pro 80.5% है
    • MMMU Pro (with tools) में GPT-5.5 83.2% और GPT-5.4 82.1% है
  • टूल उपयोग

    • BrowseComp में GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, और Gemini 3.1 Pro 85.9% है
    • MCP Atlas में GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, और Gemini 3.1 Pro 78.2% है
    • Toolathlon में GPT-5.5 55.6%, GPT-5.4 54.6%, और Gemini 3.1 Pro 48.8% है
    • Tau2-bench Telecom में मूल prompt के आधार पर GPT-5.5 98.0% और GPT-5.4 92.8% है
    • MCP Atlas के नोट में लिखा है कि यह Scale AI के अप्रैल 2026 के नवीनतम अपडेट के बाद का परिणाम है
    • Tau2-bench Telecom के नोट में स्पष्ट किया गया है कि यह मूल्यांकन बिना prompt adjustment के किया गया था, और अन्य शोध संस्थानों के prompt adjustment वाले परिणाम इसमें शामिल नहीं किए गए
  • अकादमिक

    • GeneBench में GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, और GPT-5.4 Pro 25.6% है
    • FrontierMath Tier 1–3 में GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, और Gemini 3.1 Pro 36.9% है
    • FrontierMath Tier 4 में GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, और Gemini 3.1 Pro 16.7% है
    • BixBench में GPT-5.5 80.5% और GPT-5.4 74.0% है
    • GPQA Diamond में GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, और Gemini 3.1 Pro 94.3% है
    • Humanity's Last Exam (no tools) में GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, और Gemini 3.1 Pro 44.4% है
    • Humanity's Last Exam (with tools) में GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, और Gemini 3.1 Pro 51.4% है
  • साइबर सुरक्षा

    • Capture-the-Flags challenge tasks (Internal) में GPT-5.5 88.1% और GPT-5.4 83.7% है
    • CyberGym में GPT-5.5 81.8%, GPT-5.4 79.0%, और Claude Opus 4.7 73.1% है
    • नोट में लिखा है कि यह system card में दिए गए सबसे कठिन CTF को विस्तारित करके और अतिरिक्त उच्च-कठिनाई चुनौतियाँ जोड़कर प्राप्त परिणाम है
  • लंबा context

    • Graphwalks BFS 256k f1 में GPT-5.5 73.7%, GPT-5.4 62.5%, और Claude Opus 4.7 76.9% है
    • Graphwalks BFS 1mil f1 में GPT-5.5 45.4%, GPT-5.4 9.4%, और Claude Opus 4.6 41.2% है
    • Graphwalks parents 256k f1 में GPT-5.5 90.1%, GPT-5.4 82.8%, और Claude Opus 4.7 93.6% है
    • Graphwalks parents 1mil f1 में GPT-5.5 58.5%, GPT-5.4 44.4%, और Claude Opus 4.6 72.0% है
    • OpenAI MRCR v2 8-needle को context length के अनुसार प्रस्तुत किया गया है: 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
    • इसी आइटम में GPT-5.4 क्रमशः 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, और 36.6% है
    • 128K-256K खंड में Claude Opus 4.7 59.2% और 512K-1M खंड में Claude Opus 4.7 32.2% दर्ज है
  • अमूर्त तर्क

    • ARC-AGI-1 (Verified) में GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, और Gemini 3.1 Pro 98.0% है
    • ARC-AGI-2 (Verified) में GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, और Gemini 3.1 Pro 77.1% है
    • GPT श्रृंखला का मूल्यांकन उस शोध वातावरण में किया गया था जहाँ reasoning effort को xhigh पर सेट किया गया था, और यह भी उल्लेख है कि कुछ मामलों में production environment ChatGPT से आउटपुट थोड़ा अलग हो सकता है

1 टिप्पणियां

 
GN⁺ 6 일 전
Hacker News की राय
  • NVIDIA में GPT-5.5 की access खो देना ऐसा महसूस होता है जैसे हाथ-पैर खो दिए हों — यह बात इरादे से कहीं ज़्यादा डरावनी लगती है
    लगता है यह बात पूरे frontier coding model dependence पर लागू होती है, और performance जितनी बेहतर होती है, coding करते समय उतनी जल्दी उन पर निर्भरता बन जाती है
    खुद अनुभव करने पर यह काफ़ी असहज भाव देता है। अब धैर्य रखकर हाथ से कोड लिखने के बजाय model से एक ही बार में काम कराना लगभग 10 गुना तेज़ है, और मेरी भूमिका भी बदल गई है
    बहुत कुछ चलवा पाना शानदार है, लेकिन token ख़त्म होते ही असल में काम भी रुक जाता है
    जब Claude बंद पड़ा था, तब ज़बरदस्ती कोड लिखने से बेहतर leverage टहलकर लौटने में मिला। अगर एक घंटे बाद Claude वापस आ जाए, तो LLM के बनाए कोड से जूझते हुए हाथ से समस्या सुलझाने की कोशिश में थकने से ज़्यादा प्रगति हो जाती है
    कुल मिलाकर यह स्थिति लगातार थोड़ी अस्थिर लगती है

    • लगता है labour theory ही LLM की वजह से उलट रही है
      अभी का बाज़ार इस धारणा पर खड़ा है कि labour बिखरा हुआ है और उसकी bargaining power कमज़ोर है, इसलिए capital कहीं ज़्यादा bargaining power रखकर labour की कीमत लगभग तय करता आया है
      लेकिन अगर वही labour किसी और, उससे भी बड़ी कंपनी द्वारा उपलब्ध कराया जाए, और वह labour पारंपरिक labour की तरह नहीं बल्कि अनिश्चितकाल के लिए supply बंद भी कर सके, तो क्या होगा
      अब labour भी एक और तरह का capital बन गया है, और capital को खाना नहीं चाहिए
      जो कंपनियाँ अपने model नहीं चलातीं, वे शायद इसका नतीजा अपने ऊपर झेलकर सीखेंगी
    • इसे library abstraction इस्तेमाल करने से बहुत अलग भी नहीं माना जा सकता
      चीज़ें तेज़ी से बनती हैं, खुद लिखा जाने वाला code कम हो जाता है, और internal state management या memory management library संभाल लेती है
      pointer और malloc() को सीधे छूने के बजाय library calls पर निर्भर होना कुछ लोगों को असहज लग सकता है, लेकिन कुछ लोगों के लिए यह राहत है कि वे low-level context switching में फँसे बिना higher-level architecture पर ध्यान दे सकते हैं
    • अपनी ही क़ब्र बहुत जल्दी न खोदने के लिए मैं जान-बूझकर एक तरीका अपनाता हूँ
      तैयार जवाब पहले से देने के बजाय मैं अक्सर standalone CLI या tools बनाने को कहता हूँ
      मैं यह भी पूछता हूँ कि वह ऐसे निष्कर्ष तक कैसे पहुँचा, ताकि मेरा नज़रिया फैले, और उससे उसके metadata-level classification तरीक़े भी समझाने को कहता हूँ
      खासकर बड़े codebase में, जहाँ मुश्किल का कारण concept से ज़्यादा reference graph का आकार होता है, मैं इसे अपनी problem-solving क्षमता सुधारने की दिशा में इस्तेमाल करना चाहता हूँ
    • अगर local models और नए hosted models के बीच सिर्फ़ एक ठीक-ठाक gap बना रहे — जैसे वे 12 महीने पीछे हों — और local hardware भी उपलब्ध रहे, तो ख़तरा सीमित हो सकता है
      क्योंकि hosted model ग़ायब हो जाएँ या बहुत महँगे हो जाएँ, तब भी बस वही थोड़ा performance gap खोएँगे
      बेशक ये दोनों धारणाएँ बिल्कुल self-evident नहीं हैं, इसलिए बस उम्मीद ही की जा सकती है
    • NVIDIA और OpenAI के stock price incentives देखें तो ऐसी बात आना अजीब नहीं है
      और अब भी 10x productivity वाला नारा दोहराया जा रहा है, यह सच कहूँ तो मानना मुश्किल है
  • GPT-5.5 launch आज है, लेकिन ChatGPT और Codex में इसका rollout कुछ घंटों में धीरे-धीरे होगा
    service stability के लिए इसे पिछले launches की तरह phased तरीके से खोला जा रहा है, आम तौर पर Pro/Enterprise से शुरू होकर Plus तक आता है
    हो सकता है यह अभी तुरंत न दिखे, इसलिए बाद में फिर से चेक करने को कहा गया है
    यूँ randomly इंतज़ार करना चिढ़ा सकता है, लेकिन stability के लिए ऐसा किया जा रहा है
    लिखने वाले ने बताया कि वह OpenAI में काम करता है

    • मैंने GPT-5.4 API xhigh पर OpenClaw चलाया, लेकिन model से काम ही नहीं करवाया जा सका
      Anthropic OAuthgate के बाद इसे broadly alternative की तरह इस्तेमाल करना चाहा, लेकिन यह तेज़, सुरक्षित और harmless छोटे subtasks भी पूरे नहीं कर पाया
      बातचीत बस “मुझे यहाँ X करना चाहिए था” “सही है, मैं fail हो गया” “तो अब करो” “करना चाहिए था, लेकिन नहीं किया” जैसी अंतहीन माफ़ियों में फँसी रही
      बाद में GLM, Kimi, Minimax ने वही काम बिना समस्या कर लिया, तो यह और भी बेतुका लगा, और इसलिए OpenAI को तुरंत छोड़ना पड़ा
    • अगर public rollout dashboard हो तो काफ़ी कम confusion होगा
      इससे भी अच्छा होगा अगर UI में दिखे कि model मौजूद है लेकिन अभी मेरे account के लिए enable नहीं हुआ है
      ETA तक दिख जाए तो सबसे अच्छा, हालाँकि rollout के दौरान issues आ सकते हैं इसलिए prediction मुश्किल होगी
    • launch की बधाई
      जानना चाहता हूँ कि Images 2.0 भी ChatGPT में साथ ही खुल रहा है, या कुछ समय तक API/Playground-only feature रहेगा
    • Plus user के नज़रिए से Codex usage limit कितना खा जाएगा, यह न पता होने से हाथ डालने में हिचक होती है
    • जानना चाहता हूँ कि GPT-5.5 fine-tuning भी जल्द आ रही है या नहीं
  • अभी official API access नहीं है, लेकिन आजकल OpenAI OpenClaw द्वारा इस्तेमाल किए जा रहे Codex API backdoor को practically tolerate करता दिख रहा है
    https://twitter.com/steipete/status/2046775849769148838 और https://twitter.com/romainhuet/status/2038699202834841962
    उस backdoor API में GPT-5.5 भी शामिल है
    इसलिए मैंने pelican example चलाया, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    और LLM के लिए नया plugin https://github.com/simonw/llm-openai-via-codex इस्तेमाल किया
    later reasoning effort को xhigh करने पर कहीं बेहतर pelican मिला
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • कल पोस्ट किया गया local model pelican इससे ज़्यादा अच्छा दिखता था
      फिर भी यह पैरों को क्रॉस करके बैठा है, इसलिए थोड़ा मज़ेदार है
    • यह सच कहूँ तो बहुत ख़राब है
      version 5.5 तक आ गया और अब भी एक basic bicycle frame ठीक से नहीं बना पाता, तो फिर क्या फ़ायदा
      सामने का पहिया साइड में मुड़ने वाली संरचना ही नहीं है, लेकिन चित्र वह भी सही नहीं पकड़ पाया
    • default setting में सिर्फ़ 39 reasoning tokens इस्तेमाल करके इस स्तर तक पहुँचना काफ़ी चौंकाने वाला है
      reasoning token असल में क्या है यह तो नहीं जानता, लेकिन token count हैरतअंगेज़ रूप से कम लगता है
    • जानना चाहता हूँ कि ऐसा direct API usage terms के हिसाब से allowed है या नहीं
      याद है Anthropic को इस तरह का इस्तेमाल बिल्कुल पसंद नहीं था
    • समझ नहीं आता कि हाल में पोस्ट की गई दूसरी चीज़ों की तुलना में यह इतना खराब क्यों बनाता है
      कल पोस्ट किए गए Qwen जैसे open-weight local models भी इससे बेहतर लग रहे थे
  • सब लोग Anthropic की Mythos gating और CyberGym 83% marketing की बात कर रहे थे, लेकिन OpenAI ने GPT-5.5 बस जारी कर दिया और उसका score 82% है
    यह कहीं ज़्यादा महत्वपूर्ण है कि कोई भी इसे आज़मा सकता है
    अगर आप attack/defense cybersecurity में हैं, तो बढ़ा-चढ़ाकर किए गए प्रचार से ज़्यादा सही यही है कि ऐसे publicly released model को खुद छूकर देखें
    सोचा नहीं था कि मैं यह कहूँगा, लेकिन अब OpenAI फिर से ज़्यादा open विकल्प जैसा लग रहा है

    • असली hype यह था कि Anthropic ने Mythos की घोषणा करते ही सबको समझ आ गया कि OpenAI कुछ ही हफ्तों में उसका competing model ला देगा, और Sam access भी block नहीं करेगा
      इसलिए security industry में डर इसलिए फैला कि नए zero-day को रोकने के लिए असल में शायद सिर्फ़ दो हफ्ते जैसे थोड़ा समय बचा है, और उसके बाद blackhats बड़े पैमाने पर उन्हें ढूँढ़कर exploit करने का open season शुरू कर सकते हैं
    • Anthropic की तुलना में OpenAI शुरू से ही ज़्यादा open रहा है
      Anthropic ने कभी public model जारी नहीं किया, Claude Code source भी स्वेच्छा से public नहीं किया, और tokenizer भी रिलीज़ नहीं किया
    • क्या OpenAI cybersecurity questions पूछने पर नाराज़ नहीं हो जाता, government ID upload नहीं माँगता, और अगर आप न करें तो चुपचाप कमज़ोर model पर route नहीं कर देता?
      docs में भी लिखा है कि cybersecurity-संबंधित काम अगर automatic detection में आ जाए तो GPT-5.2 fallback हो सकता है
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • मैं hype news पूरी तरह नज़रअंदाज़ करता हूँ
      Anthropic मुझे लगभग शेख़ी का साकार रूप लगता है
      Cialdini पढ़ने के बाद से Anthropic-स्टाइल का नाटकीय प्रदर्शन उबाऊ लगने लगा
      दूसरी तरफ़ OpenAI बहुत चतुर है। Claude के उभरने पर वह कुछ समय headlines से ग़ायब रहा, लेकिन अब उसके विशाल user base की वजह से Anthropic की release cycle के पीछे-पीछे चलना ही सामने वाले को मामूली दिखाने के लिए काफ़ी है
      Anthropic के लिए हर नया GPT version आते ही हाल और बुरा होता जाएगा, और तस्वीर ऐसी लगती है जैसे OpenAI पूरी तरह क़ब्ज़ा कर लेगा
    • मुझे भी लगता है OpenAI cyber questions को किसी और ज़्यादा मूर्ख model की तरफ़ मोड़ देता है
  • मैं चाहता हूँ लोग इस पेज के pricing/usage limits सेक्शन को देखें
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    5.3, 5.4 और 5.5 के बीच Local Messages का अंतर देखिए
    मैंने यह दावा पढ़ा है कि 5.5 ज़्यादा efficient है इसलिए 5.4 के साथ इसका breakeven मिलता-जुलता है, लेकिन किसी भी तरह limits और सख़्त होती दिख रही हैं और कीमतें ऊपर जा रही हैं

    • API के हिसाब से GPT-5.5 की कीमत GPT-5.4 की 2 गुना, GPT-5.1 की लगभग 4 गुना, और Kimi-2.6 की लगभग 10 गुना है
      Anthropic के मामले से शायद यह सबक मिला कि developers coding agents पर बहुत जल्दी निर्भर, यहाँ तक कि addicted हो जाते हैं, इसलिए मामूली सुधार के लिए भी वे आराम से पैसे देंगे
  • Codex और GPT से बना 3D dungeon arena prototype काफ़ी भरोसेमंद लग रहा है
    बताया गया कि Codex ने game architecture, TypeScript/Three.js implementation, combat system, enemy encounters, और HUD feedback संभाला, environment textures GPT ने generate किए, और character models व animations third-party asset generation tools से बने
    visual quality ठीक लगने का कारण शायद यह भी है कि meshes GPT-5.5 ने सीधे नहीं बनाए, बल्कि किसी अलग tool ने बनाए
    इसे देखकर लगता है कि पुराने Flash era की तरह फिर ऐसा समय आ सकता है जब gamers और hobby developers जल्दी से game concepts बनाकर सीधे web पर publish कर दें
    खासकर Three.js, जो game engine भी नहीं है, AI से game design करने में लगभग core tool की तरह उभरता दिख रहा है

    • पिछले 3 सालों में Three.js और AI के साथ लगातार प्रयोग किया है, और 5.4 में मुझे खास बड़ी छलांग महसूस हुई
      सिर्फ़ Three.js के संदर्भ में देखें तो यह सबसे बड़ा single-generation jump था, खासकर GLSL shaders में, और कई pages/components में बँटी scene structuring भी बेहतर हुई
      शुरू से पूरा shader बनाना अभी भी मुश्किल है, लेकिन existing shaders को modify करने की क्षमता अब काफ़ी काम की हो गई है
      5.2 या उससे नीचे के models एक background canvas को कई routes में बनाए रखने वाले one canvas, multiple page pattern में बहुत खराब थे, लेकिन 5.4 को अभी भी थोड़ा हाथ पकड़ाना पड़ता है फिर भी वह refactoring और optimization prompts पर कहीं बेहतर प्रतिक्रिया देता है
      5.5 असल में कैसा है, यह आज़माने को लेकर उत्साहित हूँ
    • Flash जैसा दौर तो काफ़ी समय से आ चुका है, bottleneck हमेशा creativity ही रही है
    • Three.js-based games और projects में मैंने LLM से काफ़ी मदद ली है और नतीजे अच्छे रहे
      मेरे बनाए अजीब-से clock visualization भी काफी हद तक इसी पर निर्भर थे
      यह game engine नहीं है, लेकिन web पर WebGL 3D के लिए यह practically standard है, और पुराना होने की वजह से training data भी बहुत है
      LLM से पहले मैं थोड़े higher-level features वाले Babylon.js पर ज़्यादा निर्भर रहता था
    • मेरा एक परिचित Jamboree बना रहा है
      उसका पुराना नाम Spielwerk था, और यह iOS पर games बनाने और share करने वाली app है
      सब कुछ web-based है, इसलिए sharing आसान है
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM अब भी spatial reasoning नहीं कर पाते
      मैंने GPT के साथ नहीं आज़माया, लेकिन Claude के साथ चाहे जितनी prompt engineering कर लो, वह Rubik's Cube नहीं सुलझा पाया, और Opus 4.6 भी puzzle का लगभग 70% ही सही कर पाया फिर अटक गया
      एक कोशिश पर 20 डॉलर लगते हैं, इसलिए लागत भी संभालना मुश्किल है
      अगर 3D reasoning को सच में कामयाब बनाया जा सके, तो शायद यही तरीका उन math problems तक भी बढ़ाया जा सकेगा जो अभी हल नहीं हो रहीं
      सोच रहा हूँ कि अपना Rubik's Cube MCP server public कर दूँ ताकि लोग challenge करें कि क्या सिर्फ़ prompting से cube solve किया जा सकता है
  • इस announcement में benchmark से भी ज़्यादा दिलचस्प बात यह लगी कि Codex ने कई हफ्तों के real traffic patterns का विश्लेषण करके GPU utilization बढ़ाया, और task splitting व balancing के लिए custom heuristic algorithms लिखकर token generation speed को 20% से ज़्यादा बढ़ा दिया
    agentic LLM जिस तरह compute efficiency optimization कर सकते हैं, वह बहुत असरदार क्षेत्र है, लेकिन लगता है benchmarks की तुलना में उसकी कम जाँच होती है
    मेरे अनुभव में इस हिस्से में अभी भी Opus, GPT/Codex से बेहतर है, लेकिन OpenAI cost और capacity pressure के बीच इस तरह के performance maximization से असली फ़ायदा देख रहा है, इसलिए आगे भी इसी दिशा में ज़ोर देगा

    • Rust में high-performance data processing करते हुए मैं ऐसे performance wall से टकराया जहाँ 100x से अधिक सुधार चाहिए था
      मुझे पुराने मशहूर Intel FizzBuzz code golf optimization की याद आई, तो मैंने gemini pro को अपना code देकर कहा, “वैसी तरह की कोई चतुर optimization सुझाओ,” और उसके सुझाव सच में शानदार थे
      LLM हर दिन चौंकाते रहते हैं
    • KernelBench पहले से CUDA kernel optimization को test कर रहा है
      और हर कंपनी जानती है कि अपने infrastructure और model optimization में जीतना competition का core path है, इसलिए मुझे यक़ीन है कि वे इसे बहुत गंभीरता से ले रहे होंगे
    • ऐसी बातें बहुत ज़्यादा empirical हैं, इसलिए इन्हें reproduce करना मुश्किल होता है
      MMLU जैसे पारंपरिक benchmarks से आगे बढ़ना अच्छी बात है, लेकिन proper controlled experiments के बिना इस तरह के numbers ज़्यादा मददगार नहीं हैं
  • अगर Mythos vs GPT-5.5 को numbers में देखें, तो SWE-bench Pro में अंतर अभी भी बड़ा है, लेकिन बाकी जगहों पर वे काफ़ी मिलते-जुलते लगते हैं
    SWE-bench Pro 77.8% बनाम 58.6%
    Terminal-bench-2.0 82.0% बनाम 82.7%
    GPQA Diamond 94.6% बनाम 93.6%
    H. Last Exam 56.8% बनाम 41.4%
    H. Last Exam (tools) 64.7% बनाम 52.2%
    BrowseComp 86.9% बनाम 84.4%, Pro में 90.1%
    OSWorld-Verified 79.6% बनाम 78.7%
    Mythos numbers का source https://www.anthropic.com/glasswing है

    • Mythos की अहमियत तभी है जब उसे असल में इस्तेमाल किया जा सके
      अभी Opus 4.7 इस्तेमाल करें तो autonomy महसूस करने लायक़ बहुत nerf हुई लगती है, और तथाकथित safety के कारण constraints भी काफ़ी कड़े हैं
      इसलिए Anthropic जितना advertise कर रहा है, उतना यह वास्तव में शानदार होगा या नहीं, इस पर मुझे भरोसा नहीं होता
    • Anthropic की release page के मुताबिक़ SWE-bench memorization को Claude team ने confirm किया, और test वास्तव में training data में शामिल था
      यहाँ है
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • मैंने SWE-bench Verified को थोड़ा देखा, और Mythos के numbers कई सवाल छोड़ते हैं
      official submissions को https://github.com/SWE-bench/experiments/tree/main/evaluatio... से Sonnet 4 के बाद वाले models तक फ़िल्टर करके पूरे 500 problems पर जोड़ने पर, सभी models की combined solve rate ठीक 93% निकली
      लेकिन Mythos का 93.7% का मतलब होगा कि उसने ऐसे problems भी solve किए जिन्हें कोई और model नहीं कर पाया, और जब मैंने उन problems को खुद देखा तो मामला और संदिग्ध लगा
      बाकी बचे 7% problems ऐसे दिखे जिन्हें test patch पहले से देखे बिना solve करना लगभग असंभव था, और असली solution problem statement से इतना अलग दिशा में जाता था कि लगता था जैसे कोई पूरी तरह दूसरी समस्या सुलझाई जा रही हो
      मैं यह नहीं कह रहा कि Mythos ने cheating की, लेकिन हो सकता है उसने repository की कई states को इतना अच्छे से याद रखा हो कि internal memory में मौजूद diff के आधार पर असल problem statement का reverse inference कर लेता हो
      वरना इतनी अस्पष्ट problem descriptions को इतने सटीक तरीके से समझाना मुश्किल है
    • single benchmark से कुछ साबित नहीं होता
      हर benchmark में अजीब outlier results निकलते ही रहते हैं
  • अफ़सोस है कि इसमें अब भी hallucination rate 86% है
    तुलना करें तो Opus लगभग 36% पर है
    source है https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok 17% पर है और वही सबसे कम है, जबकि ज़्यादातर models 80% से ऊपर हैं — यह अजीब लगता है
      कुछ सवालों में hallucination दर तो उल्टा 100% के और क़रीब महसूस होती है, इसलिए यह benchmark सहज रूप से भरोसेमंद नहीं लगता
    • कुछ तो गड़बड़ है, Haiku इतना अच्छा निकले यह मानना मुश्किल है
    • यह तो ऐसा signal लगता है जैसे कंपनियाँ ऐसा व्यवहार चाहती हैं
      सवाल पूछने वाला शायद समस्या को पूरी तरह समझता ही नहीं, इसलिए नतीजा कुछ भी हो वह आत्मविश्वास से भरा जवाब पसंद करता दिखता है
      ऐसा लगता है कि लक्ष्य तकनीक की असली क्षमता से ज़्यादा काबिल दिखने का impression बेचना है
      LLM products को बर्बाद भी कर सकते हैं, लेकिन अगर बात यह हो कि किसी अरबपति की सोचने वाली मशीन कर्मचारी की जगह ले सकती है, इसलिए labour budget का 75% उस पर उड़ेल दो, तो फिर ठगे जाने का आनंद ही लो
  • कहा जा रहा है कि यह model long-running tasks में बहुत मज़बूत है, और Codex में अब heartbeats भी हैं ताकि लगातार status check किया जा सके
    अगर आप इसे ऐसे कठिन problems दें जिनमें verifiable constraints हों और जिन्हें पूरा होने में कई घंटे लगें, तब इसकी गुणवत्ता समझ आएगी
    लिखने वाले ने बताया कि वह OpenAI में काम करता है

    • feature अच्छा लगता है और मैं इसे जल्दी test करना चाहता हूँ
      आजकल दूसरे models, खासकर Opus, काम के बीच में बार-बार रुक जाते हैं और उससे थक चुका हूँ
    • Canva internal evaluation में GPT-5.5 ने कई long-running frontier challenges हल किए, और कई मामलों में वह पहला AI model था जिसे हमने ऐसा करते देखा
      launch की बधाई
    • heartbeats से ठीक-ठीक मतलब क्या है, इसकी व्याख्या चाहिए