5 पॉइंट द्वारा GN⁺ 4 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5.5 को Chat Completions API और Responses API में लॉन्च किया गया है, और अधिक compute से लाभ पाने वाली कठिन समस्याओं के लिए GPT-5.5 pro को भी Responses API requests में जोड़ा गया है
  • GPT-5.5 10 लाख token context window, image input, structured output, function calling, prompt caching, Batch, tool search, built-in computer use, hosted shell, apply patch, Skills, MCP, web search को support करता है
  • डिफ़ॉल्ट reasoning effort value medium पर सेट की गई है, और जब image_detail unset हो या auto पर हो, तब मौजूदा behavior बनाए रखा जाता है
  • GPT-5.5 की caching केवल extended prompt caching में काम करती है और in-memory prompt caching को support नहीं करती: behavioral changes
  • 21 अप्रैल के बदलाव
    • GPT Image 2 को image generation और editing के लिए नवीनतम image generation model के रूप में लॉन्च किया गया
    • GPT Image 2 में flexible image sizes, high-fidelity image input, token-based image billing, और 50% discount वाले Batch API support शामिल हैं

2 टिप्पणियां

 
ragingwind 4 일 전

अब 5.4 से pro के लिए Chat Completions API अब उपलब्ध नहीं है।

 
GN⁺ 4 일 전
Hacker News की राय
  • प्रोडक्शन issue की वजह से मैंने इसे तुरंत आज़माया, और Claude ऐसा नहीं करता था लेकिन GPT-5.5 ने किया
    troubleshooting के बाद इसने update statement लिखवाया, और जब मैंने कहा, "ठीक है, इसे transaction में wrap करते हैं और rollback भी जोड़ते हैं," तो इसने पुराने अंदाज़ में बस
    BEGIN TRAN;
    -- put the query here
    commit;
    इतना ही दे दिया
    काफ़ी समय से मुझे मॉडल को यह कहकर दोबारा धक्का नहीं देना पड़ा था कि जो काम कहा है वह सच में करे, इसलिए यह काफ़ी चौंकाने वाला था
    मैं समझता हूँ कि यह कम tokens इस्तेमाल करना चाहता होगा, लेकिन state-of-the-art model के लिए पैसे दे रहा हूँ और अगर यह ऐसे आलसीपन से जवाब दे तो चिढ़ होती है
    Cursor में model selector में दिखा तो बस टेस्ट करके देखा

    • gpt-5.3-codex के बाद की हाल की 2~3 पीढ़ियाँ बहुत बेहतर हुई हैं, ऐसा कम लगता है; ज़्यादा ऐसा लगता है कि इधर-उधर चीज़ें बदलकर बस अलग tradeoff बना दिए गए हैं
    • हो सकता है मैं गलत समझ रहा हूँ, लेकिन असल में समस्या क्या थी यह जानने की जिज्ञासा है
      अगर समस्या यह थी कि जवाब में सिर्फ -- put the query here था और query दोबारा नहीं दोहराई गई, तो मैं उसे ज़रूरी तौर पर समस्या नहीं मानूँगा
      अगर असली लक्ष्य चलाने वाली query मिलना था और आपने कहा "इसे transaction में करते हैं," तो बस यह बताना कि begin पहले लगा दो, काफ़ी तर्कसंगत है
      अगर query लंबी थी तो tokens भी कम लगेंगे, और यह उसी तरह है जैसे permission denied आने पर पूरा command फिर से लिखने के बजाय बस आगे sudo जोड़ने को कहना
      उल्टा अगर आप उम्मीद कर रहे थे कि मॉडल सच में query चला दे, लेकिन उसने "यह रही, अब तुम खुद चलाओ" वाले अंदाज़ में जवाब दिया, तो वह निश्चित ही आलसीपन है और हैरान होना स्वाभाविक है
    • OpenAI शायद पहली कंपनी है जो आखिरकार उपयोगकर्ता से ही काम करवाने वाली बुद्धिमत्ता तक पहुँच गई है
      लगता है emergent behavior कुछ ऐसा भी हो सकता है
      मज़ाक अलग, OpenAI का यह लगभग जुनूनी token-per intelligence-केंद्रित optimization मुझे M1 से पहले वाले Apple की याद दिलाता है, जब MacBook को ज़रूरत से ज़्यादा पतला बनाने पर ज़ोर था
      जैसे एक ही metric का अंत तक पीछा करते हुए बाकी सब चीज़ें क़ुर्बान कर दी जाएँ
      GPT-5.3+ निश्चित ही सबसे बुद्धिमान मॉडलों में है, लेकिन कई बार इतना आलसी लगता है कि उसके साथ काम करना मुश्किल हो जाता है
    • समझ नहीं आ रहा कि ऊपर वाला उदाहरण अच्छा है या बुरा
    • GPT-5.5 उपयोगकर्ता पर भरोसा करने के मामले में तो benchmark को चकनाचूर कर देने लायक है
  • मैंने अभी अपने Wordpress+GravityForms benchmark पर इसे चलाया, और performance के हिसाब से भी यह leaderboard के सबसे निचले हिस्से में था, और value-for-money तो सबसे खराब थी: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    मानता हूँ कि यह सिर्फ एक benchmark है, लेकिन यह इतना खराब कैसे हो सकता है समझ से बाहर है

    • ऐसा लगा जैसे किसी ऐसे जूनियर ने, जिसे इस domain का कम अनुभव हो, गैराज में छेड़छाड़ करते हुए एक ढीला-ढाला test बना दिया और उसे benchmark कह दिया
      आजकल शब्दों का मतलब बहुत आसानी से बिखर जाता है, इसलिए ऐसी चीज़ें आम होती जा रही हैं
      जो forums पहले असली तकनीकी काम करने वालों से भरे होते थे, अब वहाँ vibe researcher जैसी भीड़ बढ़ती दिखती है; लोकप्रियता एक सीमा पार करे तो आमतौर पर यही होता है
      HN अभी भी शायद गंभीर खोजबीन का आख़िरी गढ़ है, लेकिन मूल टिप्पणी देखकर लगता है कि वह भी पूरी तरह अछूता नहीं है
    • तुम्हारे benchmark में gemma4-e4b, gemma4-26b से 50% बेहतर आ रहा है; इसमें कुछ गड़बड़ लगती है
    • तुम्हारे benchmark में Opus 4.7, Sonnet 4.6 से काफ़ी खराब आ रहा है; मान भी लें कि उस benchmark में यह सही हो, फिर भी यह मॉडल के समग्र प्रदर्शन का प्रतिनिधित्व नहीं करता
    • लगता है तुम time travel करके यह benchmark ले आए हो
      इस तरह का benchmarking काफ़ी पसंद आया
      judge benchmark कैसे evaluate किया गया, यह जानने की जिज्ञासा है, और मैं भी कुछ ऐसा benchmark खुद बनाना चाहूँगा
    • यह ज़्यादा उस benchmark जैसा लगता है जो देखता है कि मॉडल vibe coding कितना अच्छा करता है
      prompt बेहद पतला है, लेकिन scoring criteria बहुत ज़्यादा हैं
  • context length के हिसाब से pricing कुछ ऐसी है
    input 272K तक $5/M, उसके ऊपर $10/M
    output 272K तक $30/M, उसके ऊपर $45/M
    cache read 272K तक $0.50/M, उसके ऊपर $1/M
    272K पार करते ही यह Opus 4.7 से साफ़ तौर पर ज़्यादा महँगा हो जाता है, और कम से कम मेरे काम में यह token efficiency में उतना बेहतर नहीं लगा
    इतना नहीं कि कीमत का फ़र्क़ justify कर सके
    GPT-5.4 की ताकत 400k context और भरोसेमंद compaction थी, लेकिन दोनों में कुछ पीछे हटना सा लगता है
    हालाँकि compaction की reliability सचमुच कम हुई है या नहीं, यह अभी कहना जल्दबाज़ी होगी
    frontend output भी अब तक उसी बहुत नज़र खींचने वाले, cards से भरे नीले-toned template की तरफ झुका रहता है
    GPT-5 रिलीज़ से पहले के Horizon Alpha/Beta समय से ही यह स्टाइल कुछ संदिग्ध लगती थी, लेकिन तब task adherence इतनी अच्छी थी कि उस एक बड़ी कमी के बावजूद यह उपयोगी था
    लेकिन GPT-5.5 को अगर पूरी तरह नया foundation कहा जा रहा है, तो इस हिस्से का अब भी इतना सीमित रहना थोड़ा अजीब है

  • GPT 5.5 के समग्र coding reasoning benchmark नतीजे https://gertlabs.com/ पर आ गए हैं
    live decision और भारी agentic eval भी अगले 24 घंटों तक लगातार जुड़ते रहेंगे, लेकिन अब leaderboard ranking बदलने की संभावना कम लगती है
    GPT 5.5 सार्वजनिक मॉडलों में सबसे बुद्धिमान है, और अपने पिछले version से स्पष्ट रूप से तेज़ है

  • कल तो यह कहा गया था

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    लेकिन आज ही यह हो गया
    एक दिन को "very soon" तो कह सकते हैं, लेकिन वे safeguards और security requirements आखिर थे क्या, यह जानने की जिज्ञासा है

    • जब कहा जाता है कि कुछ safeguards की वजह से देर हो रही है, तो आमतौर पर उसका मतलब बस इतना होता है कि इस समय पर्याप्त compute capacity उपलब्ध नहीं है
    • GPT-5.5 पहले से ही Codex-only API में मौजूद था, और वहाँ साफ़ कहा गया था कि इसे दूसरे उपयोगों के लिए भी इस्तेमाल कर सकते हैं
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      इसलिए लगता है कि उसी तथ्य ने शायद इस release को जल्दी ला दिया हो
    • जिस व्यक्ति ने सुरक्षा के मुद्दे पर इतनी खुलकर झूठ बोला हो और जो अब भी कंपनी चला रहा हो, उसके बारे में आगे कुछ अलग उम्मीद करने की वजह मुझे समझ नहीं आती
      इसका एक पुराना उदाहरण भी है

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman, OpenAI में safety कितनी महत्वपूर्ण है, इस बारे में कई बार बिल्कुल ईमानदार नहीं रहे हैं
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • शायद सिर्फ मुझे ऐसा लगता हो, लेकिन OpenAI की हर ऐसी ख़बर पर ऐसा महसूस होता है जैसे paid commenters या bots चलाए जा रहे हों जो Claude को नीचा दिखाएँ और Codex को बहुत बेहतर बताकर push करें
    उनकी संख्या बहुत ज़्यादा लगती है, और अगर आप Claude को रोज़ इस्तेमाल करते हैं तो इनमें कई दावे समझ से बाहर लगते हैं

    • हाँ, अजीब हद तक
      यह वैसा ही लगता है जैसे सब लोग यह भूल गए हों कि OpenAI ने बिना निगरानी वाले autonomous weapons और देश के भीतर बड़े पैमाने की surveillance में सहयोग करने का फ़ैसला करके लोकतंत्र से गद्दारी की है
    • मुझे भी यह काफ़ी खुला हुआ लगता है
      कम से कम सतह पर दिखना तो Opus 4.6 hype के ठीक बाद शुरू हुआ था
    • बेशक ऐसी चीज़ें होती हैं
      आजकल अपनी product marketing करने वाली ज़्यादातर कंपनियाँ यही करती हैं
  • मैं Enterprise user हूँ, लेकिन अभी भी सिर्फ 5.4 ही दिख रहा है
    कल की announcement में कहा गया था कि सभी तक rollout में कुछ घंटे लगेंगे, लेकिन OpenAI को expectation management के लिए GTM बेहतर करना चाहिए

    • अभी refresh किया तो 5.5 दिख गया
      जल्दी rollout होना अच्छा है
      अगली बार शायद मुझे और जल्दी शिकायत करनी चाहिए
  • मेरे benchmark में 25/25 पाने वाला यह दूसरा मॉडल है
    पहला Opus 4.7 था, और नतीजे यहाँ हैं: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Opus से सस्ता है और धीमा है

  • API page पर knowledge cutoff 2025-12-01 लिखा है, लेकिन मॉडल से सीधे पूछने पर वह 2024 जून कहता है
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • समझ नहीं आता यह बात बार-बार क्यों उठती है
      cutoff date पता करने के लिए मॉडल से खुद पूछना शुरू से ही सबसे कम भरोसेमंद तरीक़ों में रहा है
      यह ऐसे comments जैसी चीज़ें भी train कर चुका हो सकता है
      बस 2025-12-01 से ठीक पहले हुई किसी घटना के बारे में पूछ लो
      संभव हो तो sports match बेहतर रहेगा
    • पता नहीं मॉडल की बात पर कितना भरोसा किया जा सकता है
      पुराने model API pages पर भी 2024 जून cutoff बहुत जगह लिखा था, तो शायद वही उठाकर बोल रहा हो
    • अगर system prompt में न बताया जाए तो मॉडल अपनी cutoff date नहीं जानता
      असली cutoff जाँचने का सही तरीका है ऐसी चीज़ के बारे में पूछना जो उस तारीख़ से पहले मौजूद नहीं थी या हुई नहीं थी
      मैंने यूँ ही कुछ बार टेस्ट किया, तो 5.5 का general knowledge cutoff अब भी 2025 की शुरुआत के आसपास लगता है
    • तो क्या 2024 US election किसने जीता, इससे टेस्ट किया जा सकता है
  • GPT 5.5 + Codex का combination वाकई बहुत अच्छा है
    चाहे सवाल पूछना हो, plan बनाना हो, या code implement करना हो, अब मैं लगभग बिना शक के इसे सौंप देता हूँ
    Opus 4.7 के साथ मुझे बार-बार double-check करना पड़ता है
    यह CLAUDE.md instructions अच्छी तरह follow नहीं करता, hallucination भी ज़्यादा हैं, और जवाब न मिलने पर मूल रूप से बातें गढ़ देता है, इसलिए वह फ़र्क़ काफ़ी बड़ा है
    पिछले साल जब लोग कह रहे थे कि OpenAI पीछे छूट गया है, code red है, तब सब कुछ बहुत जल्दी बदलता दिख रहा था; अब पीछे मुड़कर देखें तो तस्वीर पूरी तरह बदल चुकी है