18 पॉइंट द्वारा xguru 2025-10-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ChatGPT के भीतर नए App और Apps SDK

  • ChatGPT के अंदर इंटरैक्टिव ऐप्स इस्तेमाल करने की सुविधा पेश की गई
  • नए ऐप्स को बातचीत के प्रवाह में स्वाभाविक रूप से काम करने के लिए डिज़ाइन किया गया है, ताकि ज़रूरत पड़ने पर वे अपने-आप सुझाए जा सकें
    • उदाहरण: “Spotify, इस वीकेंड पार्टी के लिए एक playlist बना दो” → ऐप अपने-आप चलकर context-आधारित नतीजे देता है
    • रियल एस्टेट से जुड़ी बातचीत के दौरान Zillow app सुझाकर बजट के मुताबिक लिस्टिंग का मैप तुरंत दिखाया जा सकता है
    • Canva के ज़रिए बातचीत में बने outline को slides में बदलना
    • Coursera course सुनते समय ChatGPT से पूरक व्याख्या माँगना
  • ऐप्स natural language commands और visual interface को जोड़कर पारंपरिक web app की तुलना में अधिक intuitive अनुभव देते हैं
  • Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow जैसे partner apps पहली रिलीज़ का हिस्सा हैं
    • साल के भीतर 11 और ऐप्स जोड़े जाने की योजना है: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
  • ऐप submission और review प्रक्रिया इस साल के अंत में शुरू होगी, और ChatGPT Business·Enterprise·Edu वर्ज़न में भी चरणबद्ध तरीके से लाई जाएगी
  • नया app directory जोड़ा गया है, जहाँ उपयोगकर्ता ऐप्स को browse और search कर सकते हैं; बेहतर design और functionality वाले ऐप्स को बातचीत के भीतर recommendation और ऊँची visibility मिलेगी
  • Apps SDK

    • डेवलपर्स Apps SDK preview version का उपयोग करके सीधे ऐप बना और टेस्ट कर सकते हैं
    • SDK, Model Context Protocol(MCP) को विस्तारित करने वाली संरचना पर आधारित है, जिससे ऐप की logic और interface दोनों परिभाषित किए जा सकते हैं
    • SDK को open source के रूप में जारी किया गया है, इसलिए ChatGPT के बाहर के platforms पर भी यही standard चल सकता है
    • डेवलपर्स मौजूदा backend से सीधे integrate कर सकते हैं, और login व paid features तक पहुँच को support कर सकते हैं
  • साल के भीतर ChatGPT में app monetization model और Agentic Commerce Protocol आधारित instant payment feature को support किया जाएगा
  • इसके साथ ChatGPT सिर्फ एक conversational assistant से आगे बढ़कर app ecosystem के साथ इंटरैक्ट करने वाला integrated platform बन जाएगा

AgentKit जारी – एजेंट development·deployment·optimization के लिए पूरा tool set

  • AgentKit, Responses API और Agents SDK के बाद का टूल है, जो एजेंट बनाने की प्रक्रिया को सरल और अधिक भरोसेमंद बनाने वाला integrated platform है
  • पहले connectors, evaluation pipeline, prompt tuning, frontend development आदि को अलग-अलग संभालना पड़ता था, लेकिन अब इन्हें एक ही environment में integrated तरीके से manage किया जा सकता है
  • Agent Builder – visual workflow design tool

    • Agent Builder drag-and-drop शैली के visual canvas के साथ एजेंट logic को बनाने और version control करने का environment देता है
    • preview run, inline evaluation setup, custom guardrails जैसी सुविधाओं के साथ यह तेज़ iteration development के लिए optimized है
    • Ramp ने बताया कि इस टूल की मदद से महीनों लगने वाली जटिल orchestration को कुछ घंटों में पूरा किया गया, और development cycle 70% तक घट गया
    • जापान की LY Corporation ने भी 2 घंटे के भीतर पहला multi-agent workflow तैयार कर लिया
    • Guardrails – सुरक्षित agent protection

      • Guardrails एक open source safety layer है, जो PII masking·jailbreak detection·abnormal response blocking जैसी क्षमताएँ देता है
      • Python और JavaScript के लिए Guardrails library के माध्यम से इसे standalone या Agent Builder के भीतर integrated रूप में इस्तेमाल किया जा सकता है
  • Connector Registry – data integration management

    • Connector Registry कई workspace और organizations के बीच data connections को केंद्र से manage करने वाला integrated admin panel है
    • इसमें Dropbox, Google Drive, SharePoint, Microsoft Teams जैसे built-in connectors और third-party MCP support शामिल हैं
    • admins, Global Admin Console के ज़रिए domain, SSO, API organization को integrated रूप से manage कर सकते हैं; यह Connector Registry को enable करने के लिए अनिवार्य है
  • ChatKit – conversational UI embedded toolkit

    • ChatKit एक ऐसा toolkit है जिससे एजेंट के लिए chat UI को आसानी से product में embed किया जा सकता है
    • streaming responses, conversation thread management, model के reasoning process को दिखाना आदि अपने-आप support होते हैं
    • इसे web या app में सीधे शामिल किया जा सकता है, और brand design के अनुसार theme customization भी संभव है
    • HubSpot के customer support agent सहित कई knowledge assistant·onboarding guide·research support scenarios में इसका उपयोग हो रहा है
  • Evals – performance measurement capabilities strengthened

    • भरोसेमंद एजेंट बनाने के लिए Evals में निम्न चार नई सुविधाएँ जोड़ी गई हैं
      • Datasets: auto-graders और human annotations के साथ evaluation sets को तेज़ी से बनाना और बढ़ाना
      • Trace grading: पूरे workflow execution का मूल्यांकन करके कमजोरियों का automatic पता लगाना
      • Automated prompt optimization: evaluation results के आधार पर automatic prompt improvement
      • Third-party model support: बाहरी models का भी evaluation संभव
  • उन्नत fine-tuning (Reinforcement Fine-Tuning)

    • RFT डेवलपर्स को OpenAI reasoning models को विशेष उद्देश्यों के लिए adjust करने की सुविधा देता है
    • यह o4-mini model पर generally available है, जबकि GPT-5 के लिए RFT private beta में है और दर्जनों कंपनियाँ इसका परीक्षण कर रही हैं
    • नए beta features
      • Custom tool calls: model को सही समय पर उपयुक्त tool call करने के लिए train करना
      • Custom graders: specific use cases के लिए custom evaluation criteria सेट करना
  • ChatKit और Evals आज से सभी डेवलपर्स के लिए generally available हैं। Agent Builder और Connector Registry beta में क्रमिक रूप से उपलब्ध होंगे, और standard API model pricing में शामिल हैं
    • जल्द ही Workflows API और ChatGPT के भीतर agent deployment options भी जोड़े जाएँगे

Codex आधिकारिक रूप से जारी – development teams के लिए integrated code agent expansion

  • OpenAI ने cloud-based code agent platform Codex की official release की घोषणा की और Slack integration, Codex SDK, admin tools सहित 3 प्रमुख फीचर जोड़े
  • Codex, GPT-5-Codex model पर आधारित है और IDE·CLI·cloud environment में integrated तरीके से काम करता है
    • रिलीज़ के बाद इसका दैनिक उपयोग अगस्त की तुलना में 10 गुना बढ़ा, और 3 हफ्तों में 40 trillion tokens प्रोसेस किए गए, जिससे इसे सबसे तेज़ी से बढ़ने वाले models में एक माना गया
  • OpenAI के भीतर भी 70% से अधिक इंजीनियर Codex का उपयोग कर रहे हैं, जिससे साप्ताहिक PR merge मात्रा 70% बढ़ी, और अधिकांश code review Codex अपने-आप करता है
  • Slack integration

    • team channel में @Codex टैग करने पर Codex बातचीत का context अपने-आप इकट्ठा करता है और उपयुक्त environment चुनकर जवाब देता है
    • output, Codex Cloud link से जुड़ता है, जहाँ changes merge करना, iteration edits करना, और local download करना संभव है
    • Slack integration collaborative development environment में code review, auto-fix, build run requests को स्वाभाविक रूप से संभव बनाता है
  • Codex SDK

    • Codex SDK एक development kit है जो Codex CLI के open source agent implementation को बाहरी applications में भी उसी तरह इस्तेमाल करने देता है
    • SDK पहले TypeScript के लिए उपलब्ध है, बाद में अन्य भाषाओं का support भी आएगा
    • प्रमुख फीचर
      • structured output के साथ agent responses को parse करना
      • session resume के लिए built-in context management
      • GitHub Action integration के ज़रिए CI/CD pipeline automation support
      • shell environment में codex exec command से सीधे चलाया जा सकता है
    • Instacart ने SDK को अपने Olive platform के साथ integrate करके end-to-end automated development environment बनाया, और technical debt कम करने व code quality सुधारने का असर देखा
  • admin features strengthened

    • environment control और deletion के ज़रिए sensitive data management और अनावश्यक environments की सफ़ाई संभव है
    • CLI·IDE·web भर में Codex usage और code review quality का analysis dashboard दिया गया है
    • admins, Codex की local usage policies और settings को centrally control कर सकते हैं, इसलिए यह बड़े संगठनों के संचालन के लिए उपयुक्त है
    • Cisco ने Codex की मदद से जटिल PR review समय को अधिकतम 50% तक घटाया, जिससे इंजीनियर अधिक रणनीतिक कामों पर ध्यान दे सके
  • Slack integration और Codex SDK ChatGPT Plus, Pro, Business, Edu, Enterprise plans में तुरंत उपलब्ध हैं
  • 20 अक्टूबर से Codex Cloud workload को usage calculation में शामिल किया जाएगा
    • Plus plan: हर 5 घंटे में लगभग 30~150 local messages या 5~40 cloud tasks
    • Pro plan: हर 5 घंटे में लगभग 300~1,500 local messages या 50~400 cloud tasks
    • limit पार होने पर Codex usage अस्थायी रूप से रोक दिया जाएगा, और usage reset होने पर फिर इस्तेमाल किया जा सकेगा
    • Code Review को फिलहाल usage में शामिल नहीं किया जाएगा
      • केवल GitHub में @codex review टैग इस्तेमाल करने या auto review feature enable होने पर ही Code Review usage गिना जाएगा

Sora का उपयोग करने वाला video generation API जारी

  • Sora, OpenAI का अगली पीढ़ी का generative media model है, जो audio सहित यथार्थवादी और dynamic videos बनाता है
  • इसे multi-modal diffusion research के आधार पर विकसित किया गया है, और यह 3D spatial awareness, camera movement और physical motion consistency सीखता है
  • डेवलपर्स इसके ज़रिए text→video या image→video रूप में content को अपने-आप बना सकते हैं
  • नया Video API निम्न 5 प्रमुख feature endpoints से बना है
    • Create video: text prompt या मौजूदा video के आधार पर नया rendering task बनाना
    • Get video status: rendering progress status देखना
    • Download video: पूरा हुआ MP4 video download करना
    • List videos: बने हुए videos की सूची manage करना और paging support
    • Delete videos: storage space से किसी खास video को हटाना
  • API के माध्यम से video generation·management·scaling·remix tasks को programmatically automate किया जा सकता है
  • model types

    • Sora 2 – तेज़ iteration और experimentation के लिए

      • speed और flexibility पर केंद्रित model, जो concept testing या rough cut production के लिए उपयुक्त है
      • कम समय में परिणाम मिलने के कारण social media content या prototype videos बनाने में उपयोगी है
      • perfect quality से अधिक idea exploration और visual direction validation पर ध्यान देता है
    • Sora 2 Pro – high-quality production के लिए

      • cinematic स्तर की quality को लक्ष्य बनाकर डिज़ाइन किया गया model
      • rendering धीमा है और लागत भी अधिक है, लेकिन video stability और detail काफ़ी बेहतर हो जाती है
      • high-resolution marketing videos, brand assets, और film-style scenes बनाने के लिए उपयुक्त है

GPT-5 Pro अब API में उपलब्ध

  • GPT-5 Pro OpenAI का सर्वोच्च स्तर का reasoning model है, जो अधिक परिष्कृत और सटीक उत्तर देने के लिए ज़्यादा compute का उपयोग करता है
  • यह सामान्य GPT-5 से धीमा है, लेकिन जटिल समस्या-समाधान क्षमता और consistent quality देता है
  • यह केवल Responses API model है, जो multi-turn conversational requests और advanced API features को support करता है, और सिर्फ reasoning.effort: high mode को support करता है
  • यह Code Interpreter और real-time streaming को support नहीं करता
  • जटिल requests के लिए कई मिनट का processing time लग सकता है, और लंबे execution के लिए Background Mode उपयोग करने की सिफारिश है
  • context window 400,000 tokens, max output 272,000 tokens, Knowledge Cutoff 30 सितंबर 2024
  • pricing: प्रति 10 लाख tokens
    • input: $15.00 (image input सहित)
    • output: $120.00

किफायती voice service के लिए GPT Realtime Mini model

  • GPT-Realtime-Mini real-time conversational model का कम-लागत और high-speed version है, जो text·image·audio input को support करता है और text तथा audio output बनाता है
  • WebRTC, WebSocket, SIP connections के ज़रिए real-time voice·text responses संभव हैं, और gpt-realtime की तुलना में 6 गुना से अधिक कम लागत पर चलाया जा सकता है
  • context window 32,000 tokens, max output 4,096 tokens, Knowledge Cutoff 1 अक्टूबर 2023
  • pricing: प्रति 10 लाख tokens
    • text tokens
      • input: $0.60
      • cached input: $0.06
      • output: $2.40
      • मौजूदा models की तुलना
        • input: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (सबसे सस्ता)
        • output: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (सबसे सस्ता)
    • audio tokens
      • input: $10
      • cached input: $0.3
      • output: $20
    • image tokens
      • input: $0.8
      • cached input: $0.08

GPT Image 1 Mini model

  • GPT-Image-1-Mini GPT Image 1 का low-cost version है, जो text और image को input लेकर image output बनाने वाला multimodal model है
  • high quality की बजाय efficiency और कम लागत पर केंद्रित होने के कारण यह बड़े पैमाने की image generation और visual prototyping के लिए उपयुक्त है
  • text और image input संभव, output केवल image
  • speed धीमी है, लेकिन performance के मुकाबले cost efficiency अधिक है
  • pricing: प्रति 10 लाख tokens
    • text tokens
      • input: $2.00
      • cached input: $0.20
      • output: $8.00
      • मौजूदा model की तुलना
        • input: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (लगभग 60% कम)
        • output: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (लगभग 60% कम)
    • image tokens
      • input: $2.50
      • cached input: $0.25
      • output: $8.00
    • image generation (प्रति 1 image)
      • Low quality
        • 1024×1024: $0.005
        • 1024×1536: $0.006
        • 1536×1024: $0.006
      • Medium quality
        • 1024×1024: $0.011
        • 1024×1536: $0.015
        • 1536×1024: $0.015

1 टिप्पणियां

 
laeyoung 2025-10-08

HackerNews भी काफ़ी शांत लग रहा है, और उम्मीद से ज़्यादा। शायद इसलिए कि वे चीज़ें लगातार थोड़ी-थोड़ी करके announce और release करते रहे हैं।