OpenAI Apps SDK

(developers.openai.com)

1 पॉइंट द्वारा GN⁺ 2025-10-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने ChatGPT के भीतर चलने वाले ऐप्स विकसित करने में सहायता करने वाला framework Apps SDK जारी किया है
डेवलपर्स इस SDK का उपयोग करके ChatGPT के भीतर चलने वाले नए ऐप्स बना सकते हैं और experimental features को स्वतंत्र रूप से test करने के लिए एक environment पा सकते हैं
Apps SDK फिलहाल preview संस्करण में उपलब्ध है, और ऐप submission तथा आधिकारिक distribution इस साल के बाद के हिस्से में किए जाने की योजना है
यह framework ChatGPT platform की scalability और custom app development के अवसर खोलता है, जिससे विभिन्न software और services के integration तथा automation संभव होने की उम्मीद है
development ecosystem के विस्तार के माध्यम से productivity में सुधार और innovative services के निर्माण को बढ़ावा मिलने की उम्मीद है

1 टिप्पणियां

GN⁺ 2025-10-07

Hacker News राय

यह दिलचस्प है कि ChatGPT धीरे-धीरे web navigation का शुरुआती बिंदु बनता जा रहा है; अब शायद अलग से search करने की भी ज़रूरत न पड़े, और basic maps, Stripe payments, flight booking जैसी workflows सीधे उपलब्ध होंगी, जिससे लोगों के ज़्यादातर रोज़मर्रा के काम कवर हो जाएंगे
पिछले 2 सालों में इस तरह की प्रगति का सबसे बड़ा bottleneck model नहीं, बल्कि engineering, infrastructure, और कंपनियों की OpenAI के साथ सीधे collaborate करने की इच्छा थी
अब जब OpenAI बढ़ रहा है और उसका user base बड़ा हो रहा है, कंपनियाँ कहीं ज़्यादा सक्रिय रूप से invest या participate करना चाहती हैं
यह बदलाव सिर्फ user-centric internet usage तक सीमित नहीं रहेगा; अगर SDK-आधारित और tools आते हैं, तो human workflows एक तरफ chatbot से होकर बहने वाले traffic में और दूसरी तरफ SEO optimization व chat/agent के लिए बने नए web में बँट सकते हैं
- मुझे लगता है मेरे जैसे बहुत से लोग AI का इस्तेमाल नहीं करना चाहेंगे
  खासकर flight tickets खरीदने में, यह AI के गलती करने के डर की वजह से नहीं, बल्कि इसलिए कि मैं खुद control रखना चाहता हूँ
  इसे ऐसे समझिए: driving, flying से ज़्यादा risky है, फिर भी driving ज़्यादा safe महसूस होती है
  आखिरकार बात control की ही है
- समझ नहीं आता कि chat box के अंदर जबरन apps क्यों चलाए जाएँ, उन्हें किसी अजीब format में दिखाया जाए, और फिर अंत में असली app का link दे दिया जाए
  इससे बेहतर तो standard तरीका यही है कि app के अंदर chat box डाला जाए
- अगर एक ही कंपनी पूरे internet usage को control, filter और manage करने लगे, तो मुझे लगता है internet का मतलब ही खत्म हो जाएगा
  हाँ, यह दलील समझ में आती है कि Google भी कुछ ऐसा ही करता है, लेकिन कम से कम Google Search से आप असली sites तक तो पहुँच सकते हैं
  ChatGPT के ज़रिए एक तरह के 'telephone game' जैसा आना-जाना बहुत भयानक लगता है
- जैसे मैं voice assistant को खरीदारी सौंपने की कभी नहीं सोचूँगा, वैसे ही किसी LLM को महत्वपूर्ण फैसले सौंपना बिल्कुल मंज़ूर नहीं
  उसे अपने credit card से payment authority देना तो दूर, flight booking तक सौंपने की कल्पना भी नहीं कर सकता
- OpenAI के पास यह मौका तब से था जब उसके users explosively बढ़ने लगे थे, लेकिन असल में plugins और GPTs के साथ वह इसे ठीक से भुना नहीं पाया
  विडंबना यह है कि Anthropic का MCP इस क्षेत्र का game changer बन सकता है
अगर आप मानते हैं कि ChatGPT भविष्य का general-purpose user interface बनेगा, तो यह कल्पना plausible लगती है
लेकिन व्यवहार में, आजकल का agent trend उल्टा यह दिखाता है कि chat interface को किसी ज़्यादा सख्त UI paradigm के पीछे छिपाना बेहतर हो सकता है
- मुझे लगता है कि बहुत से ऐसे क्षेत्र हैं जहाँ chat एक शानदार interface हो सकता है
  अगर ChatGPT इन क्षेत्रों का distributor बन जाए, तो वह Google की जगह ले सकता है
  फिर भी कुछ खास domains में customized interface ही सही तरीका है, और अगर वह क्षेत्र काफ़ी valuable है, तो कोई न कोई उसके लिए dedicated interface ज़रूर बनाएगा
- आजकल agents का मुख्य use case code generation है, और target users IDE या code editor के आदी हैं
  यह token usage का बड़ा हिस्सा लेता है, लेकिन इससे आम users की needs या इच्छाओं का प्रतिनिधित्व नहीं होता
  मुझे पूरा भरोसा है कि chat interface इतना universal इसलिए हुआ है क्योंकि उसमें अपने आप में फायदे हैं
  सामान्य agent use में भी chat typing या voice input की सुविधा देता है
  audio-audio या video use cases भी इससे आसानी से जोड़े जा सकते हैं
  आगे चलकर अगर real-time video generation संभव भी हो जाए, तब भी ज़्यादातर नतीजों को text के रूप में consume करना ज़्यादा आसान रहेगा
- मुझे नहीं लगता लोग chatGPT से Zillow या Canva पर अपनी तरफ से पूछने को कहना चाहेंगे
  हाँ, Zillow पर house prices देखना या Canva से graphics बनवाने जैसा request कर सकते हैं, लेकिन किसी specific app को invoke करने की ज़रूरत उन्हें शायद न लगे
  आखिरकार अगर apps user traffic के लिए ChatGPT पर निर्भर होने लगें, तो ChatGPT खुद वही features दे देगा और apps को replace कर देगा
  यानी अगर आप chat को universal interface मानकर अपनी service को ChatGPT के सामने expose करते हैं, तो आप अपनी ही survival मुश्किल कर रहे हैं
- मुझे लगता है voice interface और chat का combination सच में बहुत अच्छा है; जैसे चलते हुए voice से foreign language lesson लेना या web search करना, यह काफ़ी उपयोगी है
  NotebookLM जैसे note app format को भी मैं हफ्ते में एक-दो बार इस्तेमाल करता हूँ
  छोटे open models को बड़े systems से जोड़कर structured data extraction जैसे कई experiments किए जा सकते हैं
  मौजूदा agentic systems (MCP आदि) की असली उपयोगिता को लेकर मैं skeptical हूँ
  फिर भी आज AGI की बात नहीं हुई, यह राहत की बात है
  ASI, AGI fantasies के FOMO में फँसेंगे तो आखिर में दिवालियापन ही बचेगा
- भविष्य का interface local AI होगा, जिसकी functionality datasets पर train होकर hardware में embedded होगी
  EE और energy model क्षेत्र में काम करते हुए, जब मैं oscilloscope की geometric properties के बारे में सोचता हूँ, तो equations उस structure को reconstruct कर सकती हैं
  users parameter UI के ज़रिए आसानी से मनचाहा result पा सकेंगे
  आज का OS string processing के लिए virtual machine जैसा है, लेकिन भविष्य coordinate manipulation वाली vector virtual machine का होगा
  memory matrix और display matrix के synchronization से चीज़ें सरल होंगी, और developers पुरानी string processing से आगे बढ़ सकेंगे
असल product को देखें तो यह उम्मीद जितना revolutionary नहीं लगता
"apps" असल में MCP servers ही हैं, बस उनमें HTML return कर सकने का विकल्प जोड़ा गया है
MCP की बुनियादी समस्याएँ वही हैं: यह single-player जैसा है, user को हमेशा खुद "pull" करना पड़ता है, और app खोलने की तुलना में इसका connection structure intuitive नहीं है
आदर्श रूप से हर app का अपना unique entry point होना चाहिए, users को push notifications मिलनी चाहिए, और UI में persistence भी होनी चाहिए
मुख्य interface भी chat नहीं, बल्कि HTML होना चाहिए
मुझे लगता है इसका अंजाम भी GPTs जैसा ही होगा
- MCP में "elicitation" नाम की spec पहले से मौजूद है, और मुझे लगता है OpenAI इसी के सहारे जल्दी ही push-style interactions को support करने की नींव रख रहा है
  अगर services proactively users और LLM को लगातार जोड़कर रखें, तो MCP servers में सचमुच बहुत मजबूत stickiness आ सकती है
  installation/auth flows भी non-expert users की ज़रूरतों के हिसाब से धीरे-धीरे आसान होते जाएँगे
Phind 2 बनाते समय मैंने खुद responses में dynamic widgets insert किए थे, इसलिए यह दिलचस्प लगा
इस approach की कमजोरी यह है कि app/widget के input और output schemas hard-coded होते हैं
जब तक आप widget की सीमा के अंदर हैं, यह बहुत अच्छा काम करता है, लेकिन जैसे ही Zillow में कोई विशेष advanced filtering चाहिए या StreetEasy integration चाहिए, सीमाएँ सामने आने लगती हैं
फिर user के नज़रिए से अगर advanced feature मौजूद नहीं है, तो वह चीज़ practically unusable हो जाती है
जो चीज़ मुझे सच में revolutionary लगती है, वह है 'on-the-fly generated UI'
जल्द ही Phind में इस हिस्से पर update आने वाली है (मैं Phind का founder हूँ)
- Phind वाकई बहुत अच्छा है
  पहले जब Google जैसे पुराने search engines बेकार या भटके हुए results देते थे, तब मैं Phind से जल्दी सही जानकारी निकाल लेता था
  लेकिन हाल में LLM खुद भी search बहुत अच्छी तरह कर लेते हैं, इसलिए आजकल मैं सिर्फ LLM इस्तेमाल कर रहा हूँ
- यह संभव है, इसमें हैरानी की बात नहीं, क्योंकि MCP-UI projects पहले से मौजूद हैं
  लेकिन फिर भी असली इस्तेमाल के लिए यह अभी बहुत slow है, इसलिए सुधार की ज़रूरत साफ़ दिखती है
- मैं भी सोच रहा हूँ कि अपनी product में कुछ ऐसा बनाऊँ, और schema constraints का हल शायद यह हो सकता है कि widgets को जितना हो सके उतने generic blocks की तरह design किया जाए ताकि उनकी utility बढ़े
  अभी यह idea stage में है, लेकिन सोच रहा हूँ कि model को कई modular widgets में से task के हिसाब से चुनकर combine करने दिया जाए
  उदाहरण के लिए search results को single item, matrix-style comparison, filtering sections आदि में बाँटकर, context बदलते हुए session के भीतर कई तरीकों से handle किया जा सके
  अगर Phind ने इस तरह के अनुभव पर कुछ लिखा है, तो मैं उसे संदर्भ के रूप में पढ़ना चाहूँगा
- मुझे लगता है ये सीमाएँ chat के साथ prebuilt या on-demand widgets जोड़कर हल की जा सकती हैं
  keynote demo में chat interface के ज़रिए Zillow के homes को dog park के पास होने जैसी advanced filtering के साथ, कई sources से जानकारी जोड़कर फ़िल्टर किया गया था
- MCP से यह समस्या हल हो सकती है
  app को छुए बिना MCP server schema को dynamically update किया जा सकता है
  app अपने आप नए schema को पहचानने लगेगा
इस OpenAI announcement में सच में कुछ नया बनाने का मौका था, लेकिन अफसोस कि यह बस chat के अंदर पुराने app screens को fixed तरीके से embed करने तक सीमित रह गया
असल ताकत यह होनी चाहिए थी कि user task समझाए, AI खुद तय करे कि कौन-कौन से tools चाहिए, उन्हें अपने आप जोड़े, और user को editable workflow या canvas के रूप में result दिखाए
LlamaIndex Workflow और LangGraph जैसे frameworks पहले से Python में इस तरह के graphs (workflow-DAG) को हाथ से implement करने में मदद करते हैं; अगर LLM ऐसे DAG real time में बना सके, तो वह सचमुच बहुत शक्तिशाली होगा
LLM पहले से UI code अच्छी तरह generate कर लेते हैं, और design systems का भी पालन कर लेते हैं, इसलिए screens को hard-code करने की कोई खास वजह नहीं है
उम्मीद है Google इस रास्ते पर नहीं चलेगा
हाल ही में OpenAI organization के अंदर chat interface कितनी गहराई से जड़ जमा चुका है, इस पर एक लेख आया था, और इस announcement ने उस obsession को और स्पष्ट कर दिया
असल सवाल यह है: "क्या सचमुच ज़्यादातर users visual elements की बजाय सिर्फ conversation से interact करना पसंद करते हैं?"
खासकर जब आपको कई app names (जैसे Zillow) याद रखकर chat में type करने पड़ें, और ads या 'priority placement (app discovery)' जैसी monetization strategies की संभावना भी हो, तो यह बहुत अप्रिय लगता है
व्यक्तिगत रूप से मैं नहीं चाहता कि ऐसा भविष्य आए
- यह फिर से वही बहस लगती है कि GUI ज़्यादा ताकतवर है या terminal (या CLI)
  कई ऐसे tasks में जो token streams के लिए अच्छे हैं, command line या chat बेहतर साबित हो सकते हैं
  हो सकता है जल्दी bots या MCP को बुलाने के लिए tab completion जैसी सुविधाएँ भी आएँ…
  वहीं दूसरी ओर, नई चीज़ें explore करने या graphical interaction की ज़रूरत वाले मामलों में visual, dedicated interfaces कहीं ज़्यादा intuitive हैं
  आखिरकार task के हिसाब से कई तरह के UI का सही मिश्रण और abstraction ही स्थिर होगा
- मुझे लगता है chat-interface-centric approach, LLM की उपयोगिता को वास्तव में सीमित करती है
  conversation continuity का illusion कैसे बनता है—context management, पुराने prompts का memory से गिर जाना आदि—यह non-experts को समझाना भी कठिन है
  मैं अपने non-technical दोस्तों को आमतौर पर यही सलाह देता हूँ: 'हर prompt के लिए नई conversation शुरू करो'
  इससे कम से कम साफ़ रहता है कि क्या काम कर रहा है
  मैं उम्मीद कर रहा था कि UX innovation में Apple नेतृत्व करेगा, लेकिन अभी तक ऐसा नहीं दिखा
- अगर counterpoint दें, तो मेरे जानने वाले बहुत से लोग Zillow पर जाने के लिए भी Google में सिर्फ “zillow” ही टाइप करते हैं, इसलिए chat में app name डालना पूरी तरह बेतुका भी नहीं हो सकता
नकारात्मक प्रतिक्रियाएँ बहुत हैं, लेकिन व्यक्तिगत रूप से OpenAI की दिशा मुझे काफ़ी स्वाभाविक लगती है
आखिरकार user जो चाहता है, वह बोलेगा, और OAI खुद apps (email, calendar, payments आदि) से जुड़कर उसका काम कर देगा—ऐसा platform बनना ही लक्ष्य दिखता है
इस मॉडल में OAI को ads की ज़रूरत नहीं होगी, सिर्फ revenue share काफ़ी होगा
- अगर आप मानते हैं कि email या calendar apps से बहुत बड़ा revenue आएगा, तो investors को काफ़ी झटका लगेगा
- यह कहना गलत है कि ads नहीं होंगे
  ads बहुत चालाकी से, useful tips जैसी शक्ल में, गहराई से छिपे हुए होंगे
- OpenAI साफ़ तौर पर दोनों चीज़ें चाहेगा: revenue share भी और ads भी
  उसने पहले ही ad team बनानी शुरू कर दी है, और पूँजी भी पर्याप्त है, इसलिए वह हर scalable business model आज़माना चाहेगा
  app store, algorithmic feed—इतिहास के जितने सफल models हैं, सब आज़माए जाएँगे
- platform बनने के लिए user lock-in या unfair advantage ज़रूरी होता है
  सिर्फ बेहतर model quality से काम नहीं चलेगा
अभी तक मुझे नहीं लगता कि यह approach वास्तव में किसी चीज़ को बेहतर बनाती है
किसी ने Spotify integration का ज़िक्र किया था, लेकिन यह काम पुराने assistants भी कर लेते थे
यह बस वही पुराने काम बहुत ज़्यादा महँगे तरीके से करने जैसा लगता है
आखिरकार सब लोग OpenAI के tool ecosystem में free apps उड़ेलने लगेंगे
यह रुझान OpenAI की defensibility को मज़बूत करेगा और दूसरी opportunities की कीमत पर होगा
- iPhone के शुरुआती दिनों में सिर्फ 6 apps थे, और App Store भी नहीं था
  2024 तक iOS App Store ने 1.3 trillion dollar का revenue generate किया, जिसमें से 85% developers के हिस्से गया
- मैं जानना चाहता हूँ कि OpenAI का 'moat' आखिर है क्या
- असल में यह प्रवृत्ति बेमानी नहीं है
  ऐसा कोई कारण नहीं कि real-time data और MCP actions users के लिए वास्तविक मददगार होना बंद कर दें
  app connections में authentication की ज़रूरत पड़ सकती है, लेकिन अगर payment friction न हो तो यह बहुत बड़ा distribution channel है
branding के लिहाज़ से यह OpenAI announcement एक दिलचस्प प्रयोग है
MCP को “apps” कहना इसे familiar और easy-to-use महसूस कराता है, जबकि tool/server/utility कहने पर यह बहुत technical लगता है
Expedia और Spotify के demos जोड़ने से यह एहसास दिया गया कि usable MCPs अब तैयार हैं और users उन्हें तुरंत इस्तेमाल कर सकते हैं
- आख़िरकार इस बार जो आया है, वह बस ऐसे MCP servers हैं जिन्हें ChatGPT इस्तेमाल कर सकता है

OpenAI Apps SDK

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय