- OpenAI द्वारा घोषित ChatGPT Apps डेवलपर्स को अपने ऐप्स को सीधे ChatGPT बातचीत के भीतर embed करने की सुविधा देता है, और 80 करोड़ से अधिक साप्ताहिक सक्रिय उपयोगकर्ताओं को एक नए distribution channel के रूप में इस्तेमाल किया जा सकता है
- ChatGPT अब पारंपरिक text responses से आगे बढ़कर UI components को सीधे render कर सकता है, जिससे booking, shopping, और data lookup जैसे वास्तविक कार्य बातचीत के flow के भीतर ही पूरे किए जा सकते हैं
- इस संरचना का केंद्र Model Context Protocol(MCP) है, जिसके जरिए LLM बाहरी tools और UI resources को चुनिंदा रूप से call करता है
- ChatGPT ऐप्स में backend (MCP server) और frontend (UI components) के बीच स्पष्ट separation होता है, और React-आधारित mini apps सुरक्षित sandbox में चलते हैं
- MCP और ChatGPT Apps pattern आगे चलकर Claude जैसे अन्य agents तक भी विस्तारित होने वाले हैं, और यह conversational AI तथा मौजूदा SaaS को जोड़ने वाली एक नई interface layer बन रही है
ChatGPT Apps का अवलोकन
- ChatGPT Apps ऐसी सुविधा है जो developers और product teams को ChatGPT बातचीत के भीतर सीधे ऐप डालने देती है
- उपयोगकर्ता बातचीत के दौरान hotel booking, real estate search, online shopping जैसे काम ChatGPT के अंदर ही तुरंत कर सकते हैं
- 80 करोड़ से अधिक साप्ताहिक सक्रिय उपयोगकर्ताओं वाला यह platform अगली पीढ़ी के distribution channel के रूप में बड़ी संभावना रखता है
ChatGPT Apps कैसे काम करते हैं
- सभी LLMs (ChatGPT, Claude, Gemini) सामान्यतः केवल सीमित tools का उपयोग कर सकते हैं, जैसे web search, file पढ़ना, code execution, और artifact generation
- ChatGPT Apps में डेवलपर MCP tools के जरिए नए tools को LLM के सामने उपलब्ध कराते हैं, ताकि उपयोगकर्ता उन्हें आसानी से install और use कर सकें
- ऐप के बिना अगर आप short-term stay book करने की कोशिश करें, तो केवल तस्वीरें और policy जानकारी मिलेगी, वास्तविक booking नहीं हो पाएगी
- ऐप install होने पर, अनुरोध के अनुसार Airbnb listings की सूची मिल सकती है और वहीं से सीधे booking की जा सकती है
ऐप के तीन घटक
-
MCP server (backend)
- यह वह server है जिससे ChatGPT communicate करता है, और इसे Python या Node.js में लिखा जा सकता है
- यह API की तरह काम करता है और उन "tools" (functions) को define करता है जिन्हें ChatGPT call कर सकता है
- उदाहरण:
search_restaurants, book_ticket
-
Components (frontend)
- यह वह interactive UI है जिसे उपयोगकर्ता देखते हैं
- आमतौर पर React में बनाया जाता है और ChatGPT के भीतर सुरक्षित sandbox में चलता है
- इसे ChatGPT बातचीत के भीतर रहने वाले mini web app की तरह समझा जा सकता है
-
ChatGPT (host)
- ऐप ChatGPT के भीतर embedded view में दिखाया जाता है
- ChatGPT उपयोगकर्ता की बातचीत और सक्रिय ऐप्स के आधार पर तय करता है कि ऐप को कब call करना है
कार्यप्रवाह
- जब उपयोगकर्ता short-term stay में मदद मांगता है, तो ChatGPT अपने आप कई चरण पूरे करता है:
1. यह तय करता है कि ऐप उपयोगी होगा या नहीं
2. ऐप से संपर्क करके उपलब्ध tools की जानकारी लेता है (जैसे Book Listing, Browse Listing)
3. Browse Listing tool को call करके शीर्ष 5 ठहरने के विकल्प लौटाता है
4. उपयोगकर्ता को शीर्ष 5 विकल्प दिखाता है
- यही workflow MCP(Model Context Protocol) की बुनियाद है
- AI agent (ChatGPT) को ऐसे tools तक access दिया जाता है जो लक्ष्य पूरा करने में मदद करें, और उपयोगकर्ता के अनुरोध पर वह इनका चयनित उपयोग करता है
- tools दो संख्याओं को जोड़ने वाले calculator जितने सरल भी हो सकते हैं, या image generation जैसे जटिल backend process जितने उन्नत भी
Display modes
- ChatGPT Apps तीन तरह के UI display modes को support करते हैं
-
Inline mode
- उपयुक्त उपयोग: lists, cards, छोटी visualizations
- यह सभी ऐप्स का default mode है, और जरूरत पड़ने पर दूसरे mode में बदला जा सकता है
- उदाहरण: product carousel, restaurant list
-
Fullscreen mode
- उपयुक्त उपयोग: maps, complex forms, data-heavy dashboards
- component पूरी ChatGPT window को घेर लेता है
- तब उपयोगी जब अधिक space चाहिए या किसी जटिल कार्य पर ध्यान केंद्रित करना हो
- उदाहरण: real estate interactive map, spreadsheet editor
-
PiP(Picture-in-Picture) mode
- उपयुक्त उपयोग: persistent tools, games, real-time updates
- component स्क्रीन के ऊपर एक छोटे floating window के रूप में बना रहता है
- उन चीजों के लिए उपयुक्त जिन्हें उपयोगकर्ता के chat जारी रखने के दौरान लगातार दिखाई देना चाहिए
- उदाहरण: timer, music player, tic-tac-toe game
- यदि display modes के बीच switching की योजना है, तो UX patterns पर अधिक ध्यान देना होगा
सीमाएँ
-
हर turn में एक ही component
- जब ChatGPT किसी ऐसे tool को call करता है जो component लौटाता है, तो वही turn समाप्त हो जाता है
- कई UI-returning tools को अपने आप chain नहीं किया जा सकता
- उदाहरण: "रेस्टोरेंट बुक कर दो और Uber भी बुला दो" जैसे अनुरोध में पहले restaurant component दिखेगा, और booking के बाद follow-up trigger से Uber component दिखाया जाएगा
-
Component state की सीमित scope
- हर component instance अपनी state रखता है, जो केवल उसी विशेष message के भीतर बनी रहती है
- जब ChatGPT component के साथ नया message बनाता है, तो default रूप से वह खाली state वाला नया instance होता है
- इसलिए backend में persist और retrieve करके state manage करनी पड़ती है
-
सीधे DOM access नहीं
- components security sandbox(iframe) में चलते हैं, इसलिए वे parent ChatGPT page तक access नहीं कर सकते और न ही मनमानी scripts चला सकते हैं
- सारा communication
window.openai API के जरिए होता है
-
Performance महत्वपूर्ण है
- component state हर request पर AI model को भेजी जाती है
- बड़े payloads response को धीमा कर देते हैं, इसलिए केवल आवश्यक चीजें ही भेजें
वास्तविक उपयोग के उदाहरण
-
E-commerce & shopping
- ऐसा interactive product catalog बनाया जा सकता है जिसमें price filtering, cart में जोड़ना, और checkout (आमतौर पर main app में push किया जाता है) संभव हो
-
Business tools
- ऐसा kanban board बनाया जा सकता है जिसमें उपयोगकर्ता columns के बीच tasks drag कर सकें, due dates तय कर सकें, और status update कर सकें
- यह internal tools के लिए खास तौर पर शक्तिशाली है, जहां ChatGPT project से जुड़े सवालों के जवाब देने के साथ-साथ उपयोगकर्ता को कार्रवाई करने भी देता है
-
Booking & reservations
- ऐसा restaurant reservation component बनाया जा सकता है जो availability, menu, और reviews दिखाए
- उपयोगकर्ता ChatGPT से recommendations मांगकर उसी interface के जरिए सीधे booking कर सकता है
-
Data dashboards
- interactive charts के साथ sales analytics दिखाई जा सकती है
- अगर उपयोगकर्ता पूछे, "Q4 revenue कैसा है?", तो ऐसा dashboard दिया जा सकता है जिसमें किसी खास region या product तक drill down किया जा सके
-
Maps & location
- coffee shops, real estate, या location-based search के लिए markers वाला interactive map दिखाया जा सकता है
- Fullscreen mode में यह खास तौर पर प्रभावी है
अपना पहला ऐप बनाने की गाइड (restaurant search app उदाहरण)
-
Step 1: Component build करें (frontend)
window.openai.* API के साथ interact करने वाला React component बनाएं, ताकि iframe component और ChatGPT के बीच communication हो सके
- OpenAI API interaction में मदद करने के लिए global उपलब्ध कराता है
-
Step 2: Tool define करें (backend)
- MCP server, ChatGPT के साथ होने वाले "contract" को define करता है
- यह model को बताता है कि वह क्या कर सकता है और tool call पूरा होने पर कौन-सा component दिखाना है
-
Step 3: Resource register करें (backend)
- React component को HTML में bundle करके MCP server पर resource के रूप में host करें
- ChatGPT पिछले चरण के
outputTemplate URI को लेकर iframe किए जाने वाले code का अनुरोध करता है
-
Step 4: Flow test करें
- server deploy करने के बाद:
- ChatGPT खोलें और Developer Mode चालू करें
- Settings → Connected Apps (या "My Apps") पर जाएं
- "Connect new app" पर क्लिक करें
- server URL दर्ज करें (उदाहरण:
https://my-mcp-server.com)
- OAuth के बिना connect करें
- जब ChatGPT
search_restaurants tool को detect कर ले, तो "Find me Italian food in Brooklyn" डालकर test करें
- ChatGPT tool को call करेगा, data लाएगा, और text की जगह interactive React list render करेगा
आगे की दिशा
- शुरुआत ChatGPT ने की है, लेकिन जल्द ही MCP standard, MCP apps के जरिए इसी pattern को support करेगा
- Claude और अन्य agents भी conversational experiences में mini apps inject कर पाएंगे
- इस तरह की system architecture और उपयोगकर्ताओं के लिए सार्थक अनुभव बनाने के तरीके को समझना, AI products और सामान्य SaaS applications के बीच संचार के एक नए तरीके को आगे बढ़ा रहा है
अभी कोई टिप्पणी नहीं है.