- ChatGPT के बाद उभरे text-based interfaces शक्तिशाली हैं, लेकिन पारंपरिक GUI तरीकों की तुलना में कम intuitive हैं
- भविष्य का UI चैट की जगह ‘context के अनुरूप actions’, intelligent search, automatic organization, instant feedback देने वाले रूप में विकसित हो रहा है
- उदाहरण: AI-आधारित right-click menu, natural language search field, command bar, Figma का AI layer organization, Grammarly के real-time suggestions आदि
- उपयोगकर्ता अगला क्या करेगा इसका अनुमान लगाकर अपने-आप सुझाव देने, बल्कि UI को ही LLM द्वारा real time में generate करने तक के प्रयास चल रहे हैं
- पारंपरिक software धीरे-धीरे पुराना महसूस होने लगेगा, और नए patterns पर आधारित products के मौजूदा products को replace करने की संभावना बढ़ रही है
चैट, terminal की ओर वापसी
- LLM chat शक्तिशाली और flexible है, और programming करना भी आसान है
- लेकिन यह intuitive नहीं है और operate करना असुविधाजनक है, और beginners के लिए डराने वाला भी हो सकता है, जो पुराने terminal जैसा है
> चैट debug interface के रूप में उपयोगी है, लेकिन इसे default UX नहीं बनना चाहिए
document-केंद्रित + सहायक chat UI
- ChatGPT Canvas की तरह document या code केंद्र में हो, और chat को सहायक साधन के रूप में रखा जाए — ऐसा UI फैल रहा है
- Copilot in Excel, Cursor IDE आदि में भी ऐसा अनुभव देखा जा सकता है
generative right-click menu
- AI features को context menu में स्वाभाविक रूप से रखा जा सकता है
- उदाहरण: Dia browser cursor की स्थिति के अनुसार सीधे AI commands suggest करता है
- शुरुआती चरण में menu ज़रूरत से ज़्यादा जटिल हो सकता है, आगे चलकर refinement की ज़रूरत होगी
intuitive natural language search
- “air canada confirmation” की जगह “मेरी business trip की flight कब है?” जैसा search किया जा सकता है
- उदाहरण: Superhuman की natural language email search, Figma की base design search
- सटीक keywords याद रखना मांगने वाला UX धीरे-धीरे गायब हो रहा है
चयन के बजाय input: ज़्यादा मानवीय control तरीका
- filters, dates, styles जैसे मौजूदा UI अक्सर dropdown-आधारित selection पर निर्भर हैं
- अब natural language में “अगले बुधवार” input करना ज़्यादा स्वाभाविक है
- command bar(Command-K), autocomplete-आधारित instant execution interface तेज़ी से फैल रहे हैं
inline feedback
- spelling के अलावा style, claims, source requirements जैसी inline AI feedback भी संभव है
- Maggie Appleton का “writing daemon” विचार: अलग-अलग व्यक्तित्व वाले feedback characters के ज़रिये real-time सलाह देना
automatic organization features
- Figma की AI layer renaming की तरह बिखरी हुई files को भी automatically structure किया जा सकता है
- इससे भी जटिल organization को बिना चैट वाले तरीके से स्वाभाविक रूप से लागू किया जा सकता है
summary और information extraction
- Apple Intelligence हल्की-फुल्की बातचीत से भी मुख्य जानकारी का summary देता है (“आज की appointment cancel, अगले हफ्ते पर move” आदि)
- information overload के दौर में सिर्फ signal निकालकर देने वाली non-chat AI summary features आवश्यक होती जा रही हैं
voice + multimodal
- voice interface भी चैट की तरह केवल linear conversation तक सीमित नहीं रहना चाहिए
- उदाहरण: mouse से किसी button की ओर इशारा करते हुए “यह code कहाँ है?” कहा जाए, और LLM code location खोल दे
- pointing + speaking को साथ में इस्तेमाल करने वाले मानवीय multimodal interfaces अब संभव हो रहे हैं
“अगला काम” सुझाव: Tab key की तरह स्वाभाविक
- उपयोगकर्ता के pattern के आधार पर अगला action suggest करना
- Grammarly के typo suggestions, Cursor के Tab key autocomplete pattern
- दोहराए जाने वाले कामों में उपयोगकर्ता की मेहनत घटाकर रचनात्मक सोच पर ध्यान केंद्रित करने में मदद
अंतिम चरण: LLM real time में UI generate करे
- bolt.new की तरह UI code generation पहले से वास्तविकता बन चुका है
- आगे बढ़कर किसी खास user goal के मुताबिक UI को ही real time में generate करने की दिशा भी उभर रही है
- कमी: सीखना मुश्किल हो सकता है, और UI state हर user के लिए अलग हो सकती है
- अतीत में Office XP के adaptive menu (IntelliMenus) एक असफल उदाहरण रहे हैं
- लेकिन अगर LLM पर्याप्त रूप से शक्तिशाली हो, तो इसके नए standard UI pattern के रूप में स्थापित होने की संभावना भी है
अब बनाने का समय है
- ऐसे AI-आधारित UI patterns धीरे-धीरे पूरे software को फिर से आकार दे रहे हैं
- पारंपरिक UX समय से पीछे छूटा हुआ दिखेगा, और जो products इसे पहले अपनाएँगे वे नई user expectations सेट करेंगे
- जिस तरह GUI ने terminal की जगह ली थी, उसी तरह अब software UX की दुनिया फिर एक बार पलटने के दौर में है
4 टिप्पणियां
मेरी भी कुछ ऐसी ही सोच है.
हाल ही में मैं files के नाम bulk में बदलने वाला एक program ढूंढ रहा था.. लेकिन जिन programs में सारे features थे, उनमें menus सचमुच बेहिसाब थे और उन्हें इस्तेमाल करना भी बहुत जटिल था.
फ़ाइल नाम के पीछे '_' जोड़ दोजैसे साधारण काम के लिए भी usage सीखना पड़ता है.. तो जितना powerful, उतना अजीब होना लगभग तय है.इसलिए मैंने इसे LLM का इस्तेमाल करके नया बना लिया. असली file names बदलने वाले code वाले हिस्से को LLM से generate करवाया. ऐसा करने पर जटिल UI को पूरी तरह हटाया जा सकता है.
मुख्य बात यह है कि LLM को आखिरकार अंदर ही अंदर code generate करके उसे real time में execute करना होगा,
और यही वह बिंदु है जहाँ यह मौजूदा software या UX की अवधारणा से बुनियादी तौर पर अलग हो जाता है.
पहले सारा logic पहले से तैयार रहता था, और उस logic को user से जोड़ना ही UI का मूल था, लेकिन अब logic भी dynamic हो गया है, इसलिए UI को ऐसे dynamic code generation को संभव बनाने की भूमिका भी निभानी होगी.
लेकिन मुझे नहीं लगता कि यह सब कुछ replace कर पाएगा. कुछ चीज़ों में मौजूदा UI ही ज़्यादा सुविधाजनक है.
(कोई संशोधन नहीं था, इसलिए जोड़ रहा हूँ.)
https://www.bulkrenameutility.co.uk/#mainscreen
ऊपर दिए गए जैसे मौजूदा sw, अगर LLM लागू हो जाए, तो नीचे की तरह बदल सकते हैं.
https://localfile.io/ko/run/rename/
UIUX का परिदृश्य बदलने के लिए शायद प्लेटफ़ॉर्म को भी फोन या मॉनिटर जैसे form factor से बाहर निकलने की कोशिश करनी होगी।
https://x.com/karpathy/status/1917920257257459899
Andrej Karpathy की राय से भी एक बार तुलना करके देखना अच्छा रहेगा।
LLM के साथ 'chat' करने का अनुभव मानो 80 के दशक के computer terminal का उपयोग करने जैसा है। GUI (graphical user interface) अभी तक आविष्कृत नहीं हुआ है, लेकिन मुझे लगता है कि उसकी कुछ विशेषताओं का अनुमान अभी से लगाया जा सकता है।
यह visual होगा (पुराने GUI की तरह)। क्योंकि visual information (तस्वीरें, charts, animations आदि — पढ़ने की तुलना में देखने वाली चीज़ें) दिमाग में जाने वाले 10-लेन हाईवे जैसी होती हैं। Vision के पास सबसे अधिक information input bandwidth होती है, और दिमाग की computation का लगभग 1/3 हिस्सा visual processing के लिए आवंटित होता है।
यह generative होगा और input conditions के अनुसार बदलता रहेगा। यानी GUI उपयोगकर्ता के prompt के हिसाब से real time में generate होगा, और उसके सभी elements उसी तत्काल उद्देश्य के लिए मौजूद होंगे और उसी के अनुसार व्यवस्थित किए जाएंगे।
थोड़ा अधिक open question इसका 'procedural' स्वभाव किस हद तक होगा, यह है। एक छोर पर हम यह कल्पना कर सकते हैं कि एक बहुत बड़ा diffusion model पूरे output canvas को एक साथ बना दे, और दूसरे छोर पर (procedurally generated) React components से भरा एक page हो (जैसे: images, charts, animations, diagrams आदि)। मुझे लगता है कि यह दोनों का मिश्रण होगा, लेकिन दूसरा वाला उसका बुनियादी ढांचा बनेगा।
लेकिन मैं अभी यह कह सकता हूँ कि जैसे-जैसे क्षमता लगभग अनंत के करीब जाएगी, fluid, magical, और ephemeral interactive 2D canvas GUI उसका अंतिम रूप होगा। और मेरा मानना है कि यह पहले ही धीरे-धीरे शुरू हो चुका है (जैसे: code block/highlighting, LaTeX blocks, Markdown का bold/italic/list/table, emoji, और अधिक महत्वाकांक्षी रूप में Artifacts tab, Mermaid charts या उससे भी अधिक पूर्ण apps आदि)। बेशक, अभी यह सब बहुत शुरुआती और आदिम स्तर पर है।
Iron Man, और कुछ हद तक Star Trek/Minority Report, इस दिशा को दिखाने वाले लोकप्रिय संस्कृति में AI/UI के अच्छे उदाहरण कहे जा सकते हैं।