- टेक इंडस्ट्री में हर कुछ वर्षों में जब भी कोई नई AI तकनीक आती है, यह भ्रम फिर दोहराया जाता है कि “इस बार natural language interface सब कुछ बदल देगा”
- Siri, Alexa, चैटबॉट, AirPods platform, और हाल में बड़े language model (LLM) भी इसी धारा में आए हैं
- लेकिन वास्तव में हम कंप्यूटर का उपयोग जिस तरह करते हैं, उसमें लगभग कोई बदलाव नहीं आता
- लोग अक्सर मान लेते हैं कि natural language “स्वाभाविक है, इसलिए वही अंतिम रूप होगा”
- इस लेख का तर्क यह है कि natural language interface कोई आदर्श अवस्था नहीं है, और वास्तव में यह कोई efficient तरीका भी नहीं है
Natural language धीमा और high-loss data transfer का तरीका है
- Natural language, विचारों और ज्ञान को इंसानों के बीच आदान-प्रदान करने का एक data transfer mechanism है
- Data transfer में दो महत्वपूर्ण तत्व हैं: speed और lossiness
- हम सोचते बहुत तेज़ हैं, लगभग 1,000~3,000 शब्द प्रति मिनट के स्तर पर, लेकिन बोलने या लिखने की गति उससे बहुत धीमी होती है
- उदाहरण के लिए, पढ़ना/सुनना (receive) तेज़ है लेकिन लिखना/बोलना (send) धीमा है → natural language एक bottleneck है
- इसके बजाय लोग gesture (जैसे thumbs up, सिर हिलाना आदि) का उपयोग करके अधिक तेज़ और संक्षिप्त संचार करते हैं
- यह तरीका data compression जैसा है → इसमें loss होता है, लेकिन speed और convenience के लिहाज़ से यह उत्कृष्ट है
- इसका सबसे efficient उदाहरण वह क्षण है जब कोई पुराना दंपति बिना बोले एक-दूसरे की ज़रूरत समझ जाता है
इंसान और कंप्यूटर के बीच interaction का विकास
- शुरुआती कंप्यूटर command-based text interface का उपयोग करते थे, लेकिन GUI आने के बाद visual elements के ज़रिए काम करना कहीं आसान हो गया
- फिलहाल हम GUI और keyboard shortcuts के संयोजन वाली productivity balance state में हैं
- ⌘b, ⌘t, ⌘c/v जैसे shortcuts natural language नहीं, बल्कि data compression के तरीके हैं, इसलिए वे कहीं अधिक तेज़ और efficient हैं
- Linear, Raycast, Superhuman जैसे tools इस compressed input को चरम तक ले जाते हैं → एक बार आदत हो जाए तो लगभग सोचते ही काम होने लगता है
- Touch interface ने पूरक भूमिका तो पा ली है, लेकिन गंभीर productivity work अब भी desktop पर ही होता है
- Mobile पर text input धीमा और असुविधाजनक है (औसत 36WPM) → mobile के लिए उपयुक्त shortcut विकल्प नहीं है
- इसी वजह से mobile productivity tools desktop जितने विकसित नहीं हो पाए
Input speed के मामले में conversational interface कमज़ोर है
- Voice, typing से तेज़ input माध्यम है (150WPM vs 60WPM), लेकिन वास्तविक उपयोग में यह inefficient है
- उदाहरण: “Hey Google, मौसम बताओ” कहना, app icon दबाने से 10 गुना धीमा है
- Siri और Alexa के असफल होने का कारण AI output की गुणवत्ता नहीं, बल्कि input method की झंझट है
- LLM भी input method की इस inefficiency को हल नहीं कर पाते
- जो काम एक बटन से हो सकता है, उसे पूरे वाक्य में समझाना वास्तव में पीछे जाना है
Conversational UI का उपयोग पूरक साधन के रूप में होना चाहिए
- LLM, मौजूदा interface को replace करने के बजाय, उसे complement करने के रूप में बेहद उपयोगी हैं
- लेखक ने वास्तव में टहलते समय ChatGPT के साथ voice conversation के ज़रिए इस लेख का draft तैयार किया → यानी LLM को सोच के साझेदार की तरह उपयोग किया
- यह speed-केंद्रित नहीं बल्कि thought-centered काम है, और मौजूदा workflow को replace नहीं करता बल्कि पूरी तरह नया use case बनाता है
- इसका सबसे आदर्श उदाहरण StarCraft II में Alexa को सहायक input माध्यम के रूप में इस्तेमाल करने वाला एक hackathon case है
- इसमें mouse/keyboard को replace नहीं किया गया, बल्कि voice को अतिरिक्त input method के रूप में जोड़कर data transfer bandwidth बढ़ाई गई
- Figma, Notion, Excel जैसे tools के chat UI से replace होने की संभावना नहीं है
- इसके बजाय LLM को tools के बीच जोड़ने वाली always-on meta layer बनना चाहिए
- उदाहरण: उपयोगकर्ता mouse या keyboard से काम करते हुए भी voice में छोटे command चला सके
- इसके लिए AI को एक single app नहीं, बल्कि operating system स्तर पर काम करना होगा
- साथ ही, voice input को और तेज़ बनाने के तरीके (जैसे सीटी, emotion recognition आदि) भी चाहिए
- Conversational interface में भी अंततः speed और convenience ही सबसे महत्वपूर्ण हैं
निष्कर्ष: प्रतिस्थापन नहीं, पूरकता के नज़रिए से देखना चाहिए
- इस लेख का शीर्षक click के लिए किया गया अतिशयोक्ति है
- असली तर्क “conversational interface के विरोध” का नहीं, बल्कि zero-sum सोच के विरोध का है
- AI, मौजूदा interface को replace नहीं करता, बल्कि नई संभावनाएँ खोलने वाला पूरक तत्व है
- आदर्श भविष्य वह है जिसमें इंसान और कंप्यूटर स्वाभाविक और अवचेतन interaction कर सकें
- जैसे सुबह की मेज़ पर बिना कुछ कहे अपने-आप मक्खन आगे बढ़ा दिया जाए
5 टिप्पणियां
मैंने भी इंटरफ़ेस के पहलू से इसी तरह की चिंता की थी, लेकिन कोई उपयुक्त नया इंटरफ़ेस सूझा ही नहीं।
मुख्य लेख में परिचित कराया गया https://upsidelab.io/blog/design-voice-user-interface-starcraft लेख 2018 का होने के बावजूद दिलचस्प लगता है।
भविष्य में यह किस तरीके से चुना जाएगा और इस्तेमाल किया जाएगा, यह जानने की जिज्ञासा है।
इंसान बातचीत के दौरान अनिश्चितता को पसंद नहीं करते, इसलिए सटीक शब्दों का उपयोग करने की इच्छा छोड़ना मुश्किल है। लेकिन ChatAI या LLM मूल रूप से अनिश्चितता को समेटे होते हैं। अगर probabilistic जानकारी केवल मेरे पास हो तो ठीक है, लेकिन अगर सामने वाला भी probability पर निर्भर हो तो तनाव होता है। कभी-कभी deterministic तरीका मन को अधिक सहज लग सकता है।
Hacker News राय
यह उन लोगों को कई बातों को स्पष्ट रूप से समझाने वाली सामग्री है जो कंप्यूटर के साथ "संवाद" में रुचि रखते हैं
लेख में कुछ गलत बातें हैं
Star Trek conversational interface के उचित उपयोग को अच्छी तरह दिखाता है
voice UI, keyboard/mouse के साथ इस्तेमाल होने पर सबसे प्रभावी होता है
voice input को और तेज़ी से transmit करने के तरीके खोजने की ज़रूरत है
लेख का शीर्षक गलतफ़हमी पैदा कर सकता है
बहिर्मुखी और प्रबंधकीय स्वभाव वाले लोग समस्या हल करने के लिए बातें फेंकना पसंद करते हैं
20-30 साल पहले तक मनुष्य computerised नहीं थे
text-to-CAD AI tools उपयोगकर्ता की ज़रूरतों को ठीक से नहीं समझते
कंप्यूटर के साथ संबंध telepathy जैसा होना चाहिए