25 पॉइंट द्वारा GN⁺ 2025-04-03 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • टेक इंडस्ट्री में हर कुछ वर्षों में जब भी कोई नई AI तकनीक आती है, यह भ्रम फिर दोहराया जाता है कि “इस बार natural language interface सब कुछ बदल देगा”
  • Siri, Alexa, चैटबॉट, AirPods platform, और हाल में बड़े language model (LLM) भी इसी धारा में आए हैं
  • लेकिन वास्तव में हम कंप्यूटर का उपयोग जिस तरह करते हैं, उसमें लगभग कोई बदलाव नहीं आता
  • लोग अक्सर मान लेते हैं कि natural language “स्वाभाविक है, इसलिए वही अंतिम रूप होगा”
  • इस लेख का तर्क यह है कि natural language interface कोई आदर्श अवस्था नहीं है, और वास्तव में यह कोई efficient तरीका भी नहीं है

Natural language धीमा और high-loss data transfer का तरीका है

  • Natural language, विचारों और ज्ञान को इंसानों के बीच आदान-प्रदान करने का एक data transfer mechanism है
  • Data transfer में दो महत्वपूर्ण तत्व हैं: speed और lossiness
  • हम सोचते बहुत तेज़ हैं, लगभग 1,000~3,000 शब्द प्रति मिनट के स्तर पर, लेकिन बोलने या लिखने की गति उससे बहुत धीमी होती है
  • उदाहरण के लिए, पढ़ना/सुनना (receive) तेज़ है लेकिन लिखना/बोलना (send) धीमा है → natural language एक bottleneck है
  • इसके बजाय लोग gesture (जैसे thumbs up, सिर हिलाना आदि) का उपयोग करके अधिक तेज़ और संक्षिप्त संचार करते हैं
  • यह तरीका data compression जैसा है → इसमें loss होता है, लेकिन speed और convenience के लिहाज़ से यह उत्कृष्ट है
  • इसका सबसे efficient उदाहरण वह क्षण है जब कोई पुराना दंपति बिना बोले एक-दूसरे की ज़रूरत समझ जाता है

इंसान और कंप्यूटर के बीच interaction का विकास

  • शुरुआती कंप्यूटर command-based text interface का उपयोग करते थे, लेकिन GUI आने के बाद visual elements के ज़रिए काम करना कहीं आसान हो गया
  • फिलहाल हम GUI और keyboard shortcuts के संयोजन वाली productivity balance state में हैं
  • ⌘b, ⌘t, ⌘c/v जैसे shortcuts natural language नहीं, बल्कि data compression के तरीके हैं, इसलिए वे कहीं अधिक तेज़ और efficient हैं
  • Linear, Raycast, Superhuman जैसे tools इस compressed input को चरम तक ले जाते हैं → एक बार आदत हो जाए तो लगभग सोचते ही काम होने लगता है
  • Touch interface ने पूरक भूमिका तो पा ली है, लेकिन गंभीर productivity work अब भी desktop पर ही होता है
  • Mobile पर text input धीमा और असुविधाजनक है (औसत 36WPM) → mobile के लिए उपयुक्त shortcut विकल्प नहीं है
  • इसी वजह से mobile productivity tools desktop जितने विकसित नहीं हो पाए

Input speed के मामले में conversational interface कमज़ोर है

  • Voice, typing से तेज़ input माध्यम है (150WPM vs 60WPM), लेकिन वास्तविक उपयोग में यह inefficient है
  • उदाहरण: “Hey Google, मौसम बताओ” कहना, app icon दबाने से 10 गुना धीमा है
  • Siri और Alexa के असफल होने का कारण AI output की गुणवत्ता नहीं, बल्कि input method की झंझट है
  • LLM भी input method की इस inefficiency को हल नहीं कर पाते
  • जो काम एक बटन से हो सकता है, उसे पूरे वाक्य में समझाना वास्तव में पीछे जाना है

Conversational UI का उपयोग पूरक साधन के रूप में होना चाहिए

  • LLM, मौजूदा interface को replace करने के बजाय, उसे complement करने के रूप में बेहद उपयोगी हैं
  • लेखक ने वास्तव में टहलते समय ChatGPT के साथ voice conversation के ज़रिए इस लेख का draft तैयार किया → यानी LLM को सोच के साझेदार की तरह उपयोग किया
  • यह speed-केंद्रित नहीं बल्कि thought-centered काम है, और मौजूदा workflow को replace नहीं करता बल्कि पूरी तरह नया use case बनाता है
  • इसका सबसे आदर्श उदाहरण StarCraft II में Alexa को सहायक input माध्यम के रूप में इस्तेमाल करने वाला एक hackathon case है
    • इसमें mouse/keyboard को replace नहीं किया गया, बल्कि voice को अतिरिक्त input method के रूप में जोड़कर data transfer bandwidth बढ़ाई गई
  • Figma, Notion, Excel जैसे tools के chat UI से replace होने की संभावना नहीं है
  • इसके बजाय LLM को tools के बीच जोड़ने वाली always-on meta layer बनना चाहिए
    • उदाहरण: उपयोगकर्ता mouse या keyboard से काम करते हुए भी voice में छोटे command चला सके
  • इसके लिए AI को एक single app नहीं, बल्कि operating system स्तर पर काम करना होगा
  • साथ ही, voice input को और तेज़ बनाने के तरीके (जैसे सीटी, emotion recognition आदि) भी चाहिए
  • Conversational interface में भी अंततः speed और convenience ही सबसे महत्वपूर्ण हैं

निष्कर्ष: प्रतिस्थापन नहीं, पूरकता के नज़रिए से देखना चाहिए

  • इस लेख का शीर्षक click के लिए किया गया अतिशयोक्ति है
  • असली तर्क “conversational interface के विरोध” का नहीं, बल्कि zero-sum सोच के विरोध का है
  • AI, मौजूदा interface को replace नहीं करता, बल्कि नई संभावनाएँ खोलने वाला पूरक तत्व है
  • आदर्श भविष्य वह है जिसमें इंसान और कंप्यूटर स्वाभाविक और अवचेतन interaction कर सकें
    • जैसे सुबह की मेज़ पर बिना कुछ कहे अपने-आप मक्खन आगे बढ़ा दिया जाए

5 टिप्पणियां

 
dbs0829 2025-04-04

मैंने भी इंटरफ़ेस के पहलू से इसी तरह की चिंता की थी, लेकिन कोई उपयुक्त नया इंटरफ़ेस सूझा ही नहीं।

 
winterjung 2025-04-03

मुख्य लेख में परिचित कराया गया https://upsidelab.io/blog/design-voice-user-interface-starcraft लेख 2018 का होने के बावजूद दिलचस्प लगता है।

 
girr311 2025-04-03

भविष्य में यह किस तरीके से चुना जाएगा और इस्तेमाल किया जाएगा, यह जानने की जिज्ञासा है।

 
fantajeon 2025-04-03

इंसान बातचीत के दौरान अनिश्चितता को पसंद नहीं करते, इसलिए सटीक शब्दों का उपयोग करने की इच्छा छोड़ना मुश्किल है। लेकिन ChatAI या LLM मूल रूप से अनिश्चितता को समेटे होते हैं। अगर probabilistic जानकारी केवल मेरे पास हो तो ठीक है, लेकिन अगर सामने वाला भी probability पर निर्भर हो तो तनाव होता है। कभी-कभी deterministic तरीका मन को अधिक सहज लग सकता है।

 
GN⁺ 2025-04-03
Hacker News राय
  • यह उन लोगों को कई बातों को स्पष्ट रूप से समझाने वाली सामग्री है जो कंप्यूटर के साथ "संवाद" में रुचि रखते हैं

    • दिए गए उदाहरण में ऐसी स्थिति की कल्पना कराई गई है जहाँ कार चलाते समय केवल बोलकर ही उसे नियंत्रित किया जाए
    • यह असुविधाजनक है, इससे यात्रियों से बात नहीं की जा सकती, और कंप्यूटर से बातचीत का मतलब उससे मनचाहा काम कराना है
    • प्राकृतिक भाषा में बोलने से भी अधिक सरल और तेज़ तरीके मौजूद हैं
  • लेख में कुछ गलत बातें हैं

    • "प्राकृतिक भाषा एक data transmission mechanism है" यह दावा
    • data transmission mechanism में गति और loss महत्वपूर्ण होते हैं
    • प्राकृतिक भाषा में ये दोनों गुण नहीं हैं
    • conversational interface की मुख्य विशेषताएँ सूचना पहुँचाने से अधिक "अज्ञान का सुख" और "बुद्धिमान व्याख्या" हैं
    • "अज्ञान का सुख" का अर्थ है कि आप लक्ष्य बता सकते हैं बिना यह जाने कि उसे कैसे हासिल करना है
    • "बुद्धिमान व्याख्या" का अर्थ है कि आदेशों की जगह इरादे को समझा जा सकता है
    • टीम प्रबंधन की तरह, अनुभवी टीम को साधारण निर्देश देकर भी अच्छे परिणाम की उम्मीद की जा सकती है
  • Star Trek conversational interface के उचित उपयोग को अच्छी तरह दिखाता है

    • voice interface मैनुअल input को पूरक करता है और एक सहायक चैनल के रूप में इस्तेमाल होता है
    • यह किसी खास control input को आवाज़ से देने के लिए नहीं, बल्कि delegation, query, और स्थान-स्वतंत्र उपयोग के लिए उपयुक्त है
    • voice interaction का उपयोग व्याख्यात्मक रूप में किया गया था, और शायद इस बात की अच्छी समझ थी कि क्या अटपटा लगेगा
  • voice UI, keyboard/mouse के साथ इस्तेमाल होने पर सबसे प्रभावी होता है

    • visual memory और auditory memory के अलग-अलग buffer होते हैं, और auditory buffer में कुछ अतिरिक्त क्षमता होती है
    • मौसम के बारे में आवाज़ से पूछना app खोलने से तेज़ है
    • भाषा अपने-आप compress होती है और जटिल अवधारणाओं के लिए नए शब्द बना लेती है
    • जैसे किताबों के शीर्षक छोटे करके बोले जाते हैं, वैसे ही voice UI को भी कुशल बनाया जा सकता है
  • voice input को और तेज़ी से transmit करने के तरीके खोजने की ज़रूरत है

    • Travis Rudd का आवाज़ से Python coding करने वाला वीडियो याद आता है
    • voice interface से अध्ययन सामग्री पढ़ना और quiz हल करना प्रभावशाली अनुभव था
  • लेख का शीर्षक गलतफ़हमी पैदा कर सकता है

    • click को उकसाने वाले शीर्षक अच्छे नहीं होते
  • बहिर्मुखी और प्रबंधकीय स्वभाव वाले लोग समस्या हल करने के लिए बातें फेंकना पसंद करते हैं

    • email लिखते समय यह प्रभाव देना महत्वपूर्ण माना जाता है कि कई विकल्पों पर विचार किया गया है
    • जो लोग वास्तव में काम करते हैं, वे समझते हैं कि कंप्यूटर से बातें फेंकना अक्षम तरीका है
  • 20-30 साल पहले तक मनुष्य computerised नहीं थे

    • wearable computing को भविष्य बताया गया था
    • लेकिन screen और remote control की लत लगना मानवीय नहीं है
    • लोग remote control का उपयोग करना अधिक पसंद करते हैं
  • text-to-CAD AI tools उपयोगकर्ता की ज़रूरतों को ठीक से नहीं समझते

    • machine shop को चित्र चाहिए, 300 शब्दों की कविता नहीं
  • कंप्यूटर के साथ संबंध telepathy जैसा होना चाहिए

    • कंप्यूटर का सब कुछ अपने ऊपर ले लेना और भी बुरा है
    • इंसानों को कंप्यूटर की तरह सोचने की ट्रेनिंग देना ज़्यादा आसान है
    • JavaScript अपनी 20% क्षमता से 80% समस्याएँ हल कर देता है
    • ChatGPT/Bard/Gemini, JavaScript की जगह लिख देते हैं
    • mobile interface typing के लिए उपयुक्त नहीं है