AI युग की "बिना घोड़े की बग्गी"

(koomen.dev)

21 पॉइंट द्वारा GN⁺ 2025-04-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें

AI से software बनाना मज़ेदार और उत्पादक है, लेकिन ज़्यादातर AI apps पुराने तरीकों की नकल करने वाली "बिना घोड़े की बग्गी (horseless carriage)" की तरह अक्षम हैं
Gmail का AI email assistant जरूरत से ज़्यादा औपचारिक नतीजे देता है और उपयोगकर्ता के मुताबिक अनुभव नहीं दे पाता
सच में उपयोगी AI apps को उपयोगकर्ता को System Prompt बदलने देना चाहिए ताकि वे personalized agent बना सकें
AI युग का आदर्श app पुराने program की नकल करने वाला नहीं, बल्कि उपयोगकर्ता के दोहराव वाले काम कम करने और automation के ज़रिए असली productivity बढ़ाने वाला AI-native software होना चाहिए
AI की असली क्षमता रोज़मर्रा के कामों के automation में है, ताकि उपयोगकर्ता महत्वपूर्ण और रचनात्मक कामों पर ध्यान दे सके

AI से बने apps की तुलना में, AI का उपयोग करके software बनाना ज़्यादा मज़ेदार क्यों है

हाल ही में एक दिलचस्प बात समझ में आई: ज़्यादातर AI-आधारित apps का उपयोग करने की तुलना में, AI का इस्तेमाल करके खुद software बनाना ज़्यादा आनंददायक और उत्पादक है
जब AI को development tool की तरह इस्तेमाल किया जाता है, तो लगभग कल्पना की जा सकने वाली कोई भी चीज़ जल्दी बना लेने का एहसास होता है
इसके उलट, कई AI apps में AI फीचर बस ऊपर से चिपकाया हुआ लगता है, और उनका वास्तविक उपयोग कम या उलटा असुविधाजनक होता है

AI युग की ‘बिना घोड़े की बग्गी’

आज कई AI apps मूल रूप से पुराने software design को ज्यों का त्यों अपनाते हैं
इससे LLM जैसे शक्तिशाली models बेवजह सीमित हो जाने वाली संरचना में फँस जाते हैं
इसे AI युग की बिना घोड़े की बग्गी (horseless carriages) कहा गया है
- यह उस इतिहास जैसा है जहाँ शुरुआती automobiles ने बग्गी का ढाँचा अपनाया और अक्षम साबित हुए

खराब तरह से डिज़ाइन किए गए AI app का उदाहरण: Gmail का AI assistant

Gmail ने हाल ही में Gemini model का उपयोग करके email draft बनाने वाली सुविधा जारी की
उदाहरण में उपयोगकर्ता (लेखक) अपने boss को भेजने के लिए email draft माँगता है

Prompt: boss को email draft लिखने के लिए कहना

Gemini द्वारा बनाया गया draft व्याकरण की दृष्टि से बेहतरीन है, लेकिन लेखक वास्तव में जैसे लिखता, उससे बिल्कुल अलग है
- लेखक की वास्तविक शैली: "hey garry, my daughter woke up with the flu so I won't make it in today"
- Gemini का नतीजा हद से ज़्यादा formal और अप्राकृतिक है
नतीजतन, खुद email लिखने से भी ज़्यादा समय लग जाता है
लेखक इसे “कम प्रदर्शन करने वाले कर्मचारी को manage करने जैसा अहसास” बताता है
लाखों Gmail उपयोगकर्ताओं का अनुभव भी ऐसा ही रहा होगा, और इससे उन्हें यह गलतफहमी हो सकती है कि AI अभी email अच्छी तरह नहीं लिख पाता
लेकिन समस्या Gemini model में नहीं, बल्कि Gmail team के app design तरीके में है

बेहतर email assistant का उदाहरण

अगर Gmail ने नीचे दिए गए तरीके से email assistant बनाया होता, तो वह कहीं ज़्यादा उपयोगी होता

email reading agent का उदाहरण

यह demo email लिखने के बजाय, उन्हें पढ़ने और process करने के तरीके से काम करता है
इस्तेमाल किए गए tools:
- labelEmail(label, color, priority) : email पर label लगाना
- archiveEmail() : email को archive करना
- draftReply(body) : reply draft बनाना
inbox में मौजूद emails इस तरह क्रम में हैं:
- TechCrunch Weekly
- Gustaf Alströmer - founder intro?
- HackerNews Digest
- The Verge Updates
- Garry Tan - reschedule
- आदि, कुल 12
हर email को अपने आप classify और prioritize किया जाता है, और कुछ के लिए auto reply draft या auto archive भी किया जाता है
हर email उपयोगकर्ता द्वारा परिभाषित System Prompt के अनुसार अलग-अलग process होता है
उपयोगकर्ता System Prompt को खुद बदलकर अपनी labeling logic दिखा सकता है

यह तरीका कहीं ज़्यादा शक्तिशाली, सहज और उत्पादक है, तो Gmail team ने ऐसा design क्यों नहीं किया?

समस्या का मूल: "एक जैसा और सपाट tone"
- Gmail के design से पैदा हुई सबसे बड़ी समस्याओं में एक है रूढ़िबद्ध और बिना व्यक्तित्व की शैली

AI Slop: औपचारिक और अटपटा output

Gmail के Gemini द्वारा बनाया गया email draft बहुत लंबा, बहुत औपचारिक और लेखक की शैली से बिल्कुल अलग है
ऐसा output उलटा phishing email जैसा भी लग सकता है
ज़्यादातर LLM उपयोगकर्ताओं ने ऐसा अनुभव किया है, और इससे बचने के लिए वे स्वाभाविक रूप से prompt hacking जैसी रणनीति अपनाने लगते हैं
- उदाहरण prompt:
  
  "let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"
output की गुणवत्ता बेहतर हो जाती है, लेकिन prompt बहुत लंबा हो जाता है और हर बार यह प्रक्रिया दोहरानी पड़ती है, इसलिए यह अक्षम है
इस समस्या का सरल समाधान: उपयोगकर्ता को System Prompt बदलने का अधिकार देना

System Prompt और User Prompt का अंतर

LLM मूल रूप से दिए गए शब्दों (prompt) के आधार पर अगले शब्द की भविष्यवाणी करने वाली प्रणाली है
सारे input और output text के रूप में होते हैं
- इस लेख में सरलता के लिए केवल text-केंद्रित interface की बात की गई है, जबकि वास्तव में आवाज़ या वीडियो भी input/output हो सकते हैं
OpenAI, Anthropic आदि इसे सरल बनाने के लिए prompt को System Prompt और User Prompt में बाँटने वाली संरचना अपनाते हैं
- System Prompt: agent के व्यक्तित्व और व्यवहार के तरीके को परिभाषित करता है (function जैसा)
- User Prompt: उपयोगकर्ता की खास request या question (input value जैसा)
- model का response: output value

उदाहरण:

User Prompt: "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."

Gmail का अनुमानित System Prompt:

"You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."

समस्या यह है कि Gmail इस System Prompt को न तो दिखाता है, न उपयोगकर्ता को बदलने देता है

Pete का custom System Prompt

अगर Gmail एक जैसे System Prompt की जगह उपयोगकर्ता को खुद लिखने का अधिकार देता, तो वह कुछ ऐसा होता:

You're Pete, a 43 year old husband, father, programmer, and YC Partner.
You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
Do your best to be kind, and don't be so informal that it comes across as rude.
इस तरह के System Prompt के आधार पर GPT से email बनवाने पर ऐसा नतीजा मिल सकता है:

Garry, my daughter has the flu. I can't come in today.
यह नतीजा छोटा, निजी और उपयोगकर्ता की वास्तविक शैली के अनुरूप है
सबसे बड़ा फायदा यह है कि इस System Prompt को दोबारा इस्तेमाल किया जा सकता है, इसलिए आगे लिखे जाने वाले सभी emails में यही शैली लागू होगी

user prompt लिखने का आनंद और संभावना

LLM को सिखाकर अपने जैसा सोचने देना और उसका नतीजा तुरंत देखना बहुत सहज और आनंददायक अनुभव है
उपयोगकर्ताओं को सलाह दी जाती है कि वे अपनी लेखन शैली परिभाषित करने वाला “अपना System Prompt” लिखकर देखें
- उदाहरण User Prompt:
  
  "Let my wife know I'll be home from work late and will miss dinner"
  "Write an email to comcast customer service explaining that they accidentally double billed you last month."
अगर अच्छा output आता है, तो इसका मतलब है कि निर्देश पर्याप्त थे; नहीं तो उन्हें और बेहतर बनाकर दोहराया जा सकता है
यह इंसान को सिखाने की तुलना में तेज़ और ईमानदार feedback loop की वजह से और आसान हो सकता है

ज़्यादातर AI apps System Prompt को सामने क्यों नहीं लाते?

अप्रैल 2025 तक, ज़्यादातर AI apps जानबूझकर System Prompt छिपा रहे हैं
- संबंधित लिंक: X पर जानबूझकर private design का उल्लेख
लेखक इसे उपयोगकर्ता के अधिकार और व्यक्तित्व छीनने जैसा मानता है, और कहता है कि बेहतर नतीजों और बेहतर उपयोग अनुभव के लिए System Prompt उपयोगकर्ता के लिए खुला होना चाहिए

Horseless Carriages: नई तकनीक पर पुराने युग का इस्तेमाल

जब नई तकनीक आती है, तो शुरुआती tools अक्सर पुराने तरीकों के ढाँचे की नकल करते हुए असफल होते हैं
“बिना घोड़े की बग्गी (Horseless Carriage)” उस शुरुआती automobile को दर्शाती है जिसने घोड़ा-गाड़ी का design वैसे ही अपनाया था
- उदाहरण: 1803 में Trevithick की steam carriage design
- उस समय यह design अभिनव लगा होगा, लेकिन आज देखने पर इसका मूल ढाँचा automobile के लिए अनुपयुक्त लगता है
उस समय लोग ऐसी बग्गी में बैठकर सोचते होंगे कि “engine से तो घोड़ा बेहतर है” → automobile आने से पहले तक यह सोचना वाजिब था
लेखक का कहना है कि आज AI apps की स्थिति भी कुछ ऐसी ही है
- उदाहरण: Gmail का Gemini feature, जहाँ पुराने UX design पर AI चिपका दिया गया है
पुरानी सोच “घोड़े की जगह engine लगा दो” के स्तर पर अटकी हुई थी
- आज के AI apps भी वैसे ही “मौजूदा app में AI feature जोड़ दो” तक सीमित हैं

Old World Thinking: पारंपरिक software design की सीमाएँ

पहले computer का उपयोग करने के केवल दो तरीके थे:
1. खुद programming करना
2. किसी और द्वारा बनाया गया program इस्तेमाल करना
programming कठिन होने के कारण ज़्यादातर लोग दूसरा तरीका चुनते थे
इसी वजह से software industry developer और user की भूमिकाओं को साफ़ अलग करने वाले ढाँचे में विकसित हुई
- developer: software के सामान्य behavior का निर्धारण करता है
- user: ठोस input देता है
LLM में System/User Prompt का विभाजन इसी ढाँचे को प्रतिबिंबित करता है
- System Prompt = developer का हिस्सा
- User Prompt = user का हिस्सा
लेकिन email बहुत व्यक्तिगत क्षेत्र है, और अगर AI उपयोगकर्ता की ओर से email लिखता है, तो उसे उस व्यक्ति की शैली दिखानी चाहिए
पुराने ढाँचे में, जब तक उपयोगकर्ता खुद program न लिखे, personalization मुश्किल रहती है
लेकिन LLM युग में उपयोगकर्ता खुद System Prompt लिख सकता है
- यानी, बिना programming के भी AI के behavior को design करने का समय आ चुका है

उपयोगकर्ता की चीज़ उपयोगकर्ता को लौटाएँ

लेखक का तर्क: जब LLM मेरी ओर से काम करता है, तो उसे किस तरह काम करना है (System Prompt), यह मैं ही सिखाऊँ
बेशक, हर उपयोगकर्ता शुरू से अपना Prompt लिखना नहीं चाहेगा
- Gmail उपयोगकर्ता की email history देखकर default System Prompt बना सकता है
- महत्वपूर्ण यह है कि वह Prompt उपयोगकर्ता को दिखाया जाए और उसे बदलने दिया जाए
“जो लोग prompt लिखना नहीं जानते उनका क्या?” → शुरुआत में ऐसा हो सकता है, लेकिन ज़्यादातर लोग जल्दी सीख जाते हैं
- ChatGPT की सफलता इसका प्रमाण है
अगर personal agent नहीं, बल्कि accounting या legal जैसे domain हों तो?
- System Prompt उस क्षेत्र के expert द्वारा लिखा जाना ठीक है, लेकिन expert भी अपने संदर्भ के हिसाब से उसे बदलना चाहता है
उदाहरण: YC की accounting team, YC-विशेष तरीकों, नियमों और software के मेल का उपयोग करती है
- एक सामान्य accounting AI agent, YC में बिल्कुल काम का नहीं होगा
लगभग हर accounting team का अपना तरीका होता है, इसलिए वे Excel जैसे general-purpose tools पसंद करते हैं
निष्कर्ष: ज़्यादातर AI apps में System Prompt उपयोगकर्ता को खुद लिखना और maintain करना चाहिए

AI app तैयार agent नहीं, बल्कि उपयोगकर्ता को अपना agent बनाने का tool (agent builder) होना चाहिए

developer की चीज़ developer को लौटाएँ

तो फिर developer को क्या करना चाहिए?
- किसी खास domain (जैसे email, accounting ledger आदि) के लिए विशेष agent builder UI design करना
- उपयोगकर्ताओं को शुरू से prompt न लिखना पड़े, इसके लिए templates और prompt generation helper देना
- agent के नतीजों को देखने और सुधारने के लिए feedback loop interface देना
developer को agent tools भी देने चाहिए
- email draft submit करना, auto-send, email search, external API connect करना आदि
ये tools agent के behavior की सीमा और security नियंत्रित करने का माध्यम बनते हैं
- code में लिखे गए tools से behavior सीमित करना, text prompt में constraints देने की तुलना में कहीं ज़्यादा सुरक्षित और स्पष्ट है

आगे चलकर “prompt injection” को लेकर चिंता करने वाला विचार हँसी का विषय बन सकता है
→ text structure में सीमा बनाना एक कमज़ोर abstraction का संकेत है
→ पूरे system को user space की तरह समझकर शक्तिशाली tools और UI से नियंत्रित करना चाहिए

email को "पढ़ने" वाले agent की असली अहमियत

जैसा पहले कहा गया, बेहतर System Prompt भी email draft को शुरू से लिखने में बहुत ज़्यादा समय नहीं बचाता
वजह यह है कि लेखक के emails पहले से ही बहुत छोटे और सीधे होते हैं
- यानी, user prompt की लंबाई ≒ email body की लंबाई
लेखक ने कई बार प्रयोग करके यह महसूस किया कि generative AI, text generation की तुलना में text transformation में कहीं बेहतर है
इसलिए LLM का असली उपयोग email "लिखने" में नहीं, बल्कि उन्हें "पढ़ने और process करने" में है

email reading agent demo (gpt-4o-mini आधारित)

उपलब्ध tools:
- labelEmail(label, color, priority) : email label लगाना
- archiveEmail() : email को अपने आप archive करना
- draftReply(body) : reply draft अपने आप बनाना
यह agent हर email पढ़कर:
- spam को अच्छी तरह छाँटता है
- महत्व के अनुसार label लगाता है
- summary या reply draft बनाता है
- गैरज़रूरी mail को auto archive करता है
और अगर कुछ tools और जोड़ दिए जाएँ, तो:
- unsubscribe
- calendar में schedule जोड़ना
- bill का auto payment तक संभव है
यही AI-native email client का असली काम होना चाहिए:
→ उबाऊ, दोहराए जाने वाले कामों को automate करके उपयोगकर्ता का समय बचाना
- Superhuman, Zero जैसे कुछ email clients पहले ही इसी दिशा में विकसित हो रहे हैं

AI-native software का मतलब

AI का असली killer app वह है जो “जो काम मैं नहीं करना चाहता” वह computer से करवा दे
लेखक ने इस लेख में demo इसलिए शामिल किया, ताकि यह दिखाया जा सके कि LLM वास्तव में ऐसे काम पहले से ही काफी अच्छी तरह कर सकते हैं
समस्या AI performance नहीं, बल्कि app design में है

Gmail team ने जो बनाया, वह "AI जोड़ा हुआ email app" है
→ उपयोगकर्ता के लिए automation tool नहीं, बल्कि इंसान-केंद्रित interface में AI को ज़बरदस्ती फिट किया गया रूप

इसके उलट, AI-native app को ऐसा होना चाहिए:
- किसी खास domain में उपयोगकर्ता की leverage को अधिकतम करे
- उदाहरण: AI email client, email लिखने में लगने वाला समय न्यूनतम करे
- उदाहरण: AI accounting software, accounting process में लगने वाला समय न्यूनतम करे

AI युग को लेकर उम्मीद

दोहराए जाने वाले और उबाऊ काम agent संभालें
उपयोगकर्ता महत्वपूर्ण कामों पर ध्यान दे सके
हम वे काम ज़्यादा कर सकें जिनमें हम अच्छे हैं और जिन्हें हम पसंद करते हैं

यही वजह है कि लेखक AI के भविष्य को लेकर उत्साहित है
बेहतर tools, समय का बेहतर उपयोग, और अधिक productivity

2 टिप्पणियां

crawler 2025-04-24

वास्तव में उपयोगी AI ऐप्स को यूज़र को System Prompt बदलने की अनुमति देनी चाहिए ताकि वे personalized agent बना सकें

बेशक फीचर बनाने वाले developers भी यह जानते होंगे, लेकिन jailbreak मौजूद होने तक यह आसान नहीं है।
चाहे System Prompt को बदलने से रोककर लॉक भी कर दें, फिर भी jailbreak हो जाता है, इसलिए System Prompt बदलने की अनुमति खोलना practically असंभव है।
और यह भी हो सकता है कि लोग इसे मूल फीचर से अलग किसी और काम के लिए सस्ते में इस्तेमाल करें।

GN⁺ 2025-04-24

Hacker News की राय

language model का उपयोग करके संदेशों को निजी तौर पर लिखने के मामले में सावधानी से आगे बढ़ना चाहिए। इसमें व्यक्ति के अनुभव या ज्ञान की ठोस विशिष्टता की कमी होती है
- अगर Gemini जैसे मॉडल किसी व्यक्ति के पिछले तकनीकी विवरणों या काम की विशिष्टताओं को समझ सकें, तो इसे स्वीकार करना आसान होगा
- लेकिन ज्यादातर मामलों में, यह उन ईमेल से अलग नहीं है जिन्हें 1970 के दशक का कोई सचिव भी लिख सकता था
- निजी संदेश लिखते समय summary की ज़रूरत नहीं होती, और छोटे संदेशों को फैलाना सिर्फ़ अर्थहीन शोर पैदा करता है
- AI का उपयोग करके संदेश लिखना सूचना संप्रेषण की सीमाओं को धुंधला कर देता है
लगता है कि AI features का 90% बेकार और महंगा है
- coding AI features के अलावा उपयोगी AI features ढूँढना मुश्किल है
- Gmail या iMessage की autocomplete सुविधा LLM से पहले भी मौजूद थी
- ईमेल को अधिक professional दिखाने के लिए Gmail feature का कभी उपयोग नहीं किया
Gemini एक personal assistant की तरह व्यवहार करता है और उपयोगकर्ता की ओर से ईमेल भेजता है
- निजी संदेश AI से लिखवाना सामने वाले को असहज कर सकता है
उन लोगों के साथ संवाद करना अप्रिय लगता है जो grammar और spelling की परवाह नहीं करते
- spelling गलत लिखने वालों को दोष नहीं देता, लेकिन क्षमता होने के बावजूद ध्यान न देना सामने वाले के प्रति उदासीनता दिखाता है
LLM से जुड़े interactive widget मज़ेदार थे
- Gmail का "ईमेल summary" बटन अनावश्यक लगता है
बहुत से लोग सोचते हैं कि AI एक अनुमानित शैली में लिखता है, लेकिन वास्तव में ऐसा नहीं है
- यह सिर्फ़ text ही नहीं बल्कि image generation पर भी लागू होता है
- जब लोगों को पता चलेगा कि AI सचमुच इंसानों की तरह बोल सकता है, तो वे असहज हो सकते हैं
interactive demo का real-time में चलना अच्छा लगा
- यह ईमेल की शैली का विश्लेषण करके draft तैयार कर सकता है
- यह आगे चलकर ऐसे विकसित हो सकता है कि AI अपने-आप ईमेल लिखे और उपयोगकर्ता बस उसे approve करे
AI यह नहीं जान सकता कि उपयोगकर्ता वास्तव में क्या चाहता है, और उपयोगकर्ता को भी अपने लक्ष्य स्पष्ट रूप से व्यक्त करने में कठिनाई होती है
- अगर AI सब कुछ संभाल ले, तो उपयोगकर्ता गहराई से सोचना बंद कर सकता है, जिससे विशेषज्ञता और problem-solving क्षमता सीमित हो जाती है
सबसे उपयोगी AI features ज़्यादा नज़र नहीं आते
- ईमेल labeling assistant इसका अच्छा उदाहरण है
- "rescheduling" ईमेल को अपने-आप समझकर schedule बदलने का सुझाव देने वाली सुविधा उपयोगी है
AI के संदेश की जगह संदेश लिखने की बात समझ में नहीं आती
- महत्वपूर्ण संदेशों के मामले में खुद लिखना मायने रखता है, और यह जीवित मानवीय interaction की अभिव्यक्ति है