AI एजेंट: "ज़्यादा capabilities" से अधिक "उच्च reliability" की ज़रूरत

(sergey.fyi)

5 पॉइंट द्वारा GN⁺ 2025-04-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

फ़्लाइट बुकिंग AI एजेंट डेमो का "Hello World" क्यों बन गई?
- उपयोगकर्ता AI द्वारा फ़्लाइट बुक कराने से ज़्यादा पहले से मौजूद परिपक्व UX (जैसे: Google Flights) को पसंद करते हैं
- सिर्फ़ एक बार की गलती से जटिल customer service का दुःस्वप्न शुरू हो सकता है
- सहज और पूर्वानुमेय सिस्टम वास्तव में अधिक नवोन्मेषी होते हैं
AI अभी भी शुरुआती चरण में है, और सामान्य उपयोगकर्ता consistency और predictability की अपेक्षा करते हैं
- उदाहरण: 80% accuracy हो, लेकिन परिणाम लगातार एक जैसे हों तो वह स्वीकार्य हो सकता है
  वहीं, अनियमित 90% accuracy भरोसा तोड़ देती है
- कई AI प्रोजेक्ट इसे नज़रअंदाज़ कर चमकदार डेमो और ज़रूरत से ज़्यादा फीचर्स का पीछा करते हैं → अंततः भरोसा खो देते हैं
ज़्यादा से ज़्यादा IDE पारदर्शिता खोते जा रहे हैं
- उपयोगकर्ता यह नहीं समझ पाते कि AI क्या कर रहा है
- उदाहरण: Reddit पर चर्चा में रहा Cursor द्वारा पूरा काम delete कर देने का मामला
  - इसमें उपयोगकर्ता की version control की कमी भी समस्या थी, लेकिन असल कारण UI/UX डिज़ाइन था
  - अच्छा डिज़ाइन गलतियों को रोकता है, AI की गतिविधि को स्पष्ट रूप से समझाता है, और undo फ़ीचर देता है
शुरुआती दौर में Cursor:
- tab-complete interface के ज़रिए पारदर्शी और हल्का interaction देता था
- धीरे-धीरे उपयोगकर्ता का भरोसा बनाने के तरीके से लोकप्रिय हुआ
- सरल और reversible डिज़ाइन AI पर अविश्वास कम करने में प्रभावी था
$200 million निवेश पाने वाला Devin "पूर्ण स्वायत्त एजेंट" की दिशा में गया
- जटिल सिस्टम, धीमी प्रतिक्रिया, और अप्रत्याशित परिणामों ने भरोसा तोड़ दिया
- ज़रूरत से ज़्यादा महत्त्वाकांक्षी approach ने उल्टा उपयोगकर्ताओं में भ्रम पैदा किया

गति बनाम reliability: AI development teams की दुविधा

AI development teams को निम्न में से एक चुनना पड़ता है:
- तेज़ी से आगे बढ़ना और गलतियों का जोखिम लेना
- reliability और stability को प्राथमिकता देना
समाधान है उन फीचर्स पर ध्यान देना जो "छोटे दायरे में बेहतरीन प्रदर्शन" कर सकें, और उन्हें लगातार दोहराकर बेहतर बनाना

मुख्य सिद्धांत: complexity से अधिक predictability

जटिल सिस्टम की बजाय अच्छी तरह समझे गए tasks पर ध्यान देना चाहिए
AI एजेंट अब भी परिवर्तनकारी हैं, लेकिन निम्न तीन बातें केंद्र में होनी चाहिए:
- reliability
- transparency
- predictability

workflow बनाम agent

Anthropic की framing: "अगर किसी task को workflow के रूप में व्यक्त किया जा सकता है, तो agent नहीं बल्कि workflow बनाओ"
- workflow पूर्वानुमेय, नियंत्रित करने योग्य, और सरल होते हैं
- agent जटिल और नियंत्रित करने में कठिन होते हैं, इसलिए उनका उपयोग केवल वास्तव में dynamic स्थितियों में करना चाहिए

1 टिप्पणियां

GN⁺ 2025-04-01

Hacker News राय

"फ्लाइट बुकिंग" एजेंट अब मज़ाक का विषय बन गया है। Swyx के हालिया AI engineer इवेंट keynote में भी इसका ज़िक्र हुआ था
- मुझे लगता है कि यह लेख इस समस्या की कठिनाई को कम करके आंक रहा है
- ऐसे UI में जहाँ इंसान input देते हैं या बातचीत करते हैं, error की संभावनाएँ अनंत होती हैं
- इंसान साफ़ तौर पर अपनी बात रखने में कमजोर होते हैं, और software की functionality को ठीक से समझना भी आसान नहीं होता
Google Deepmind के शोधकर्ता एजेंट की reliability बढ़ाने के लिए रिसर्च कर रहे हैं
- user behavior को represent करने वाला कड़ा evaluation महत्वपूर्ण है
- JFK assassination files के 80,000 पन्नों पर एजेंट की advanced reasoning demo पोस्ट की गई थी
- थोड़ी-सी files में भी बड़े AI players के बीच reliability/accuracy का अंतर काफी बड़ा है
फ्लाइट बुकिंग ऐसा काम है जिसे AI को नहीं सौंपा जा सकता
- family trip या personal travel के समय कई तरह की समझदारी चाहिए होती है
- official website, price comparison, date check, credit card points जैसे कई factors होते हैं
कई मामलों में लोग AI को मौजूदा workflow में फिट करने की कोशिश करते हैं
- मौजूदा workflow में पहले से optimized UX/UI होता है
- AI का इस्तेमाल करना समस्या हल करने का समाधान नहीं भी हो सकता
Cursor इस्तेमाल के अनुभव से मैं इस निष्कर्ष पर पहुँचा हूँ कि reliability महत्वपूर्ण है
- fast model के output में ज़्यादा edits की ज़रूरत पड़ती है
- किसी specific library का साफ़ तौर पर इस्तेमाल करना महत्वपूर्ण है
पिछले 20 सालों की तकनीकी प्रगति में मुझे reliability ज़्यादा महत्वपूर्ण लगी है
- smartphone, driving directions, cloud storage जैसी कुछ नई capabilities ही काफ़ी थीं
- अब battery life और बच्चों के devices में parental controls ज़्यादा महत्वपूर्ण हैं
AI programming की मौजूदा स्थिति पर एक Reddit thread की टिप्पणी मेरी भावनाओं का सार बताती है
- AI की वजह से programming में आने वाले नए engineers बुनियादी ज़रूरी चीज़ें छोड़ रहे हैं
- लेकिन यह जानकर तसल्ली होती है कि अभी भी मेरी जगह बनी हुई है
मेरा सिद्धांत है कि जब AI code लिखे, तो कम-से-कम मैं उस code को समझ सकूँ
- मैं उन "vibe coders" का तरीका नहीं अपना सकता जो AI द्वारा लिखे गए code को समझते ही नहीं
मुझे लगता है कि workflow एजेंट से ज़्यादा महत्वपूर्ण है
- जब agent high accuracy के साथ काम execute करने के लिए तैयार होंगे, तब workflow का उपयोग किया जा सकता है
- मैं ऐसे workflow बनाने का तरीका खोजूँगा जो effective, accurate और आसानी से diagnosable हों
Google Flights पहले से ही बेहतरीन UX देता है
- मुझे लगता है कि AI agent इस्तेमाल करते समय web search ज़्यादा reliable और तेज़ है
- मुझे भरोसा नहीं है कि AI उपयोगी बनेगा, और यह भी सवाल है कि testing ठीक से हुई है या नहीं

AI एजेंट: "ज़्यादा capabilities" से अधिक "उच्च reliability" की ज़रूरत

गति बनाम reliability: AI development teams की दुविधा

मुख्य सिद्धांत: complexity से अधिक predictability

workflow बनाम agent

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय