AI MVP से आगे: वास्तव में क्या चाहिए

winterjung · 2025-04-03T12:56:26+09:00

AI प्रोडक्ट बनाने वाली ज़्यादातर कंपनियाँ प्रयोग के चरण में फँसी हुई हैं और उनके पास भरोसेमंद सिस्टम व टूल्स की कमी है हमारा मामला इस साल की शुरुआत में, LLM मॉडल को gpt-4o-2024-08-06 से gpt-4o-2024-11-20 पर अपडेट किया गया मुख्य प्रॉम्प्ट टेस्ट का पास रेट पहले के 100% से गिरकर 79% हो गया वहीं Anthropic का Sonnet 3.5 95% पास रेट दिखा रहा था कई AI कंपनियाँ vendors के बीच स्विच करना बहुत आसान बताती हैं यह सिर्फ AI को टेस्ट करना चाहिए, इससे कहीं ज़्यादा है मॉडल परफॉर्मेंस को मापने और मॉडल बदलावों का क्या असर पड़ता है, इसे मात्रात्मक रूप से नापने के लिए टेस्ट इंफ्रास्ट्रक्चर बनाना इतना सरल नहीं है मात्रात्मक मूल्यांकन के लिए हमने जो बनाया कम से कम 30 से अधिक अनोखे टेस्ट scenarios प्रॉम्प्ट के अपेक्षित output और वास्तविक output की तुलना करने वाला कोड खुद test runner CI में उचित लागत पर टेस्ट चलाने की रणनीति ज़्यादातर टीमें AI MVP के जिस जाल में फँसती हैं चरण 1. भ्रामक MVP: कुछ ही दिनों में तैयार दिखने वाला डेमो सामने आता है। लेकिन जल्द ही यह बुनियादी गलतियाँ करने लगता है चरण 2. ±0: इसे सुधारने की कोशिश होती है, लेकिन यह लगातार अधिक जटिल होता जाता है और अप्रत्याशित बन जाता है। 90% कंपनियाँ इसी चरण में हैं चरण 3. विज्ञान: इस बिंदु पर एहसास होता है कि evaluation tests, observability tools आदि की ज़रूरत है, और इन्हें बनाना शुरू किया जाता है चरण 4. वास्तव में काम करता है: अंततः आपके पास लगातार monitoring, व्यापक evaluation test set, और तेज़ analysis tools होते हैं यह सब न आसान है, न सीधा, और न ही हल्का काम कई कंपनियाँ अव्यवस्थित MVP चरण में ही अटकी रहती हैं और यह तक नहीं समझ पातीं कि उन्होंने जो AI फीचर रिलीज़ किए हैं, उनका प्रदर्शन कैसा है "ज़रूरत सिर्फ X की है" कहकर AI प्रोडक्ट बेचना वास्तविकता को बहुत ज़्यादा सरल बना देना है अगर कोई कहे कि वह multi-provider AI strategy बना रहा है, तो उससे पूछें कि वह मापन और evaluation कैसे करता है

(blog.lawrencejones.dev)

16 पॉइंट द्वारा winterjung 2025-04-03 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

AI प्रोडक्ट बनाने वाली ज़्यादातर कंपनियाँ प्रयोग के चरण में फँसी हुई हैं और उनके पास भरोसेमंद सिस्टम व टूल्स की कमी है
हमारा मामला
- इस साल की शुरुआत में, LLM मॉडल को gpt-4o-2024-08-06 से gpt-4o-2024-11-20 पर अपडेट किया गया
- मुख्य प्रॉम्प्ट टेस्ट का पास रेट पहले के 100% से गिरकर 79% हो गया
- वहीं Anthropic का Sonnet 3.5 95% पास रेट दिखा रहा था
कई AI कंपनियाँ vendors के बीच स्विच करना बहुत आसान बताती हैं
- यह सिर्फ AI को टेस्ट करना चाहिए, इससे कहीं ज़्यादा है
- मॉडल परफॉर्मेंस को मापने और मॉडल बदलावों का क्या असर पड़ता है, इसे मात्रात्मक रूप से नापने के लिए टेस्ट इंफ्रास्ट्रक्चर बनाना इतना सरल नहीं है
मात्रात्मक मूल्यांकन के लिए हमने जो बनाया
- कम से कम 30 से अधिक अनोखे टेस्ट scenarios
- प्रॉम्प्ट के अपेक्षित output और वास्तविक output की तुलना करने वाला कोड
- खुद test runner
- CI में उचित लागत पर टेस्ट चलाने की रणनीति
ज़्यादातर टीमें AI MVP के जिस जाल में फँसती हैं
- चरण 1. भ्रामक MVP: कुछ ही दिनों में तैयार दिखने वाला डेमो सामने आता है। लेकिन जल्द ही यह बुनियादी गलतियाँ करने लगता है
- चरण 2. ±0: इसे सुधारने की कोशिश होती है, लेकिन यह लगातार अधिक जटिल होता जाता है और अप्रत्याशित बन जाता है। 90% कंपनियाँ इसी चरण में हैं
- चरण 3. विज्ञान: इस बिंदु पर एहसास होता है कि evaluation tests, observability tools आदि की ज़रूरत है, और इन्हें बनाना शुरू किया जाता है
- चरण 4. वास्तव में काम करता है: अंततः आपके पास लगातार monitoring, व्यापक evaluation test set, और तेज़ analysis tools होते हैं
यह सब न आसान है, न सीधा, और न ही हल्का काम
- कई कंपनियाँ अव्यवस्थित MVP चरण में ही अटकी रहती हैं और यह तक नहीं समझ पातीं कि उन्होंने जो AI फीचर रिलीज़ किए हैं, उनका प्रदर्शन कैसा है
- "ज़रूरत सिर्फ X की है" कहकर AI प्रोडक्ट बेचना वास्तविकता को बहुत ज़्यादा सरल बना देना है
- अगर कोई कहे कि वह multi-provider AI strategy बना रहा है, तो उससे पूछें कि वह मापन और evaluation कैसे करता है

AI MVP से आगे: वास्तव में क्या चाहिए

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.