- AI प्रोडक्ट बनाने वाली ज़्यादातर कंपनियाँ प्रयोग के चरण में फँसी हुई हैं और उनके पास भरोसेमंद सिस्टम व टूल्स की कमी है
- हमारा मामला
- इस साल की शुरुआत में, LLM मॉडल को
gpt-4o-2024-08-06 से gpt-4o-2024-11-20 पर अपडेट किया गया
- मुख्य प्रॉम्प्ट टेस्ट का पास रेट पहले के 100% से गिरकर 79% हो गया
- वहीं Anthropic का Sonnet 3.5 95% पास रेट दिखा रहा था
- कई AI कंपनियाँ vendors के बीच स्विच करना बहुत आसान बताती हैं
- यह सिर्फ AI को टेस्ट करना चाहिए, इससे कहीं ज़्यादा है
- मॉडल परफॉर्मेंस को मापने और मॉडल बदलावों का क्या असर पड़ता है, इसे मात्रात्मक रूप से नापने के लिए टेस्ट इंफ्रास्ट्रक्चर बनाना इतना सरल नहीं है
- मात्रात्मक मूल्यांकन के लिए हमने जो बनाया
- कम से कम 30 से अधिक अनोखे टेस्ट scenarios
- प्रॉम्प्ट के अपेक्षित output और वास्तविक output की तुलना करने वाला कोड
- खुद test runner
- CI में उचित लागत पर टेस्ट चलाने की रणनीति
- ज़्यादातर टीमें AI MVP के जिस जाल में फँसती हैं
- चरण 1. भ्रामक MVP: कुछ ही दिनों में तैयार दिखने वाला डेमो सामने आता है। लेकिन जल्द ही यह बुनियादी गलतियाँ करने लगता है
- चरण 2. ±0: इसे सुधारने की कोशिश होती है, लेकिन यह लगातार अधिक जटिल होता जाता है और अप्रत्याशित बन जाता है। 90% कंपनियाँ इसी चरण में हैं
- चरण 3. विज्ञान: इस बिंदु पर एहसास होता है कि evaluation tests, observability tools आदि की ज़रूरत है, और इन्हें बनाना शुरू किया जाता है
- चरण 4. वास्तव में काम करता है: अंततः आपके पास लगातार monitoring, व्यापक evaluation test set, और तेज़ analysis tools होते हैं
- यह सब न आसान है, न सीधा, और न ही हल्का काम
- कई कंपनियाँ अव्यवस्थित MVP चरण में ही अटकी रहती हैं और यह तक नहीं समझ पातीं कि उन्होंने जो AI फीचर रिलीज़ किए हैं, उनका प्रदर्शन कैसा है
- "ज़रूरत सिर्फ X की है" कहकर AI प्रोडक्ट बेचना वास्तविकता को बहुत ज़्यादा सरल बना देना है
- अगर कोई कहे कि वह multi-provider AI strategy बना रहा है, तो उससे पूछें कि वह मापन और evaluation कैसे करता है
अभी कोई टिप्पणी नहीं है.