DeepEval - LLM के लिए यूनिट टेस्टिंग
(github.com/mr-gpt)- इसकी मूल दर्शनशैली
Pytest for LLMहै - प्रोडक्शन में ले जाने के लिए, यह LLM पाइपलाइन के लिए offline evaluation चलाने का एक Pythonic तरीका देता है
- Python unit test लिखने की तरह LLM applications (
RAGजैसे) के लिए टेस्ट लिखे जा सकते हैं assert_llm_outputके ज़रिए entailment / exact / bertscore जैसे metrics से उत्तरों का मूल्यांकन किया जा सकता है- custom metrics सेट करना और मौजूदा metrics को संशोधित करना भी संभव है
अभी कोई टिप्पणी नहीं है.