• RouteLLM, LMSys और Anyscale के सहयोग से विकसित LLM router serving और evaluation के लिए एक framework है
  • मुख्य फीचर्स:
    • OpenAI client को replace करके सरल queries को सस्ते models की ओर route करना
    • trained routers उपलब्ध कराना, नए routers को extend करना, और benchmarks में router performance की तुलना करना आदि

मॉडल समर्थन

  • GPT-4 और Mixtral 8x7B के अलावा strong-model और weak-model arguments को बदलकर कई तरह के model combinations का उपयोग किया जा सकता है
  • LiteLLM का उपयोग करके विभिन्न open source और closed models में chat completions का समर्थन
  • OpenAI-compatible endpoints का भी उपयोग किया जा सकता है
  • अलग-अलग model providers के API keys सेट करने के तरीके दिए गए हैं

विकास की प्रेरणा

  • लागत और क्षमताओं में अलग-अलग LLMs को deploy करते समय, उच्च-गुणवत्ता responses के लिए सबसे शक्तिशाली model का उपयोग करना महंगा हो सकता है, जबकि सस्ते model का उपयोग करने पर गुणवत्ता कम हो सकती है
  • LLM routing एक ऐसा समाधान देता है जो सरल queries को सस्ते model पर भेजकर गुणवत्ता बनाए रखते हुए लागत कम करता है
  • हर request के साथ एक cost threshold जुड़ा होता है, जो cost-quality tradeoff तय करता है

सर्वर

  • RouteLLM, विभिन्न routing strategies के अनुसार requests को route करने के लिए एक lightweight OpenAI-compatible server प्रदान करता है
  • --routers से उपलब्ध routers की सूची दी जाती है, और --config से router config file का path दिया जाता है
  • अधिकांश मामलों में शक्तिशाली और हल्के mf router का उपयोग करने की सिफारिश की जाती है
  • client, model field में router का नाम और threshold देकर request भेजता है

Threshold calibration

  • routing में उपयोग होने वाला threshold, cost-quality tradeoff को नियंत्रित करता है
  • router के प्रकार और आने वाली queries के अनुसार meaningful threshold range अलग हो सकती है, इसलिए sample queries और strong model पर भेजी जाने वाली queries के अनुपात का उपयोग करके calibration करना बेहतर है
  • डिफ़ॉल्ट रूप से Chatbot Arena dataset के आधार पर threshold calibration का समर्थन मिलता है
  • ऐसे dataset पर calibration करना बेहतर है जो वास्तव में आने वाली queries के प्रकार से मिलता-जुलता हो

मूल्यांकन

  • RouteLLM में benchmarks पर अलग-अलग routing strategies की performance मापने के लिए evaluation framework भी शामिल है
  • --routers से evaluate किए जाने वाले routers की सूची दी जाती है, और --benchmark से evaluate किया जाने वाला specific benchmark चुना जाता है
  • evaluation results console पर दिखाए जाते हैं, और router performance graphs भी बनाए जाते हैं
  • डिफ़ॉल्ट रूप से GPT-4 और Mixtral evaluation के लिए उपयोग की जाने वाली model pair हैं, और --strong-model--weak-model flags से इन्हें बदला जा सकता है

राउटर्स

  • RouteLLM, gpt-4-1106-preview और mixtral-8x7b-instruct-v0.1 model pair के लिए trained 4 routers प्रदान करता है
  • router सूची: mf, sw_ranking, bert, causal_llm, random
  • ये routers अन्य strong/weak model pairs पर भी अच्छी तरह generalize करते हैं, इसलिए model pair बदलने पर दोबारा training की आवश्यकता नहीं होती

GN⁺ की राय

  • RouteLLM, विभिन्न LLMs का कुशल उपयोग संभव बनाने वाला एक उपयोगी framework लगता है। खासकर, सरल queries को सस्ते models की ओर route करके गुणवत्ता बनाए रखते हुए लागत कम करने की इसकी क्षमता आकर्षक है
  • यह भी अच्छा है कि उपलब्ध routers विभिन्न model pairs पर अच्छी तरह generalize करते हैं। इससे users को खुद router train नहीं करना पड़ता
  • Threshold calibration फीचर भी उपयोगी लगता है। user के वास्तविक query data का उपयोग करके optimal threshold खोजा जा सकता है
  • evaluation framework के जरिए अलग-अलग routers और benchmarks की performance की आसानी से तुलना की जा सकती है, यह भी एक फायदा है
  • हालांकि, framework का उपयोग करने के लिए strong model और weak model के API keys सेट करने जैसी पहले से तैयारी ज़रूरी है। beginners के लिए इसमें प्रवेश बाधा कुछ अधिक हो सकती है
  • समान फीचर देने वाले अन्य projects में Multi-model नाम का open source भी है। यह कई language models को एक single API में integrate और route करने की सुविधा देता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.