• OpenAI का ओपन-सोर्स LLM GPT-OSS-120B को NVIDIA GPU वातावरण में प्रति सेकंड 500 से अधिक टोकन प्रोसेसिंग परफॉर्मेंस के साथ ऑप्टिमाइज़ किया।
  • TensorRT-LLM, vLLM, SGLang जैसे विविध इन्फरेंस फ्रेमवर्क का समानांतर परीक्षण किया गया और Hopper तथा Blackwell दोनों आर्किटेक्चर का समर्थन किया गया।
  • संगतता बग ठीक किए गए, Harmony जैसे नए response format को इंटीग्रेट किया, और KV cache-aware routing तथा Eagle-आधारित speculative decoding जैसी ऑप्टिमाइज़ेशन जोड़ी गईं।
  • Tensor Parallelism और Expert Parallelism की तुलना के बाद कम लेटेंसी पाने के लिए tensor parallelism चुना गया तथा Blackwell में TensorRT-LLM MoE backend उपयोग किया गया।
  • भविष्य में और performance सुधार के लिए छोटे draft मॉडल के साथ Speculative (पूर्वानुमान) Decoding सहित अतिरिक्त ऑप्टिमाइज़ेशन की योजना है।

परिचय

  • OpenAI के नए ओपन-सोर्स large language model GPT-OSS-120B के रिलीज़ होते ही Baseten ने टॉप परफॉर्मेंस हासिल करने की चुनौती ली।
    • Baseten, OpenAI का official launch partner है।
  • OpenRouter पर उपलब्ध वास्तविक उपयोगकर्ता डेटा से Baseten ने दिखाया कि NVIDIA GPU आधारित वातावरण में इसका प्रदर्शन अन्य विकल्पों से बेहतर था।
  • Flexible inference stack और मॉडल इंजीनियरिंग टीम की विशेषज्ञता की वजह से वे प्रति घंटे ऑप्टिमाइज़ेशन पैच तेजी से रोलआउट कर सके।
  • ब्लॉग लिखने के कुछ घंटों के भीतर भी प्रति सेकंड 100 अतिरिक्त टोकन का इज़ाफ़ा हुआ और 100% अपटाइम बरकरार रहा।

प्रदर्शन ऑप्टिमाइज़ेशन प्रयास

  • TensorRT-LLM, vLLM, SGLang जैसे विविध inference framework में testing और benchmarking किया गया।
  • Hopper, Blackwell GPU आर्किटेक्चर के साथ संगतता सुनिश्चित करने पर समानांतर काम किया गया।
  • Baseten की Flexible Inference Stack तथा प्रमुख components जैसे NVIDIA Dynamo को इंटीग्रेट किया गया।
  • KV cache-aware routing और Speculative decoding (Eagle आधारित) जैसी लगातार सत्यापित performance-optimization तकनीकों को लागू किया गया।

नीचे SOTA performance और पूर्ण context window सपोर्ट को साथ में achieve करने के मुख्य चरण दिए गए हैं।

Step 1: शुरुआती इन्फरेंस रन

  • किसी भी तरीके से शुरुआत में initial inference (baseline inference) को जितनी जल्दी हो सके रन करना ही शुरुआत थी।
  • GPU को ध्यान में रखते हुए कई इंजीनियरों ने समानांतर रूप से vLLM, SGLang, TensorRT-LLM के प्रयोग किए।
  • सबसे बेहतर परफॉर्मेंस देने वाला TensorRT-LLM जल्दी सफलतापूर्वक रन किया गया।
  • Hopper (जहाँ सबसे ज्यादा H100 GPU हैं) और Blackwell (जहाँ B200 GPU के साथ स्पीड बेहतर है) दोनों में TensorRT-LLM support सुनिश्चित किया गया।
  • Baseten Inference Runtime की लचीलापन के कारण नए आर्किटेक्चर मॉडल के अनुकूलन और stack के भीतर tools की तेज़ बदलत आसान हुई।

Step 2: संगतता बग फिक्स

  • नए मॉडल आर्किटेक्चर आने पर framework integration में अक्सर बग सामने आते हैं।
  • GPT OSS में Harmony जैसे नए response format जोड़ने से पुराने frameworks के साथ integration करते समय बग आए।
  • स्पीड और accuracy दोनों को साथ रखने के लिए बार-बार fixes व टेस्ट चलाए गए, और प्रभावी बदलाव ओपन सोर्स में contribute किए गए।
  • ग्लोबल ओपन-सोर्स कम्युनिटी के सहयोग से कई optimization paths और bug fixes तेजी से आगे बढ़ रहे हैं।

Step 3: मॉडल कॉन्फ़िगरेशन ऑप्टिमाइज़ेशन

  • OpenAI ने GPT OSS 120B के लिए उल्लेख किया है कि यह single H100 पर भी चल सकता है, लेकिन वास्तविक सेटअप में 4~8 GPU parallelism performance के लिए बेहतर है।
  • Tensor Parallelism latency पर, जबकि Expert Parallelism throughput पर मजबूत है।
    • Baseten का लक्ष्य लो लेटेंसी ऑप्टिमाइज़ेशन होने के कारण Tensor Parallelism चुना गया।
  • Blackwell पर TensorRT-LLM MoE Backend लागू करने से पुराने Triton backend की तुलना में CUDA kernel performance बेहतर हुआ।
  • Hopper और Blackwell दोनों environments के लिए अलग-अलग ऑप्टिमाइज़्ड सेटिंग्स जारी की गईं, और Model API में Blackwell-आधारित सेटिंग अपनाई गई।

अतिरिक्त performance ऑप्टिमाइज़ेशन

  • प्रथम optimization से ही SOTA स्तर का throughput और latency achieve हो गया, लेकिन अभी भी और सुधार की पर्याप्त गुंजाइश है।
  • अगला प्रमुख अपडेट होगा Speculative Decoding का introduction।
    • इस तरीके में तेज़ छोटे “draft” मॉडल संभावित टोकन generate करते हैं और मुख्य मॉडल उनका सत्यापन करता है।
    • Baseten Eagle 3 recommend करता है, लेकिन inference stack में 10 से अधिक algorithms स्थिति अनुसार लचीले तरीके से रन किए जाते हैं।
  • Speculative decoding एक साथ कई टोकन का inference करके efficient speedup देने में मदद करता है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.