- इसमें TensorRT deep learning compiler, optimized kernels, pre-processing/post-processing चरण, multi-GPU/multi-node communication के बुनियादी components आदि शामिल हैं
- C++ या CUDA की गहरी जानकारी के बिना भी LLMs के लिए तेज़ी से सर्वोच्च performance और customization features उपलब्ध कराए जा सकते हैं
- उपयोग में आसानी और scalability के लिए open source modular Python API प्रदान किया गया है
- Ampere, Lovelace, Hopper GPU सपोर्ट
- H100 के आधार पर TensorRT-LLM लागू करके परीक्षण करने पर
- GPT-J-6B में inference performance 8 गुना बेहतर, TCO 5.3 गुना कम, energy consumption 5.6 गुना कम
- Llama2 70B में inference performance 4.6 गुना बेहतर, TCO 3 गुना कम, energy consumption 3.2 गुना कम
- इसमें In-flight Batching नाम की optimized scheduling technology शामिल है
- TensorRT-LLM से लैस NVIDIA H100 GPU उपयोगकर्ताओं को model weights को नए FP8 format में आसानी से बदलने और model को compile करके optimized FP8 kernels का अपने आप उपयोग करने की सुविधा देता है
- यह Hopper Transformer Engine technology के जरिए संभव है, और model code बदलने की जरूरत नहीं है
- फिलहाल early access उपलब्ध है, और कुछ हफ्तों में जारी होने की योजना है
अभी कोई टिप्पणी नहीं है.