nvidia-smi या nvtop केवल यह देखते हैं कि GPU पर kernel चल रहा है या नहीं, इसलिए वास्तविक हार्डवेयर क्षमता का बहुत छोटा हिस्सा इस्तेमाल होने पर भी 100% utilization दिखा सकते हैं
- Utilyze GPU performance counters को सीधे पढ़ता है और वास्तविक resource usage को live दिखाता है, जबकि overhead नगण्य स्तर का है
- workload·model·hardware संयोजन में वास्तविक रूप से हासिल की जा सकने वाली अधिकतम utilization, यानी Attainable SOL upper bound, की गणना करके यह समझा जा सकता है कि अभी और कितना push किया जा सकता है
- चल रहे inference server को अपने आप detect करके हर GPU पर लोड किए गए model की पहचान करता है, और फिलहाल backend में केवल vLLM supported है (SGLang आदि बाद में जोड़े जाने की योजना)
- supported hardware NVIDIA Ampere या उससे ऊपर है (A100, H100, H200, B200, RTX 3000+), और अभी H100-80G तथा A100-80G पर node के भीतर अधिकतम 8 GPU configuration के कुछ models supported हैं
- Linux पर profiling server चलाकर macOS/Windows में WebSocket-आधारित remote client से कनेक्ट करने वाली संरचना
- एक single device ID पर केवल एक instance की monitoring संभव है — NVIDIA Perf SDK API के device access तरीके की सीमा
sudo के बिना चलाने के लिए NVreg_RestrictProfilingToAdminUsers=0 सेट करने के बाद reboot आवश्यक है
- Apache-2.0 लाइसेंस
अभी कोई टिप्पणी नहीं है.