GPU-Usage-Audit: अगर GPU सिर्फ खाली नहीं बल्कि 'पकड़कर रखे' जाने की वजह से बेकार पड़ा हो तो?!
(github.com/AI-Ocean)अगर nvidia-smi में util 1% दिखता है, तो कार्ड खाली लगता है,
लेकिन अगर कोई Jupyter Notebook में 8GB मेमोरी लेकर सीट छोड़ दे, तो उस GPU को फिर कोई और इस्तेमाल नहीं कर सकता।
shared server या घंटे के हिसाब से billed GPU में यह ऐसी बर्बादी है जो दिखती नहीं।
इसीलिए हमने GPU-Usage-Audit बनाया।
अगर केवल NVIDIA driver इंस्टॉल है, तो यह GPU metrics को SQLite में रिकॉर्ड करके रखता है और बाद में report के रूप में निकाल देता है।
यह GPU usage time को दो नहीं बल्कि तीन हिस्सों में बाँटकर report बनाता है।
वास्तव में computation करने का समय, पूरी तरह खाली रहने का समय, और वह 'idle-held' समय जब memory पकड़ी हुई है लेकिन computation नहीं हो रहा।
ज़्यादातर tools पीछे के दोनों हिस्सों को एक ही मान लेते हैं, लेकिन बर्बादी असल में वहीं छिपी होती है।
पकड़कर रखे गए समय को GPU-hours में बदलकर दिखाता है, और अगर per-user execution चल रही हो तो कौन कितना occupy करके बैठा है यह भी साथ में दिखाता है।
इंस्टॉल और रन करना सिर्फ एक लाइन है: uv tool install gpu-usage-audit && gua daemon
डेटा जमा हो जाने के बाद सिर्फ gua report चलाएँ और report देख लें,
और अगर बिना डेटा के पहले result देखना हो, तो gua demo से fake data चलाकर देख सकते हैं.
अभी कोई टिप्पणी नहीं है.