2 पॉइंट द्वारा GN⁺ 2023-12-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Nvidia RTX 4090 के मुकाबले Apple MLX framework के performance की तुलना

  • Apple ने Apple Silicon के लिए machine learning framework जारी किया।
  • इस framework के performance को benchmark करने के लिए Whisper उदाहरण का उपयोग किया गया।
  • Python code के जरिए audio files पर performance measurement किया गया।

परिणाम

  • 10 मिनट की audio file को process करने में M1 Pro को 216 सेकंड और Nvidia 4090 को 186 सेकंड लगे।
  • Nvidia-optimized model का उपयोग करने पर इसे सिर्फ 8 सेकंड में process किया जा सकता है।
  • Macbook और PC के hardware specifications का विस्तार से वर्णन किया गया है।

Whisper की चौंकाने वाली गति

  • यह HackerNews पर चर्चा में रही एक पोस्ट है, जिसमें एक उपयोगकर्ता ने Nvidia 4090 पर 8 सेकंड में process करने का उदाहरण साझा किया।
  • MacOS पर भी परीक्षण किया गया, और परिणाम MLX version से धीमे रहे।

M2 Ultra / M3 Max अपडेट

  • M2 Ultra और M3 Max पर उसी audio file को process करने के परिणाम में, वे M1 से कहीं तेज थे, लेकिन दोनों GPU के बीच गति लगभग समान रही।

तुलना

  • कई कारणों से यह पूरी तरह सटीक नहीं हो सकता, लेकिन performance की एक मोटी तुलना संभव है।

बिजली की खपत

  • PC और Macbook की power consumption के अंतर को मापा गया।
  • Nvidia 4090 के चलने और idle होने के दौरान PC की power consumption में 242W का अंतर था, जबकि M1 GPU core के चलने और idle होने के दौरान Macbook की power consumption में 38W का अंतर था।

यह परीक्षण क्यों किया जा रहा है?

  • https://podpodgogo.com पर podcast search engine चलाया जाता है, जहां हजारों episodes का transcription करके उन्हें full-text search योग्य बनाया जाता है और data mining की जाती है।

GN⁺ की राय:

  • इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Apple Silicon के लिए machine learning framework का performance Nvidia के नवीनतम consumer graphics card की तुलना में प्रतिस्पर्धी है।
  • खासकर laptop में ऐसा performance मिलना बहुत दिलचस्प है, और यह machine learning workloads में portability और performance के बीच संतुलन खोजने वाले उपयोगकर्ताओं के लिए एक आकर्षक विकल्प हो सकता है।
  • power consumption के संदर्भ में भी Macbook अपेक्षाकृत अधिक efficient है, और यह environmental sustainability तथा cost efficiency को महत्व देने वाले उपयोगकर्ताओं के लिए महत्वपूर्ण जानकारी हो सकती है।

1 टिप्पणियां

 
GN⁺ 2023-12-14
Hacker News राय
  • लगता है कि यह OpenAI Whisper repository का उपयोग कर रहा है। सही तुलना के लिए MLX की तुलना 4090 पर चलने वाले faster-whisper या insanely-fast-whisper से करनी चाहिए।

    • वास्तविक उपयोग के मामलों में पाया कि जब faster whisper पिछले segment text को शामिल करता है तो quality बेहतर होती है।
    • faster whisper, OpenAI/whisper की तुलना में लगभग 4-5 गुना तेज है, और insanely-fast-whisper, faster whisper से फिर 3-4 गुना अधिक तेज है।
    • अगर 4090 पर चलाया गया Whisper बहुत ज़्यादा optimized नहीं था, तो ये नतीजे संदिग्ध हैं।
  • यह Apple MLX की नवीनतम release का लाभ उठाने वाला code है और Apple-विशिष्ट optimization का उपयोग करता है।

    • उम्मीद है कि जब MLX के Swift bindings Mac और iOS पर जारी होंगे, तो इसे अधिक ध्यान मिलेगा।
    • फिलहाल C++20 compilation समस्या हो सकती है।
  • सवाल है कि क्या Whisper को उसकी sequential प्रकृति और integer math की वजह से चुना गया था, और क्या ऐसे नतीजे दूसरे models पर भी लागू होते हैं।

    • MLX में अभी भी कुछ operations हैं जो optimized नहीं हैं।
    • CPU/GPU से सीधे जुड़े बहुत तेज RAM के फायदे और उससे मिलने वाली latency/co-accessibility के नज़रिए से ये आंकड़े प्रभावशाली हैं।
    • यह भी ध्यान देने लायक है कि M3 Max system की लागत 4090 की लगभग 2 गुना है।
  • Mac M1 पर Whisper चलाना आसान है, लेकिन यह डिफ़ॉल्ट रूप से MLX का उपयोग नहीं करता।

    • MLX का उपयोग कराने के लिए क्या चाहिए, यह समझने में कई घंटे लगे।
    • GPU वाले VM को किराए पर लेकर कुछ ही मिनटों में Whisper शुरू कर दिया।
  • X काम के लिए सबसे अच्छा विकल्प क्या है, इस पर बहुत बहस होगी, लेकिन कम बिजली खपत पर इस स्तर का performance देना आकर्षक है।

  • Apple के Vision Pro को देखते हुए, लैपटॉप में इसका बहुत मतलब न हो, लेकिन ज़्यादा बिजली खपत वाले headset में यह बड़ा फ़ायदा है।

  • अच्छे open source transcription और speaker identification app या workflow के लिए मदद की मांग।

    • कुछ देखे, लेकिन वे ठीक से काम नहीं करते और crash हो जाते हैं।
  • सलाह है कि ऐसे Whisper derivative repositories का उपयोग करें जो अधिकांश GPU पर 1 घंटे के audio को 1 मिनट से कम समय में transcribe कर सकते हैं.