- AMD ने हाल ही में MI300X ग्राफिक्स एक्सेलरेटर पेश किया और दावा किया कि यह Nvidia के H100 की तुलना में अधिकतम 1.6 गुना बेहतर प्रदर्शन देता है
- इसके जवाब में Nvidia ने कहा कि AMD ने H100 से तुलना करते समय उसके अपने optimization का उपयोग नहीं किया
- AMD ने कहा कि Nvidia ने server workloads में आम तौर पर होने वाली latency को ध्यान में नहीं रखा और केवल ऐसा throughput प्रदर्शन दिखाया जो वास्तविक परिस्थितियों की नकल नहीं करता
- AMD का यह भी दावा है कि Nvidia ने H100 के internal TensorRT-LLM का उपयोग करके चुनिंदा inferencing workload set का benchmark किया
- AMD ने कहा कि उसने व्यापक रूप से उपयोग किए जाने वाले vLLM और FP16 data type का उपयोग करके परीक्षण किए, और इस बात पर जोर दिया कि vLLM, FP8 को support नहीं करता
- AMD ने Nvidia की आलोचना की कि उसने वास्तविक server environment को प्रतिबिंबित किए बिना और latency पर विचार किए बिना throughput प्रदर्शन प्रस्तुत किया
AMD के optimization और latency को ध्यान में रखते हुए अपडेट किए गए test results
- AMD ने Nvidia के TensorRT-LLM का उपयोग करके तीन performance tests किए
- पहले test में दोनों कंपनियों की तुलना vLLM का उपयोग करते हुए FP16 dataset पर की गई: MI300X 2.1 गुना तेज
- दूसरे test में MI300X के vLLM प्रदर्शन की तुलना TensorRT-LLM से की गई: MI300X 1.3 गुना तेज
- तीसरे test में MI300X के vLLM(FP16) की तुलना TensorRT-LLM(FP8) से की गई: 1.7 सेकंड बनाम 1.6 सेकंड, जिसमें H100 थोड़ा तेज था
- यह भी स्वीकार करना होगा कि FP8 का उपयोग करने के लिए TensorRT-LLM के closed system के साथ FP16 को छोड़ना पड़ेगा, और मूलतः vLLM को हमेशा के लिए छोड़ना होगा
अभी कोई टिप्पणी नहीं है.