-
Python जैसी प्रोग्रामिंग भाषा और compiler
-
CUDA अनुभव न रखने वाले शोधकर्ता भी हाई-एफिशिएंसी deep learning के लिए GPU code आसानी से लिख सकते हैं
→ पहले से ही Torch implementation की तुलना में लगभग 2 गुना अधिक efficient kernel implementation मौजूद है
-
Linux, NVIDIA GPU सपोर्ट (AMD GPU और अन्य CPU पर विकास जारी है)
-
बेसिक code Numba जैसा है, लेकिन SIMT का उपयोग नहीं करता और block-स्तरीय operations के आधार पर instance के भीतर parallel execution करता है
-
Python code को Triton-IR में बदलने और Triton Compiler के माध्यम से LLVM-IR में रूपांतरित करने वाली architecture
1 टिप्पणियां
मूल लेखक का पेपर: http://eecs.harvard.edu/~htk/publication/…
(और OpenAI ने Philippe Tillet को हायर किया है, इसलिए वे इसके निरंतर विकास को सपोर्ट कर रहे हैं.)