Qwen3-TTS inference की गति को अधिकतम 5 गुना बढ़ाने वाला Triton kernel fusion open source

(github.com/newgrit1004)

22 पॉइंट द्वारा newgrit1004 2026-03-23 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

नमस्ते, मैं Qwen3-TTS 1.7B मॉडल की inference bottleneck को हल करके लगभग 5 गुना speedup हासिल करने वाली एक Triton kernel fusion लाइब्रेरी बनाकर साझा कर रहा हूँ.

1. यह क्यों बनाया? (पृष्ठभूमि)
जिन लोगों ने TTS audio को व्यावहारिक काम में इस्तेमाल किया है, वे जानते होंगे कि Qwen3-TTS जैसे stochastic मॉडल हर बार अलग generation result देते हैं, जैसे intonation, tone आदि.

आखिरकार, वास्तविक उपयोग में कई audio candidates को तेज़ी से generate करके उनमें से सबसे natural विकल्प चुनने की multi-generation strategy अनिवार्य हो जाती है, लेकिन मौजूदा speed पर workflow बहुत धीमा लग रहा था, इसलिए मैंने खुद optimization पर काम शुरू किया. इस optimization के बाद अब पहले 1 candidate बनाने जितने समय में 5 candidates generate किए जा सकते हैं.

2. यह कैसे बनाया? (Claude Code + कड़े टेस्ट)
सच कहूँ तो, मुझे kernel optimization लाइब्रेरी OpenAI Triton की ताकत का पता था, लेकिन मैंने खुद कभी kernel code नहीं लिखा था. इसलिए इस प्रोजेक्ट का ज़्यादातर kernel code Claude Code की मदद से लिखा गया.

इसके बदले, Triton implementation के मेरे सीमित अनुभव की कमी पूरी करने और मॉडल की reliability को 100% सुनिश्चित करने के लिए, कोड लिखने से ज़्यादा मैंने testing को बेहद सख्ती से चलाने में अपनी सारी ऊर्जा लगा दी.

मूल मॉडल के बिल्कुल समान mathematical results सुनिश्चित करने के लिए 90 unit tests लिखे गए.
प्रमुख checkpoint layers और final output, दोनों में Cosine Similarity > 0.997 हासिल किया गया.

3. Engineering points और उपलब्धि
LinkedIn के Liger Kernel से प्रेरणा लेकर, inference के दौरान bottleneck बनने वाले 4 operations (RMSNorm, M-RoPE, Norm+Residual, SwiGLU) को Triton kernels के साथ fuse किया गया.

[Performance benchmark - RTX 5090 के आधार पर]

Base (PyTorch): 3,902 ms
Hybrid (Faster+Triton): 919 ms (~4.7x speedup)
(※ Hybrid mode, CUDA Graph आधारित faster-qwen3-tts पर इस Triton kernel fusion को जोड़ने का परिणाम है.)

4. समापन
फिलहाल यह केवल मेरे व्यक्तिगत RTX 5090 environment में test किया गया है. यदि server-grade (A100, H100) या RTX 4090 जैसी दूसरी hardware इस्तेमाल करने वाले लोग इसे चलाकर GitHub या comments में feedback दें, तो यह मेरे लिए बहुत मददगार होगा.

लंबा लेख पढ़ने के लिए धन्यवाद!

GitHub: https://github.com/newgrit1004/qwen3-tts-triton
PyPI: https://pypi.org/project/qwen3-tts-triton/

Qwen3-TTS inference की गति को अधिकतम 5 गुना बढ़ाने वाला Triton kernel fusion open source

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.