नमस्ते। पिछली बार Qwen3-TTS Triton kernel optimization project को मिले आपके रुचि और समर्थन से प्रेरित होकर, मैं अपना दूसरा open source project बनाकर साझा कर रहा हूँ.

यह Z-Image S3-DiT (6.15B) inference को 20~30% तेज़ करने वाला ComfyUI custom node है, जो HuggingFace पर हर महीने 3.6 million से अधिक downloads दर्ज करने वाला एक लोकप्रिय image generation model है.

1. इसे क्यों बनाया? (पृष्ठभूमि और विशेषताएँ)
फ़िलहाल Z-Image को accelerate करने के लिए Nunchaku(SVDQuant) जैसा tool मौजूद है, लेकिन यह केवल Z-Image 'Turbo' model को support करता है. मुझे लगा कि Base model के लिए kernel-level acceleration solution की ज़रूरत है.

इसके अलावा, user के नज़रिए से देखें तो दर्जनों GB के quantized models (GGUF आदि) को फिर से अलग से download करना एक बड़ा बोझ है. इसलिए मैंने इसे इस तरह बनाया कि पहले से इस्तेमाल किए जा रहे BF16 safetensors model को runtime पर तुरंत quantize (On-the-fly Quantization) करके वैसे ही इस्तेमाल किया जा सके.

  • ComfyUI Manager के जरिए एक क्लिक में install किया जा सकता है, या pip install से भी आसानी से install किया जा सकता है. (झंझट वाले custom CUDA build या version matching के तनाव की ज़रूरत नहीं है.)
  • मौजूदा workflow में सिर्फ 1 node जोड़ना होता है, और यह LoRA तथा ControlNet के साथ पूरी तरह compatible है.

2. performance benchmark (RTX 5090, 30 steps के आधार पर)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (1.24x speed improvement)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (1.30x speed improvement)
  • VRAM savings: कुल 23GB → 19.5GB (लगभग 3.5GB की कमी)

3. गुणवत्ता संरक्षण को अपनी आँखों से सीधे देखें (Cherry-picking X)
पिछली TTS project में results की पुष्टि करने के लिए आपको audio सीधे download करके सुनना पड़ता था, जो थोड़ा असुविधाजनक था. लेकिन इस बार web पर तुरंत quality comparison किया जा सकता है.

performance comparison के लिए किसी भी तरह की cherry-picking नहीं की गई है. Kernel fusion और quantization की प्रकृति के कारण pixel-level पर हल्के बदलाव मौजूद हो सकते हैं, लेकिन overall composition और detail quality बहुत अच्छी तरह संरक्षित रहती है. नीचे दिए गए लिंक पर जाकर सभी scenarios की original comparison images सीधे देखिए.

4. engineering points
इस kernel code में भी Claude Code की मदद सक्रिय रूप से ली गई, और मैंने अपनी सारी ऊर्जा कड़े benchmarking और quality verification पर लगाई.

  • 6 Triton fusion kernels (RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D) लागू किए गए
  • W8A8 + Hadamard Rotation(NeurIPS 2024 QuaRot / ConvRot आधारित) के जरिए outliers को फैलाकर quantization quality को अधिकतम बनाए रखा गया

5. पिछले project के लिए update preview
साथ ही, पहले जारी किए गए qwen3-tts-triton project को भी जल्द ही ComfyUI custom node के रूप में लाने की योजना है. (v0.2.0 update: Triton+PyTorch hybrid के जरिए pronunciation smearing को कम करना, TurboQuant लागू करना, Cohere evaluation tool को बदलना आदि)

मेरे personal environment (RTX 5090) में testing पूरी हो चुकी है. अगर आप इसे 30/40 series GPU या किसी दूसरे environment में चलाकर GitHub issue या comments में feedback दें, तो वह सचमुच बहुत मददगार होगा. धन्यवाद!

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.