• I-DLM diffusion-आधारित language model का पहला उदाहरण है जिसने AR(Autoregressive) model-स्तर की quality और parallel generation speed दोनों एक साथ हासिल किए हैं
  • Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए token generation और पिछले tokens की verification साथ-साथ होती है
  • I-DLM-8B ने LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points का सुधार दिखाया
  • Gated LoRA का उपयोग करके bit-level lossless acceleration लागू किया गया है, और यह SGLang infrastructure के साथ पूरी तरह compatible है
  • diffusion language models ने self-consistency training और parallel decoding optimization के जरिए व्यावहारिक large-scale deployment की संभावना साबित की है

अवलोकन

  • I-DLM(Introspective Diffusion Language Model) ऐसा model है जो मौजूदा diffusion language models(DLM) की parallel token generation क्षमता को बनाए रखते हुए introspective consistency की समस्या को हल करता है और AR model-स्तर की quality हासिल करता है
  • Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए tokens generate करते हुए पिछले tokens को verify किया जाता है
  • I-DLM-8B समान scale के AR models के बराबर quality हासिल करने वाला पहला DLM है, और LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points बेहतर प्रदर्शन करता है
  • उच्च concurrency(C=64) वातावरण में यह 2.9~4.1x throughput हासिल करता है, और Gated LoRA के जरिए bit-level lossless acceleration को support करता है

Introspective Consistency की आवश्यकता

  • AR models एक ही forward pass में generation और self-verification दोनों करते हैं, लेकिन मौजूदा DLMs केवल denoising सीखते हैं, इसलिए उनमें self-consistency की कमी होती है
  • मौजूदा DLMs की तीन bottlenecks
    • कम self-consistency: SDAR 0.699 vs I-DLM 0.984
    • अप्रभावी computation: TiDAR लगभग 7.8x overhead vs I-DLM लगभग 2.5x
    • infrastructure mismatch: SDAR slope=84 vs I-DLM=549

I-DLM कार्यप्रणाली

  • Introspective-Consistency Training

    • pre-trained AR model को causal attention, logit shift, all-masked objective के जरिए रूपांतरित किया जाता है
  • Introspective Strided Decoding(ISD)

    • एक ही forward pass में N tokens का generation और पिछले tokens की verification साथ-साथ की जाती है
    • generation results को verify करने के लिए p/q acceptance criterion का उपयोग किया जाता है
  • AR-Compatible Serving

    • सख्त causal attention structure के कारण इसे सीधे SGLang infrastructure में integrate किया जा सकता है
    • किसी अलग custom infrastructure के बिना यह AR model जैसे ही serving environment में चलता है

प्रदर्शन परिणाम

  • I-DLM समान scale के AR model के बराबर quality वाला पहला DLM है, और 15 benchmarks में मौजूदा DLMs से आगे निकलता है
  • प्रमुख benchmark परिणाम

    • ज्ञान·reasoning: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • गणित: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • instruction following: IFEval 84.7
    • I-DLM-32B ने LLaDA-2.1-flash(100B) से भी बेहतर प्रदर्शन दर्ज किया

Throughput

  • batch size 1~64 पर LLaDA-2.1-mini और SDAR की तुलना में 2.9~4.1x अधिक throughput हासिल किया गया
  • memory-bound वातावरण में TPF(Token Per Forward) वास्तविक speedup का अच्छा approximation देता है
    • I-DLM(N=4, p=0.9): TPF≈2.9, efficiency 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, efficiency 0.31
  • efficiency 1 से अधिक होने का मतलब है कि parallel decoding, AR की तुलना में कुल computation को कम करती है

Speedup Factor Explorer

  • acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
  • speedup approximation formula:

    • memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD(lossless): Speedup ≈ TPF/α
    • Gated LoRA केवल MASK positions पर activate होता है, जिससे AR output के साथ bit-level identicalness सुनिश्चित होती है

दस्तावेज़ और संसाधन

  • installation, training, inference, serving, lossless R-ISD, models, benchmarks की पूरी प्रक्रिया web documentation के रूप में उपलब्ध है
  • Installation

    • GitHub repository को clone करने के बाद install.sh चलाएँ
  • Quick Start

    • SGLang server चलाने के बाद REST API से chat completion request भेजी जा सकती है
  • Training

    • full-mask sequences और clean sequences को मिलाकर training की जाती है
    • 4.5B tokens, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
  • Inference & ISD

    • MASK positions पर नए tokens propose(q) किए जाते हैं, और clean positions पर verification(p) होती है
    • acceptance criterion min(1, p(x)/q(x)) के जरिए AR distribution सुनिश्चित किया जाता है
    • stride N=4 पर TPF=2.96, लगभग 3x speedup
  • Serving (SGLang)

    • Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

      • पूरे system में baseline की तुलना में 2.1~2.5x throughput improvement मिलता है
  • Lossless R-ISD

    • Gated LoRA(rank=128) केवल MASK positions पर लागू किया जाता है
    • output base AR model के साथ पूरी तरह identical रहता है
    • overhead लगभग 1.12x
  • Model Zoo

    • I-DLM-8B: Qwen3-8B आधारित, AR quality के बराबर
    • I-DLM-32B: Qwen3-32B आधारित, LLaDA-2.1-flash(100B) से बेहतर
    • I-DLM-8B-LoRA: Gated LoRA(rank=128) लागू
  • Benchmarks

    • 15 benchmarks(ज्ञान, गणित, code, instruction following) पर मूल्यांकन
    • reproducibility scripts उपलब्ध

उद्धरण जानकारी

  • paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • शोध संस्थान: Together AI, UIUC, Princeton, Stanford, UT Austin
  • लेखक: Yifan Yu सहित 14 अन्य

निष्कर्ष

  • I-DLM diffusion-आधारित language model का AR model की quality और speed दोनों हासिल करने वाला पहला उदाहरण है
  • self-consistency training और ISD decoding के जरिए इसने parallel generation की सीमाओं को पार किया है
  • SGLang compatibility, lossless acceleration, और high-throughput scalability के साथ इसने व्यावहारिक deployment की संभावना साबित की है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.