- I-DLM diffusion-आधारित language model का पहला उदाहरण है जिसने AR(Autoregressive) model-स्तर की quality और parallel generation speed दोनों एक साथ हासिल किए हैं
- Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए token generation और पिछले tokens की verification साथ-साथ होती है
- I-DLM-8B ने LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points का सुधार दिखाया
- Gated LoRA का उपयोग करके bit-level lossless acceleration लागू किया गया है, और यह SGLang infrastructure के साथ पूरी तरह compatible है
- diffusion language models ने self-consistency training और parallel decoding optimization के जरिए व्यावहारिक large-scale deployment की संभावना साबित की है
अवलोकन
- I-DLM(Introspective Diffusion Language Model) ऐसा model है जो मौजूदा diffusion language models(DLM) की parallel token generation क्षमता को बनाए रखते हुए introspective consistency की समस्या को हल करता है और AR model-स्तर की quality हासिल करता है
- Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए tokens generate करते हुए पिछले tokens को verify किया जाता है
- I-DLM-8B समान scale के AR models के बराबर quality हासिल करने वाला पहला DLM है, और LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points बेहतर प्रदर्शन करता है
- उच्च concurrency(C=64) वातावरण में यह 2.9~4.1x throughput हासिल करता है, और Gated LoRA के जरिए bit-level lossless acceleration को support करता है
Introspective Consistency की आवश्यकता
- AR models एक ही forward pass में generation और self-verification दोनों करते हैं, लेकिन मौजूदा DLMs केवल denoising सीखते हैं, इसलिए उनमें self-consistency की कमी होती है
- मौजूदा DLMs की तीन bottlenecks
- कम self-consistency: SDAR 0.699 vs I-DLM 0.984
- अप्रभावी computation: TiDAR लगभग 7.8x overhead vs I-DLM लगभग 2.5x
- infrastructure mismatch: SDAR slope=84 vs I-DLM=549
I-DLM कार्यप्रणाली
-
Introspective-Consistency Training
- pre-trained AR model को causal attention, logit shift, all-masked objective के जरिए रूपांतरित किया जाता है
-
Introspective Strided Decoding(ISD)
- एक ही forward pass में N tokens का generation और पिछले tokens की verification साथ-साथ की जाती है
- generation results को verify करने के लिए p/q acceptance criterion का उपयोग किया जाता है
-
AR-Compatible Serving
- सख्त causal attention structure के कारण इसे सीधे SGLang infrastructure में integrate किया जा सकता है
- किसी अलग custom infrastructure के बिना यह AR model जैसे ही serving environment में चलता है
प्रदर्शन परिणाम
- I-DLM समान scale के AR model के बराबर quality वाला पहला DLM है, और 15 benchmarks में मौजूदा DLMs से आगे निकलता है
-
प्रमुख benchmark परिणाम
- ज्ञान·reasoning: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- गणित: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- instruction following: IFEval 84.7
- I-DLM-32B ने LLaDA-2.1-flash(100B) से भी बेहतर प्रदर्शन दर्ज किया
Throughput
- batch size 1~64 पर LLaDA-2.1-mini और SDAR की तुलना में 2.9~4.1x अधिक throughput हासिल किया गया
- memory-bound वातावरण में TPF(Token Per Forward) वास्तविक speedup का अच्छा approximation देता है
- I-DLM(N=4, p=0.9): TPF≈2.9, efficiency 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, efficiency 0.31
- efficiency 1 से अधिक होने का मतलब है कि parallel decoding, AR की तुलना में कुल computation को कम करती है
Speedup Factor Explorer
- acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
-
speedup approximation formula:
- memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD(lossless):
Speedup ≈ TPF/α
- Gated LoRA केवल MASK positions पर activate होता है, जिससे AR output के साथ bit-level identicalness सुनिश्चित होती है
दस्तावेज़ और संसाधन
- installation, training, inference, serving, lossless R-ISD, models, benchmarks की पूरी प्रक्रिया web documentation के रूप में उपलब्ध है
-
Installation
- GitHub repository को clone करने के बाद
install.sh चलाएँ
-
Quick Start
- SGLang server चलाने के बाद REST API से chat completion request भेजी जा सकती है
-
Training
- full-mask sequences और clean sequences को मिलाकर training की जाती है
- 4.5B tokens, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
-
Inference & ISD
- MASK positions पर नए tokens propose(q) किए जाते हैं, और clean positions पर verification(p) होती है
- acceptance criterion
min(1, p(x)/q(x)) के जरिए AR distribution सुनिश्चित किया जाता है
- stride N=4 पर TPF=2.96, लगभग 3x speedup
-
Serving (SGLang)
-
Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
- पूरे system में baseline की तुलना में 2.1~2.5x throughput improvement मिलता है
-
Lossless R-ISD
- Gated LoRA(rank=128) केवल MASK positions पर लागू किया जाता है
- output base AR model के साथ पूरी तरह identical रहता है
- overhead लगभग 1.12x
-
Model Zoo
- I-DLM-8B: Qwen3-8B आधारित, AR quality के बराबर
- I-DLM-32B: Qwen3-32B आधारित, LLaDA-2.1-flash(100B) से बेहतर
- I-DLM-8B-LoRA: Gated LoRA(rank=128) लागू
-
Benchmarks
- 15 benchmarks(ज्ञान, गणित, code, instruction following) पर मूल्यांकन
- reproducibility scripts उपलब्ध
उद्धरण जानकारी
- paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- शोध संस्थान: Together AI, UIUC, Princeton, Stanford, UT Austin
- लेखक: Yifan Yu सहित 14 अन्य
निष्कर्ष
- I-DLM diffusion-आधारित language model का AR model की quality और speed दोनों हासिल करने वाला पहला उदाहरण है
- self-consistency training और ISD decoding के जरिए इसने parallel generation की सीमाओं को पार किया है
- SGLang compatibility, lossless acceleration, और high-throughput scalability के साथ इसने व्यावहारिक deployment की संभावना साबित की है
1 टिप्पणियां
Hacker News की राय
अगर मैंने सही समझा है, तो यह काफ़ी चौंकाने वाला approach है
उन्होंने Qwen autoregressor को कई तकनीकों से बदलकर diffuser की तरह काम करने लायक बनाया, और मौजूदा diffuser से कहीं बेहतर performance दिखाई
LoRA adapter के ज़रिए output को base model के distribution के साथ align किया जा सकता है, जिससे उसी seed पर byte-level identical result मिलते हैं और speed लगभग दोगुनी हो जाती है
मैं expert से ज़्यादा एक उत्साही experimenter हूँ, लेकिन यह सचमुच बहुत दिलचस्प प्रगति लगती है
इसमें denoising process नहीं है, और यह अब भी causal structure बनाए रखता है
विशेष रूप से, इसमें कई MASK token का इस्तेमाल कर एक बार में कई token predict करने की training दी जाती है, और inference के समय उन्हें parallel में generate करके speed बढ़ाई जाती है
उदाहरण के लिए, “what is 2+2” के बाद 5 MASK जोड़कर एक ही बार में अगले 5 token predict किए जाते हैं
इससे matrix-vector की जगह matrix-matrix operation होता है, इसलिए memory efficiency बढ़ती है
लेकिन k (predict किए जाने वाले token की संख्या) बढ़ने पर quality तेज़ी से गिरती है, और paper में भी k=8 पर गिरावट दिखती है
आख़िरकार यह 4-token prediction पर आधारित self-speculative decoding है, जो मौजूदा सीमाओं को पूरी तरह खत्म तो नहीं करता, लेकिन training का दिलचस्प तरीका है
इससे जुड़ी व्याख्या पिछली पोस्ट में है
सोच रहा हूँ कि DFlash या DDTree की तुलना में इसमें क्या फ़र्क है
पिछले साल मैंने थोड़ी देर के लिए Gemini के जवाबों को diffusion शैली में धीरे-धीरे उभरते हुए देखा था
पता नहीं वह कोई experiment था या सिर्फ़ visual effect, लेकिन घटना दिलचस्प थी
क्या यहाँ कोई text generation के लिए Diffusion पर गंभीरता से experiment कर रहा है?
speed चौंकाने वाली है, लेकिन first-token latency और output quality अब भी चुनौती हैं
अगर speed और accuracy थोड़ी और बढ़ जाए, तो low-cost model या asynchronous workloads के लिए यह काफ़ी practical हो सकता है
साथ ही, एक बार में लंबे text को diffuse करके reasoning ability को ज़बरदस्ती बढ़ाने वाले experiment भी दिलचस्प हो सकते हैं
संबंधित जानकारी के लिए Emergent Mind लेख देखें
यह पुराने Gemini Flash Lite की तुलना में कहीं ज़्यादा smoothly काम करता है, इसलिए auto-tagging या link generation जैसे कामों के लिए उपयुक्त है
लेकिन Haiku 3.5 स्तर की tool-calling performance अभी नहीं है
जिन कामों में input काफ़ी हो और output छोटा हो, उनमें dLLM अच्छी तरह फिट बैठता है, और tab autocomplete जैसे क्षेत्रों में भी संभावना है
generation बाएँ से दाएँ होती है, लेकिन diffusion सिर्फ़ sliding window के भीतर होता है। window लगभग 16 token की है, इसलिए फ़र्क बहुत बड़ा नहीं है
मैं expert स्तर का नहीं हूँ, लेकिन अगर यह Diffusion है, तो क्या इसे पूरा output एक साथ generate नहीं करना चाहिए?
लेकिन I-LDM model को देखकर लगता है कि यह पिछले context का इस्तेमाल करके अगला block generate करता है
उदाहरण के लिए, अगर दो token एक साथ generate किए जाएँ, तो speed लगभग 2x तक बढ़ सकती है
block size बढ़ने पर कुल generation speed इतनी तेज़ हो जाती है कि सब कुछ एक साथ generate करने से बहुत अलग नहीं रहती
आखिर में असली बात यह है कि quality degradation को कितना कम किया जा सकता है, और लगता है कि इस paper ने उस हिस्से को काफ़ी अच्छी तरह संभाला है
क्या इस model का उपयोग करने के लिए sglang पर switch करना पड़ेगा, या vLLM में इसका support पहले से है?
मैं काफ़ी समय से सोचता रहा हूँ कि block-based diffusion architecture ही LLM का भविष्य है
token generation speed को dynamically adjust करना, और generation के दौरान self-correction की क्षमता — यह इंसानी short-term memory जैसी किसी system की तरफ़ ले जा सकता है
मुझे इसके mathematical principles अच्छी तरह नहीं पता, लेकिन उम्मीद है कि विकास इसी दिशा में होगा
release notes में देखा
सोच रहा हूँ कि क्या इस model को अभी तुरंत इस्तेमाल किया जा सकता है
क्या diffusion model block generate कर सकता है, फिर उसका introspection कर सकता है, और उसके बाद दोबारा generate करके iterative reasoning कर सकता है?