I-DLM - आत्म-परीक्षणात्मक Diffusion Language Models (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 पॉइंट द्वारा GN⁺ 16 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

I-DLM diffusion-आधारित language model का पहला उदाहरण है जिसने AR(Autoregressive) model-स्तर की quality और parallel generation speed दोनों एक साथ हासिल किए हैं
Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए token generation और पिछले tokens की verification साथ-साथ होती है
I-DLM-8B ने LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points का सुधार दिखाया
Gated LoRA का उपयोग करके bit-level lossless acceleration लागू किया गया है, और यह SGLang infrastructure के साथ पूरी तरह compatible है
diffusion language models ने self-consistency training और parallel decoding optimization के जरिए व्यावहारिक large-scale deployment की संभावना साबित की है

अवलोकन

I-DLM(Introspective Diffusion Language Model) ऐसा model है जो मौजूदा diffusion language models(DLM) की parallel token generation क्षमता को बनाए रखते हुए introspective consistency की समस्या को हल करता है और AR model-स्तर की quality हासिल करता है
Introspective Strided Decoding(ISD) के जरिए एक ही forward pass में नए tokens generate करते हुए पिछले tokens को verify किया जाता है
I-DLM-8B समान scale के AR models के बराबर quality हासिल करने वाला पहला DLM है, और LLaDA-2.1-mini(16B) की तुलना में आधे parameters के साथ AIME-24 में +26 points और LiveCodeBench-v6 में +15 points बेहतर प्रदर्शन करता है
उच्च concurrency(C=64) वातावरण में यह 2.9~4.1x throughput हासिल करता है, और Gated LoRA के जरिए bit-level lossless acceleration को support करता है

Introspective Consistency की आवश्यकता

AR models एक ही forward pass में generation और self-verification दोनों करते हैं, लेकिन मौजूदा DLMs केवल denoising सीखते हैं, इसलिए उनमें self-consistency की कमी होती है
मौजूदा DLMs की तीन bottlenecks
- कम self-consistency: SDAR 0.699 vs I-DLM 0.984
- अप्रभावी computation: TiDAR लगभग 7.8x overhead vs I-DLM लगभग 2.5x
- infrastructure mismatch: SDAR slope=84 vs I-DLM=549

I-DLM कार्यप्रणाली

Introspective-Consistency Training
- pre-trained AR model को causal attention, logit shift, all-masked objective के जरिए रूपांतरित किया जाता है
Introspective Strided Decoding(ISD)
- एक ही forward pass में N tokens का generation और पिछले tokens की verification साथ-साथ की जाती है
- generation results को verify करने के लिए p/q acceptance criterion का उपयोग किया जाता है
AR-Compatible Serving
- सख्त causal attention structure के कारण इसे सीधे SGLang infrastructure में integrate किया जा सकता है
- किसी अलग custom infrastructure के बिना यह AR model जैसे ही serving environment में चलता है

प्रदर्शन परिणाम

I-DLM समान scale के AR model के बराबर quality वाला पहला DLM है, और 15 benchmarks में मौजूदा DLMs से आगे निकलता है
प्रमुख benchmark परिणाम
- ज्ञान·reasoning: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- गणित: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- instruction following: IFEval 84.7
- I-DLM-32B ने LLaDA-2.1-flash(100B) से भी बेहतर प्रदर्शन दर्ज किया

Throughput

batch size 1~64 पर LLaDA-2.1-mini और SDAR की तुलना में 2.9~4.1x अधिक throughput हासिल किया गया
memory-bound वातावरण में TPF(Token Per Forward) वास्तविक speedup का अच्छा approximation देता है
- I-DLM(N=4, p=0.9): TPF≈2.9, efficiency 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, efficiency 0.31
efficiency 1 से अधिक होने का मतलब है कि parallel decoding, AR की तुलना में कुल computation को कम करती है

Speedup Factor Explorer

acceptance rate p=0.9, R-ISD LoRA overhead α=1.12
speedup approximation formula:
- memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD(lossless): Speedup ≈ TPF/α
- Gated LoRA केवल MASK positions पर activate होता है, जिससे AR output के साथ bit-level identicalness सुनिश्चित होती है

दस्तावेज़ और संसाधन

installation, training, inference, serving, lossless R-ISD, models, benchmarks की पूरी प्रक्रिया web documentation के रूप में उपलब्ध है
Installation
- GitHub repository को clone करने के बाद install.sh चलाएँ
Quick Start
- SGLang server चलाने के बाद REST API से chat completion request भेजी जा सकती है
Training
- full-mask sequences और clean sequences को मिलाकर training की जाती है
- 4.5B tokens, 8×H100 GPU, 2 epoch, stride curriculum(N=2→3)
Inference & ISD
- MASK positions पर नए tokens propose(q) किए जाते हैं, और clean positions पर verification(p) होती है
- acceptance criterion min(1, p(x)/q(x)) के जरिए AR distribution सुनिश्चित किया जाता है
- stride N=4 पर TPF=2.96, लगभग 3x speedup
Serving (SGLang)
- Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)
  - पूरे system में baseline की तुलना में 2.1~2.5x throughput improvement मिलता है
Lossless R-ISD
- Gated LoRA(rank=128) केवल MASK positions पर लागू किया जाता है
- output base AR model के साथ पूरी तरह identical रहता है
- overhead लगभग 1.12x
Model Zoo
- I-DLM-8B: Qwen3-8B आधारित, AR quality के बराबर
- I-DLM-32B: Qwen3-32B आधारित, LLaDA-2.1-flash(100B) से बेहतर
- I-DLM-8B-LoRA: Gated LoRA(rank=128) लागू
Benchmarks
- 15 benchmarks(ज्ञान, गणित, code, instruction following) पर मूल्यांकन
- reproducibility scripts उपलब्ध

उद्धरण जानकारी

paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
शोध संस्थान: Together AI, UIUC, Princeton, Stanford, UT Austin
लेखक: Yifan Yu सहित 14 अन्य

निष्कर्ष

I-DLM diffusion-आधारित language model का AR model की quality और speed दोनों हासिल करने वाला पहला उदाहरण है
self-consistency training और ISD decoding के जरिए इसने parallel generation की सीमाओं को पार किया है
SGLang compatibility, lossless acceleration, और high-throughput scalability के साथ इसने व्यावहारिक deployment की संभावना साबित की है

1 टिप्पणियां

GN⁺ 16 일 전

Hacker News की राय

अगर मैंने सही समझा है, तो यह काफ़ी चौंकाने वाला approach है
उन्होंने Qwen autoregressor को कई तकनीकों से बदलकर diffuser की तरह काम करने लायक बनाया, और मौजूदा diffuser से कहीं बेहतर performance दिखाई
LoRA adapter के ज़रिए output को base model के distribution के साथ align किया जा सकता है, जिससे उसी seed पर byte-level identical result मिलते हैं और speed लगभग दोगुनी हो जाती है
मैं expert से ज़्यादा एक उत्साही experimenter हूँ, लेकिन यह सचमुच बहुत दिलचस्प प्रगति लगती है
- उत्साहित होने की वजह है। यह paper दावा करता है कि इसने AR quality और parallel decoding के बीच पुल बनाया है। खास तौर पर lossless LoRA auxiliary mode सबसे प्रभावशाली लगा
- यह बात समझ नहीं आती कि base model के output को सीधे generate किए बिना उससे compare कैसे किया जा सकता है। अगर ऐसा है, तो उस comparison का मतलब क्या है, यह जानना चाहूँगा
- असल में यह diffusion से ज़्यादा multi-token prediction और speculative decoding का एक variant है
  इसमें denoising process नहीं है, और यह अब भी causal structure बनाए रखता है
  विशेष रूप से, इसमें कई MASK token का इस्तेमाल कर एक बार में कई token predict करने की training दी जाती है, और inference के समय उन्हें parallel में generate करके speed बढ़ाई जाती है
  उदाहरण के लिए, “what is 2+2” के बाद 5 MASK जोड़कर एक ही बार में अगले 5 token predict किए जाते हैं
  इससे matrix-vector की जगह matrix-matrix operation होता है, इसलिए memory efficiency बढ़ती है
  लेकिन k (predict किए जाने वाले token की संख्या) बढ़ने पर quality तेज़ी से गिरती है, और paper में भी k=8 पर गिरावट दिखती है
  आख़िरकार यह 4-token prediction पर आधारित self-speculative decoding है, जो मौजूदा सीमाओं को पूरी तरह खत्म तो नहीं करता, लेकिन training का दिलचस्प तरीका है
  इससे जुड़ी व्याख्या पिछली पोस्ट में है
सोच रहा हूँ कि DFlash या DDTree की तुलना में इसमें क्या फ़र्क है
पिछले साल मैंने थोड़ी देर के लिए Gemini के जवाबों को diffusion शैली में धीरे-धीरे उभरते हुए देखा था
पता नहीं वह कोई experiment था या सिर्फ़ visual effect, लेकिन घटना दिलचस्प थी
क्या यहाँ कोई text generation के लिए Diffusion पर गंभीरता से experiment कर रहा है?
- Inception Labs शायद इस क्षेत्र पर काफ़ी समय से काम कर रहा है
  speed चौंकाने वाली है, लेकिन first-token latency और output quality अब भी चुनौती हैं
  अगर speed और accuracy थोड़ी और बढ़ जाए, तो low-cost model या asynchronous workloads के लिए यह काफ़ी practical हो सकता है
  साथ ही, एक बार में लंबे text को diffuse करके reasoning ability को ज़बरदस्ती बढ़ाने वाले experiment भी दिलचस्प हो सकते हैं
- अभी local LLM क्षेत्र में इसे speculative decoding के उपयोग के लिए explore किया जा रहा है
  संबंधित जानकारी के लिए Emergent Mind लेख देखें
- Mercury 2 latency और price के लिहाज़ से UX experiment के लिए बहुत आकर्षक है
  यह पुराने Gemini Flash Lite की तुलना में कहीं ज़्यादा smoothly काम करता है, इसलिए auto-tagging या link generation जैसे कामों के लिए उपयुक्त है
  लेकिन Haiku 3.5 स्तर की tool-calling performance अभी नहीं है
  जिन कामों में input काफ़ी हो और output छोटा हो, उनमें dLLM अच्छी तरह फिट बैठता है, और tab autocomplete जैसे क्षेत्रों में भी संभावना है
- मैंने भी इस पर experiment किया है, और इसमें सामान्य LLM से अलग तरह के intuitive approach की ज़रूरत होती है। कुछ समस्याओं पर यह बहुत अच्छा फिट बैठता है
- मैं Swift में WeDLM implement कर रहा हूँ, लेकिन performance अभी कमज़ोर है
  generation बाएँ से दाएँ होती है, लेकिन diffusion सिर्फ़ sliding window के भीतर होता है। window लगभग 16 token की है, इसलिए फ़र्क बहुत बड़ा नहीं है
मैं expert स्तर का नहीं हूँ, लेकिन अगर यह Diffusion है, तो क्या इसे पूरा output एक साथ generate नहीं करना चाहिए?
लेकिन I-LDM model को देखकर लगता है कि यह पिछले context का इस्तेमाल करके अगला block generate करता है
- Block-wise generation से speed में बड़ा सुधार मिलता है
  उदाहरण के लिए, अगर दो token एक साथ generate किए जाएँ, तो speed लगभग 2x तक बढ़ सकती है
  block size बढ़ने पर कुल generation speed इतनी तेज़ हो जाती है कि सब कुछ एक साथ generate करने से बहुत अलग नहीं रहती
  आखिर में असली बात यह है कि quality degradation को कितना कम किया जा सकता है, और लगता है कि इस paper ने उस हिस्से को काफ़ी अच्छी तरह संभाला है
क्या इस model का उपयोग करने के लिए sglang पर switch करना पड़ेगा, या vLLM में इसका support पहले से है?
मैं काफ़ी समय से सोचता रहा हूँ कि block-based diffusion architecture ही LLM का भविष्य है
token generation speed को dynamically adjust करना, और generation के दौरान self-correction की क्षमता — यह इंसानी short-term memory जैसी किसी system की तरफ़ ले जा सकता है
मुझे इसके mathematical principles अच्छी तरह नहीं पता, लेकिन उम्मीद है कि विकास इसी दिशा में होगा
release notes में देखा

2025-04-12: code release और I-DLM-8B, 32B, 8B-LoRA release
तारीख़ कुछ पुरानी लग रही है, तो सोच रहा हूँ कि क्या यह कोई पुराना version है
- यह सिर्फ़ year typo है। मैंने पुष्टि की कि इसे वास्तव में कुछ दिन पहले HuggingFace पर upload किया गया था
सोच रहा हूँ कि क्या इस model को अभी तुरंत इस्तेमाल किया जा सकता है
क्या diffusion model block generate कर सकता है, फिर उसका introspection कर सकता है, और उसके बाद दोबारा generate करके iterative reasoning कर सकता है?
- हाँ। पहले output को फिर से model में डालकर इसे AR reasoning model की तरह दोबारा evaluate करने के तरीके से यह implement किया जा सकता है

I-DLM - आत्म-परीक्षणात्मक Diffusion Language Models (Introspective Diffusion Language Models)

अवलोकन

Introspective Consistency की आवश्यकता

I-DLM कार्यप्रणाली

Introspective-Consistency Training

Introspective Strided Decoding(ISD)

AR-Compatible Serving

प्रदर्शन परिणाम

प्रमुख benchmark परिणाम

Throughput

Speedup Factor Explorer

speedup approximation formula:

दस्तावेज़ और संसाधन

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

उद्धरण जानकारी

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय

Paged KV cache, CUDA graph capture(+42~76%), Stationary-batch decode loop(+11~21%), Argmax proposal(+11~15%), Paged-only attention kernel(+10~14%)