BERT सिर्फ एक टेक्स्ट डिफ्यूजन चरण है

(nathan.rs)

3 पॉइंट द्वारा GN⁺ 2025-10-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

BERT और RoBERTa जैसे masked language model को भी टेक्स्ट डिफ्यूजन मॉडल के कॉन्सेप्ट से समझा जा सकता है
पारंपरिक Auto-regressive (जैसे GPT) से अलग, ब्लॉक-वाइज जेनरेशन तथा क्रमिक रिकवरी तरीका लागू करने की संभावना को प्रयोगों से साबित किया गया
मास्किंग अनुपात को चरण-दर-चरण बदलते हुए ट्रेन करने पर RoBERTa से भी प्राकृतिक टेक्स्ट जेनरेशन संभव होने की पुष्टि की गई
मौजूदा स्ट्रक्चर बदले बिना केवल training objective बदलने से भी जेनरेशन क्षमता हासिल की जा सकती है
GPT-2 से तुलना करने पर, RoBERTa-आधारित डिफ्यूजन मॉडल भी एक हद तक सुसंगत टेक्स्ट जेनरेशन आउटपुट देता है

अवलोकन

Google DeepMind द्वारा प्रकाशित Gemini Diffusion एक डिफ्यूजन-आधारित भाषा मॉडल है, जो पारंपरिक GPT परिवार से अलग टेक्स्ट को एक बार में ब्लॉक-आधारित तरीके से जेनरेट करता है। यह विधि क्रमिक रूप से रैंडम noise को refine करके टेक्स्ट बनाने वाली approach है। संबंधित शोध-पत्र Large Language Diffusion Models में दिखता है कि डिस्क्रीट भाषा डिफ्यूजन, Masked Language Modeling (MLM) का generalization है। यानी इसी आइडिया के आधार पर BERT परिवार के मॉडल में भी टेक्स्ट जेनरेशन संभव हो सकता है या नहीं, इसे प्रयोगात्मक रूप से explore किया गया।

नोट: बाद में प्रकाशित DiffusionBERT शोध-पत्र ने इसी तरह के आइडिया को अधिक कठोर तरीके से validate किया।

ट्रांसफॉर्मर का सरल इतिहास

2017 में पहली बार propose किए गए Transformer में encoder-decoder architecture था। 2018 में encoder (BERT: bidirectional, masked reconstruction केंद्रित) और decoder (GPT: autoregressive, क्रमिक prediction केंद्रित) अलग होकर अलग-अलग specialized मॉडल families के रूप में सामने आए।

Encoder-only (BERT परिवार)
- पूरा context input के रूप में लेकर कुछ भागों को <MASK> से mask करता है और बाकी से restore करता है
- sentence representation, classification आदि में strong performance देता है
Decoder-only (GPT परिवार)
- दिए गए क्रम में अगला token predict करता है
- generation, summarization, translation आदि में standout करता है

BERT सीधे classification जैसी tasks में इस्तेमाल होने लगा, लेकिन बाद में GPT परिवार ने बेहतर generation ability के कारण ज्यादा विविध use-cases हासिल किए।

डिस्क्रीट भाषा डिफ्यूजन मॉडल

Diffusion मॉडल पहले image generation में mainstream हुए थे।
इमेज में:

Forward process: साफ़ image में धीरे-धीरे Gaussian noise जोड़कर pure-noise state तक पहुँचना
Reverse process: deep learning मॉडल से iterative denoise करके original data recover करना

टेक्स्ट पर apply करने के लिए सबसे सरल तरीका masking-based noise process है।

Forward (Masking)
- t=0 पर original text, और जैसे-जैसे चरण बढ़ते हैं, कुछ tokens को random तरीके से <MASK> से बदलना
- अंतिम चरण में सभी tokens <MASK> हो जाते हैं
Reverse (Denoise)
- Transformer encoder दिए गए masking सेटअप में original tokens recover करने के लिए train होता है
- masking ratio कम हो तो आसान, ratio बढ़ने पर recovery कठिन
- high masking ratio से शुरू करके क्रमशः lower ratio पर repeat करने से पूरी sequence generate की जा सकती है

इस डिफ्यूजन framework में मॉडल अलग-अलग masking ratio चरणों पर denoise loss को जोड़कर train होता है। BERT का masking-reconstruction objective वस्तुतः टेक्स्ट डिफ्यूजन का ही एक हिस्सा है। masking-ratio schedule और repeated denoise को combine करने से BERT objective को natural language generation procedure के रूप में expand किया जा सकता है।

RoBERTa डिफ्यूजन प्रयोग

RoBERTa 2019 में आया हुआ BERT variant है, जिसकी खासियत hyperparameter और data का विस्तार, साथ ही अपेक्षाकृत सरल training objective (MLM Only) है।
प्रयोग में HuggingFace transformers, datasets libraries से RoBERTa के default weights, tokenizer और Trainer का उपयोग किया गया।
WikiText dataset पर नीचे दिए क्रम से finetuning की गई:

प्रत्येक batch के लिए 10-step diffusion schedule (mask_probs: 1.0~0.1) में से एक चुना गया और masking की गई
custom diffusion_collator से masking probability चुनकर प्रत्येक token पर probability से <MASK> apply किया गया
prompt context बचाने के लिए शुरुआत के पहले 16 tokens हमेशा preserved रखे गए

डेटा मास्किंग (कस्टम collator):

प्रत्येक उदाहरण के token batches को padding के बाद masking probability random चुनी गई
पहले 16 tokens छोड़कर बाकी सभी पर probability के साथ <MASK> apply किया गया
masked data और सही label सेट वापस दिए गए

निर्माण (inference):

256-token लंबी sequence input ली गई; पहले 16 tokens prompt और बाकी <MASK>
प्रत्येक चरण में मॉडल की predicted tokens sample करके भरना, फिर कुछ भाग को फिर से re-mask करना
masking ratio धीरे-धीरे घटाते हुए loop दोहराना, अंत में पूरी sequence restore हो जाती है

उदाहरण जेनरेशन परिणाम:

prompt और उसके बाद का काफी प्राकृतिक continuation दिखाते हुए वास्तविकतः पर्याप्त सुसंगत टेक्स्ट generate हुआ
कुछ anomalies संभवतः WikiText preprocessing format (जैसे @-@ hyphen) की वजह से थे

GPT-2 तुलना

GPT-2 थोड़ा तेज़ और consistency-wise बेहतर है, लेकिन RoBERTa Diffusion ने अपेक्षा से बेहतर performance भी दिखायी (incremental सुधार की संभावना ऊँची)
नए AR-Diffusion, Skip-Step Diffusion approaches और optimization से quality/speed और improve की जा सकती है

निष्कर्ष

RoBERTa-जैसे masked language model भी, यदि masking ratio बदलते हुए train किए जाएँ, तो प्राकृतिक भाषा के जेनरेशन इंजन बन सकते हैं
केवल <MASK> tokens से टेक्स्ट को क्रमिक रूप से corrupt/restore करने वाली training strategy से भी पूरी तरह generative model में बदलने की संभावना साबित हुई
स्ट्रक्चर बदले बिना केवल training objective बदलकर जेनरेशन क्षमता प्राप्त की जा सकती है
यानी, BERT परिवार के मॉडल भी मूलतः एक टेक्स्ट डिफ्यूजन मॉडल से अलग नहीं हैं