BERT एक टेक्स्ट डिफ्यूज़न मॉडल था: RoBERTa से केवल 30 मिनट में बनाया गया जनरेटिव AI

(aisparkup.com)

9 पॉइंट द्वारा davespark 2025-10-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

2018 से इस्तेमाल की जा रही BERT की ट्रेिनिंग पद्धति का यह पता चला कि वह दरअसल आधुनिक टेक्स्ट डिफ्यूज़न मॉडल के समान ही सिद्धांत पर आधारित है। यह सिर्फ एक शैक्षणिक खोज नहीं, बल्कि यह व्यावहारिक रूप से दिखाती है कि मौजूदा BERT मॉडल को GPT की तरह टेक्स्ट जेनरेट करने वाले मॉडल में बदलना संभव है।

मुख्य बिंदु:

BERT का मैस्क्ड लैंग्वेज मॉडलिंग (MLM) एक फिक्स्ड मास्किंग-रेट वाला डिफ्यूज़न प्रोसेस है: सात साल से इस्तेमाल किए जा रहे BERT की लर्निंग पद्धति का वास्तविक सिद्धांत वास्तव में noise removal वाले डिफ्यूज़न के समान है। मास्किंग रेट को वैरिएबल करने पर इसे पूर्ण जनरेटिव मॉडल में बदलना संभव हो जाता है।
सिर्फ 30 मिनट के प्रशिक्षण से GPT-2-स्तर की टेक्स्ट जेनरेशन लागू करना: मौजूदा RoBERTa मॉडल को थोड़े से फाइन-ट्यूनिंग के साथ टेक्स्ट जेनरेशन मॉडल में बदलना। शब्दों को एक-एक करके अनुमान लगाने वाली GPT शैली के बजाय यह पूरे वाक्य को क्रमशः बहाल करने वाले तरीके से काम करता है।
टेक्स्ट जेनरेशन की नई संभावनाएँ: GPT के autoregressive तरीके के अलावा यह डिफ्यूज़न-आधारित जेनरेशन का एक वैकल्पिक दृष्टिकोण प्रस्तुत करता है। Google DeepMind की Gemini Diffusion जैसी पहल के साथ नए ट्रेंड की शुरुआत।

BERT एक टेक्स्ट डिफ्यूज़न मॉडल था: RoBERTa से केवल 30 मिनट में बनाया गया जनरेटिव AI

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.