2018 से इस्तेमाल की जा रही BERT की ट्रेिनिंग पद्धति का यह पता चला कि वह दरअसल आधुनिक टेक्स्ट डिफ्यूज़न मॉडल के समान ही सिद्धांत पर आधारित है। यह सिर्फ एक शैक्षणिक खोज नहीं, बल्कि यह व्यावहारिक रूप से दिखाती है कि मौजूदा BERT मॉडल को GPT की तरह टेक्स्ट जेनरेट करने वाले मॉडल में बदलना संभव है।
मुख्य बिंदु:
- BERT का मैस्क्ड लैंग्वेज मॉडलिंग (MLM) एक फिक्स्ड मास्किंग-रेट वाला डिफ्यूज़न प्रोसेस है: सात साल से इस्तेमाल किए जा रहे BERT की लर्निंग पद्धति का वास्तविक सिद्धांत वास्तव में noise removal वाले डिफ्यूज़न के समान है। मास्किंग रेट को वैरिएबल करने पर इसे पूर्ण जनरेटिव मॉडल में बदलना संभव हो जाता है।
- सिर्फ 30 मिनट के प्रशिक्षण से GPT-2-स्तर की टेक्स्ट जेनरेशन लागू करना: मौजूदा RoBERTa मॉडल को थोड़े से फाइन-ट्यूनिंग के साथ टेक्स्ट जेनरेशन मॉडल में बदलना। शब्दों को एक-एक करके अनुमान लगाने वाली GPT शैली के बजाय यह पूरे वाक्य को क्रमशः बहाल करने वाले तरीके से काम करता है।
- टेक्स्ट जेनरेशन की नई संभावनाएँ: GPT के autoregressive तरीके के अलावा यह डिफ्यूज़न-आधारित जेनरेशन का एक वैकल्पिक दृष्टिकोण प्रस्तुत करता है। Google DeepMind की Gemini Diffusion जैसी पहल के साथ नए ट्रेंड की शुरुआत।
अभी कोई टिप्पणी नहीं है.