Meta ने Seamless Communication मॉडल फैमिली की घोषणा की

(ai.meta.com)

4 पॉइंट द्वारा GN⁺ 2023-12-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

भाषा संबंधी बाधाओं को हटाकर कई भाषाओं के बीच अधिक स्वाभाविक कम्युनिकेशन संभव बनाने वाला AI रिसर्च मॉडल परिवार
- SeamlessExpressive: भाषाओं के बीच अभिव्यक्ति और भाषा की सूक्ष्म बारीकियों को सुरक्षित रखता है
- SeamlessStreaming: लगभग 2 सेकंड की latency के साथ speech और text translation प्रदान करता है
- SeamlessM4T v2: बहुभाषी और multitasking foundation model, जो speech और text के माध्यम से कम्युनिकेशन को सपोर्ट करता है
- Seamless: SeamlessExpressive, SeamlessStreaming और SeamlessM4T v2 की क्षमताओं को एक में एकीकृत करता है

अभिव्यक्ति की बारीकियों को सुरक्षित रखना

SeamlessExpressive का लक्ष्य ऐसा translation है जो मानवीय अभिव्यक्ति की बारीकियों को पकड़ सके
मौजूदा translation tools बातचीत की सामग्री को पकड़ने में सक्षम हैं, लेकिन आम तौर पर एकरस और रोबोट जैसी आवाज़ में आउटपुट देते हैं
SeamlessExpressive speech style और emotional coloring के साथ-साथ बोलने की गति और pauses जैसी भाषाई बारीकियों को भी सुरक्षित रखना चाहता है

लगभग real-time translation

SeamlessStreaming लगभग 2 सेकंड की latency के साथ translation देने वाला पहला large-scale multilingual model है
यह SeamlessM4T v2 पर आधारित है और automatic speech recognition तथा लगभग 100 input और output भाषाओं के लिए speech-to-text translation को सपोर्ट करता है
यह लगभग 100 input भाषाओं और 36 output भाषाओं के लिए speech-to-speech translation को भी सपोर्ट करता है

universal translation के लिए foundation model

अगस्त 2023 में Meta ने SeamlessM4T का पहला संस्करण पेश किया था, जो speech और text दोनों में translation और transcription के लिए state-of-the-art परिणाम देता है
इसी पर आधारित बेहतर मॉडल SeamlessM4T v2, नए SeamlessExpressive और SeamlessStreaming मॉडलों की foundation बनता है
इसमें नई architecture और non-autoregressive text-unit decoder की विशेषता है, जो text और speech output के बीच consistency को बेहतर बनाती है

रिसर्च दृष्टिकोण

Meta सहयोग और open research की ताकत में विश्वास करता है, इसलिए शोधकर्ताओं को इस काम पर आगे बढ़ने में मदद देने के लिए पूरे Seamless Communication मॉडल परिवार को सार्वजनिक कर रहा है
सुरक्षित और जिम्मेदार AI ecosystem को बढ़ावा देने के लिए translation में hallucination toxicity के प्रभाव को काफी कम किया गया है, और expressive model के audio output के लिए एक customized watermarking approach लागू की गई है

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Meta ने भाषा की बाधाओं को तोड़ने के लिए विकसित किए गए Seamless Communication AI मॉडलों का परिचय दिया है। ये मॉडल अभिव्यक्ति की बारीकियों को बनाए रखते हुए लगभग real-time translation प्रदान करते हैं और कई भाषाओं को सपोर्ट करने वाली शक्तिशाली क्षमताएँ रखते हैं। यह तकनीकी प्रगति दुनिया भर के लोगों के लिए अधिक स्वाभाविक और प्रामाणिक तरीके से संवाद करने का रास्ता खोल रही है, इसलिए यह कई लोगों के लिए दिलचस्प और आकर्षक खबर हो सकती है।

1 टिप्पणियां

GN⁺ 2023-12-02

Hacker News राय

भविष्य की आशाजनक तकनीक के लिए उम्मीद

उस दिन का इंतज़ार है जब विदेश में हेडफ़ोन पहनकर अपने आसपास की बातचीत अपनी ही भाषा में सुनी जा सकेगी। बचपन में SF में देखे गए 'universal translator' से मोहित था, और अपने पिता को फ़्रेंच-इंग्लिश simultaneous interpreter के रूप में व्यस्त काम करते देख खुद अनुवादक बनाने की कोशिश की थी। उम्मीद है कि अनुवाद एक महत्वपूर्ण काम है और इससे बहुत लोगों को मदद मिल सकती है.
तकनीक का उपयोग करने वाले भाषा-शिक्षण टूल के लिए उम्मीद

इस तकनीक का उपयोग करने वाला language teacher विकसित होने की उम्मीद है। हर व्यक्ति के पास रोज़ कुछ घंटों के लिए personal tutor हो सकता है। चीन या मेक्सिको में काम करते हुए VR गेम्स के ज़रिए भाषा सीखना बहुत आकर्षक लगता है.
रियल-टाइम स्ट्रीमिंग तकनीक की संभावनाएँ

श्रवण-बाधित एक नए कर्मचारी के लिए कंपनी ने Dragon जैसे ऐसे solution सुझाए जो रियल-टाइम में काम नहीं करते थे, लेकिन उस कर्मचारी ने खुद Whisper का उपयोग करके लगभग रियल-टाइम text conversion solution बना लिया। नए मॉडल के साथ वह क्या करेगा, इसे लेकर उत्सुकता है.
अनुवाद की शुद्धता को लेकर चिंता

यह ज़्यादा चिंताजनक है कि अनुवादक कभी-कभी सिर्फ़ गलत शब्द न चुनकर बल्कि गलतफ़हमी पैदा करने वाला अनुवाद कर देता है। उदाहरण के लिए, "what the fuck" का स्पैनिश अनुवाद करते समय अर्थ को हल्का करके "qué diablos" देना, उन उपयोगकर्ताओं के लिए समस्या हो सकती है जो मूल इरादे को ठीक-ठीक जानना चाहते हैं.
AI द्वारा उद्योग में बदलाव की समझ

जब पत्नी कई भाषाओं में dubbing करने वाली professional voice actor बनना चाहती थीं, तब AI की वजह से उद्योग में आने वाले बदलाव का अंदाज़ा लगाकर उन्होंने अपना रास्ता बदल लिया। AI की प्रगति के नतीजे प्रभावशाली लगते हैं.
text-to-speech तकनीक की प्रगति और आगे की उम्मीद

पिछले कुछ वर्षों में text-to-speech तकनीक ने काफ़ी प्रगति की है, लेकिन यह जानने की जिज्ञासा है कि यह तकनीक operating system में built-in TTS engine (जैसे screen reader आदि) में कब integrate होगी.
कुछ खास भाषाओं के लिए समर्थन की कमी पर असंतोष

यह देखकर निराशा हुई कि Hindi जैसी प्रमुख भाषा sample में शामिल नहीं थी। भारत Facebook का सबसे बड़ा user base है, लेकिन Facebook भारत के लिए पर्याप्त योगदान नहीं कर रहा है.
भाषा डेटा की कमी पर सवाल

अंग्रेज़ी-स्वाहिली अनुवाद की कोशिश के नतीजे अच्छे नहीं थे। Huggingface M4T V2 इस्तेमाल किया, लेकिन ज़्यादातर मामलों में यह ठीक से काम नहीं करता और बस अलग आवाज़ में अंग्रेज़ी वापस कर देता है। यह स्पष्ट स्पष्टीकरण चाहिए कि कौन-सा data कम है जिसकी वजह से भाषा सही से काम नहीं करती। शायद data उपलब्ध कराकर मदद भी की जा सके.
अनुवादक की त्रुटियों के लिए इस्तेमाल की गई अभिव्यक्ति

"toxic word hallucinations" अभिव्यक्ति cyberpunk जैसी लगती है.
AI अनुवाद तकनीक की प्रगति पर प्रशंसा

पिछले 30 वर्षों में हुई प्रगति ने प्रभावित किया है। 90 के दशक के मध्य में छात्र रहते हुए German Research Center for Artificial Intelligence के Verbmobil system पर काम किया था, जो बहुत सीमित दायरे में अंग्रेज़ी, जर्मन और जापानी के बीच speech-to-speech translation करता था। उस समय domain modeling, sentence parsing, semantic engine, और तीन भाषाओं के लिए custom speech-to-text conversion जैसे "traditional" NLP तरीकों का इस्तेमाल हुआ था, लेकिन बाद में समझ आया कि यह approach अंततः dead end थी.