Meta ने Seamless Communication मॉडल फैमिली की घोषणा की
(ai.meta.com)- भाषा संबंधी बाधाओं को हटाकर कई भाषाओं के बीच अधिक स्वाभाविक कम्युनिकेशन संभव बनाने वाला AI रिसर्च मॉडल परिवार
- SeamlessExpressive: भाषाओं के बीच अभिव्यक्ति और भाषा की सूक्ष्म बारीकियों को सुरक्षित रखता है
- SeamlessStreaming: लगभग 2 सेकंड की latency के साथ speech और text translation प्रदान करता है
- SeamlessM4T v2: बहुभाषी और multitasking foundation model, जो speech और text के माध्यम से कम्युनिकेशन को सपोर्ट करता है
- Seamless: SeamlessExpressive, SeamlessStreaming और SeamlessM4T v2 की क्षमताओं को एक में एकीकृत करता है
अभिव्यक्ति की बारीकियों को सुरक्षित रखना
- SeamlessExpressive का लक्ष्य ऐसा translation है जो मानवीय अभिव्यक्ति की बारीकियों को पकड़ सके
- मौजूदा translation tools बातचीत की सामग्री को पकड़ने में सक्षम हैं, लेकिन आम तौर पर एकरस और रोबोट जैसी आवाज़ में आउटपुट देते हैं
- SeamlessExpressive speech style और emotional coloring के साथ-साथ बोलने की गति और pauses जैसी भाषाई बारीकियों को भी सुरक्षित रखना चाहता है
लगभग real-time translation
- SeamlessStreaming लगभग 2 सेकंड की latency के साथ translation देने वाला पहला large-scale multilingual model है
- यह SeamlessM4T v2 पर आधारित है और automatic speech recognition तथा लगभग 100 input और output भाषाओं के लिए speech-to-text translation को सपोर्ट करता है
- यह लगभग 100 input भाषाओं और 36 output भाषाओं के लिए speech-to-speech translation को भी सपोर्ट करता है
universal translation के लिए foundation model
- अगस्त 2023 में Meta ने SeamlessM4T का पहला संस्करण पेश किया था, जो speech और text दोनों में translation और transcription के लिए state-of-the-art परिणाम देता है
- इसी पर आधारित बेहतर मॉडल SeamlessM4T v2, नए SeamlessExpressive और SeamlessStreaming मॉडलों की foundation बनता है
- इसमें नई architecture और non-autoregressive text-unit decoder की विशेषता है, जो text और speech output के बीच consistency को बेहतर बनाती है
रिसर्च दृष्टिकोण
- Meta सहयोग और open research की ताकत में विश्वास करता है, इसलिए शोधकर्ताओं को इस काम पर आगे बढ़ने में मदद देने के लिए पूरे Seamless Communication मॉडल परिवार को सार्वजनिक कर रहा है
- सुरक्षित और जिम्मेदार AI ecosystem को बढ़ावा देने के लिए translation में hallucination toxicity के प्रभाव को काफी कम किया गया है, और expressive model के audio output के लिए एक customized watermarking approach लागू की गई है
GN⁺ की राय
इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Meta ने भाषा की बाधाओं को तोड़ने के लिए विकसित किए गए Seamless Communication AI मॉडलों का परिचय दिया है। ये मॉडल अभिव्यक्ति की बारीकियों को बनाए रखते हुए लगभग real-time translation प्रदान करते हैं और कई भाषाओं को सपोर्ट करने वाली शक्तिशाली क्षमताएँ रखते हैं। यह तकनीकी प्रगति दुनिया भर के लोगों के लिए अधिक स्वाभाविक और प्रामाणिक तरीके से संवाद करने का रास्ता खोल रही है, इसलिए यह कई लोगों के लिए दिलचस्प और आकर्षक खबर हो सकती है।
1 टिप्पणियां
Hacker News राय
भविष्य की आशाजनक तकनीक के लिए उम्मीद
तकनीक का उपयोग करने वाले भाषा-शिक्षण टूल के लिए उम्मीद
रियल-टाइम स्ट्रीमिंग तकनीक की संभावनाएँ
अनुवाद की शुद्धता को लेकर चिंता
AI द्वारा उद्योग में बदलाव की समझ
text-to-speech तकनीक की प्रगति और आगे की उम्मीद
कुछ खास भाषाओं के लिए समर्थन की कमी पर असंतोष
भाषा डेटा की कमी पर सवाल
अनुवादक की त्रुटियों के लिए इस्तेमाल की गई अभिव्यक्ति
AI अनुवाद तकनीक की प्रगति पर प्रशंसा