voyage-multimodal-3 : टेक्स्ट, इमेज और स्क्रीनशॉट के लिए ऑल-इन-वन embedding मॉडल
(blog.voyageai.com)-
voyage-multimodal-3 एक अत्याधुनिक मॉडल है जो टेक्स्ट और इमेज के मिश्रण वाले दस्तावेज़ों में visual और textual विशेषताओं को vectorize कर सकता है
- यह PDF, स्लाइड, टेबल और चित्र आदि के स्क्रीनशॉट से प्रमुख visual विशेषताओं को पकड़कर जटिल document parsing की आवश्यकता को समाप्त करता है
- 20 datasets का उपयोग किए गए 3 multimodal search कार्यों में इसने औसतन 19.63% search accuracy सुधार दिखाया
-
मौजूदा मॉडलों के साथ तुलना
- voyage-multimodal-3 ने table/figure search में OpenAI CLIP large और Cohere multimodal v3 की तुलना में क्रमशः 41.44% और 43.37% बेहतर प्रदर्शन दिखाया
- document screenshot search में क्रमशः 26.54% और 25.84% बेहतर प्रदर्शन दिखाया
- text-photo search में क्रमशः 6.55% और 5.86% बेहतर प्रदर्शन दिखाया
-
टेक्स्ट और इमेज के मिश्रण का समर्थन
- मौजूदा multimodal embedding models टेक्स्ट और इमेज को अलग-अलग networks में प्रोसेस करते हैं, लेकिन voyage-multimodal-3 उसी transformer encoder के माध्यम से दोनों modes को सीधे vectorize करता है
- इससे visual और textual जानकारी के बीच contextual संबंध सुरक्षित रहते हैं, जिससे मिश्रित टेक्स्ट और इमेज, document screenshots और जटिल layout वाले PDF आदि को vectorize करना संभव होता है
-
स्क्रीनशॉट के माध्यम से mixed-mode search
- CLIP जैसे models में modes के बीच gap के कारण mixed-mode search में प्रदर्शन घट जाता है
- voyage-multimodal-3 सभी screenshot ratios पर सबसे बेहतर प्रदर्शन दिखाता है और स्क्रीनशॉट की semantic सामग्री को वास्तव में पकड़ता है
-
मूल्यांकन विवरण
- voyage-multimodal-3 का मूल्यांकन 20 multimodal datasets और 34 text search datasets पर किया गया
- प्रत्येक कार्य के लिए पिछले सर्वोत्तम प्रदर्शन वाले मॉडल को आधार बनाकर मूल्यांकन किया गया
-
परिणाम
- multimodal search में voyage-multimodal-3 ने OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, ColQwen2 v0.1 से बेहतर प्रदर्शन दिखाया
- standard text search में इसने OpenAI v3 large और Cohere multimodal/English1 v3 की तुलना में क्रमशः 5.13% और 13.70% बेहतर प्रदर्शन दिखाया
-
उपयोग मार्गदर्शिका
- voyage-multimodal-3 अभी उपलब्ध है, और शुरुआती 20 करोड़ tokens मुफ़्त दिए जाते हैं
- sample notebook से शुरुआत की जा सकती है या अधिक जानकारी के लिए दस्तावेज़ देखे जा सकते हैं
1 टिप्पणियां
Hacker News राय