4 पॉइंट द्वारा GN⁺ 2024-11-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • voyage-multimodal-3 एक अत्याधुनिक मॉडल है जो टेक्स्ट और इमेज के मिश्रण वाले दस्तावेज़ों में visual और textual विशेषताओं को vectorize कर सकता है

    • यह PDF, स्लाइड, टेबल और चित्र आदि के स्क्रीनशॉट से प्रमुख visual विशेषताओं को पकड़कर जटिल document parsing की आवश्यकता को समाप्त करता है
    • 20 datasets का उपयोग किए गए 3 multimodal search कार्यों में इसने औसतन 19.63% search accuracy सुधार दिखाया
  • मौजूदा मॉडलों के साथ तुलना

    • voyage-multimodal-3 ने table/figure search में OpenAI CLIP large और Cohere multimodal v3 की तुलना में क्रमशः 41.44% और 43.37% बेहतर प्रदर्शन दिखाया
    • document screenshot search में क्रमशः 26.54% और 25.84% बेहतर प्रदर्शन दिखाया
    • text-photo search में क्रमशः 6.55% और 5.86% बेहतर प्रदर्शन दिखाया
  • टेक्स्ट और इमेज के मिश्रण का समर्थन

    • मौजूदा multimodal embedding models टेक्स्ट और इमेज को अलग-अलग networks में प्रोसेस करते हैं, लेकिन voyage-multimodal-3 उसी transformer encoder के माध्यम से दोनों modes को सीधे vectorize करता है
    • इससे visual और textual जानकारी के बीच contextual संबंध सुरक्षित रहते हैं, जिससे मिश्रित टेक्स्ट और इमेज, document screenshots और जटिल layout वाले PDF आदि को vectorize करना संभव होता है
  • स्क्रीनशॉट के माध्यम से mixed-mode search

    • CLIP जैसे models में modes के बीच gap के कारण mixed-mode search में प्रदर्शन घट जाता है
    • voyage-multimodal-3 सभी screenshot ratios पर सबसे बेहतर प्रदर्शन दिखाता है और स्क्रीनशॉट की semantic सामग्री को वास्तव में पकड़ता है
  • मूल्यांकन विवरण

    • voyage-multimodal-3 का मूल्यांकन 20 multimodal datasets और 34 text search datasets पर किया गया
    • प्रत्येक कार्य के लिए पिछले सर्वोत्तम प्रदर्शन वाले मॉडल को आधार बनाकर मूल्यांकन किया गया
  • परिणाम

    • multimodal search में voyage-multimodal-3 ने OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M, ColQwen2 v0.1 से बेहतर प्रदर्शन दिखाया
    • standard text search में इसने OpenAI v3 large और Cohere multimodal/English1 v3 की तुलना में क्रमशः 5.13% और 13.70% बेहतर प्रदर्शन दिखाया
  • उपयोग मार्गदर्शिका

    • voyage-multimodal-3 अभी उपलब्ध है, और शुरुआती 20 करोड़ tokens मुफ़्त दिए जाते हैं
    • sample notebook से शुरुआत की जा सकती है या अधिक जानकारी के लिए दस्तावेज़ देखे जा सकते हैं

1 टिप्पणियां

 
GN⁺ 2024-11-18
Hacker News राय
  • CLIP मॉडल में mixed modality search के दौरान performance गिरने की समस्या दिखती है। यह modality gap की वजह से होता है, जिससे text vectors असंबंधित text के और करीब दिखाई देने लगते हैं
    • Google का Gemini शुरू से ही multimodal के रूप में डिज़ाइन किया गया है, इसलिए यह ऐसी समस्याओं को बेहतर करता है। इसे विभिन्न modalities पर pre-train किया गया है, जिससे यह सभी inputs को प्रभावी ढंग से समझ और reason कर सकता है
  • ColiVara प्रोजेक्ट ने ColPali का उपयोग करके multimodal मॉडल लागू किया है। Vidore leaderboard पर VoyageAI की performance की तुलना देखना चाहेंगे
  • यह खेदजनक है कि commercial models केवल API के रूप में उपलब्ध हैं
  • केवल API वाले models पर आलोचनात्मक नज़र रखने की ज़रूरत है। खासकर non-English text के लिए evaluation की आवश्यकता है
  • real-world datasets का उपयोग करके qualitative analysis करना महत्वपूर्ण है। quantitative benchmarks उपयोगी हैं, लेकिन उनका वास्तविक उपयोग कम ही होता है
  • multimodal embeddings को देखने का यह एक दिलचस्प तरीका है। performance का आकलन इस अनुपात से किया जाता है कि input एक modality से दूसरी modality में कितनी बार बदलता है
  • Voyage engine पारंपरिक Python API में text blocks को tokenize करके character strings आउटपुट करता है। यह मॉडल image vectorization के ज़रिए यह काम करता है
    • 'you' और 'apple' जैसे शब्द single token के रूप में प्रोसेस होते हैं, जबकि 'pikachu' जैसे जटिल terms को 'pik-a-chu' में विभाजित किया जा सकता है
  • Colab में dot product values 0.428 और 0.498 को "similarity value काफ़ी ऊँची है" कहकर समझाया गया है। इस पर सवाल है कि क्या 0.4 threshold के साथ डेटा को भरोसेमंद तरीके से label करने वाला सिस्टम डिज़ाइन किया जा सकता है