• टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक ही embedding space में मैप करने वाला पहला पूर्ण मल्टीमॉडल एम्बेडिंग मॉडल public preview में जारी किया गया
  • Gemini आर्किटेक्चर पर आधारित, यह 100 से अधिक भाषाओं में semantic intent को कैप्चर करता है और RAG, semantic search, sentiment analysis, data clustering जैसी विभिन्न downstream tasks को सपोर्ट करता है
  • Matryoshka Representation Learning (MRL) तकनीक लागू की गई है, जिससे डिफ़ॉल्ट 3072 dimensions से लचीले ढंग से आकार घटाया जा सकता है और performance व storage cost के बीच संतुलन बनाया जा सकता है
  • टेक्स्ट, इमेज और वीडियो कार्यों में मौजूदा अग्रणी मॉडलों को पार करते हुए performance का नया benchmark स्थापित किया गया है, और speech embedding क्षमताएँ भी नई जोड़ी गई हैं
  • Gemini API और Vertex AI के ज़रिए तुरंत उपयोग किया जा सकता है, और LangChain, LlamaIndex, Weaviate जैसे प्रमुख third-party frameworks के साथ integration को सपोर्ट करता है

नई modalities और लचीले output dimensions

  • Gemini-आधारित multimodal understanding capabilities का उपयोग करके विभिन्न input types के लिए उच्च-गुणवत्ता वाले embeddings बनाए जाते हैं
    • टेक्स्ट: अधिकतम 8192 input tokens के व्यापक context को सपोर्ट
    • इमेज: प्रति request अधिकतम 6 इमेज प्रोसेस कर सकता है, PNG और JPEG format सपोर्ट
    • वीडियो: MP4, MOV format में अधिकतम 120 सेकंड के वीडियो input का सपोर्ट
    • ऑडियो: बीच में टेक्स्ट में बदले बिना ऑडियो डेटा को नेटिव रूप से embed करता है
    • दस्तावेज़: अधिकतम 6 पेज के PDF को सीधे embed करता है
  • केवल single modality ही नहीं, बल्कि interleaved input (जैसे: इमेज + टेक्स्ट) को भी एक ही request में भेजा जा सकता है, जिससे अलग-अलग media types के बीच जटिल और सूक्ष्म संबंधों को भी कैप्चर किया जा सकता है
  • Matryoshka Representation Learning (MRL) तकनीक के ज़रिए जानकारी को पदानुक्रमित रूप से nest करके dimensions को dynamic तरीके से कम किया जा सकता है
    • डिफ़ॉल्ट 3072 dimensions से 1536, 768 आदि तक लचीले ढंग से scale down
    • सर्वोत्तम गुणवत्ता के लिए 3072, 1536, 768 dimensions के उपयोग की सिफारिश

अत्याधुनिक performance

  • legacy मॉडलों की तुलना में केवल साधारण सुधार नहीं, बल्कि multimodal depth में performance का नया standard स्थापित
  • टेक्स्ट, इमेज और वीडियो कार्यों में मौजूदा अग्रणी मॉडलों को पार करते हुए, मज़बूत speech embedding capabilities भी नई जोड़ी गई हैं
  • विभिन्न embedding आवश्यकताओं के लिए मापने योग्य performance सुधार और विशिष्ट multimodal coverage प्रदान करता है

डेटा से गहरे अर्थ निकालना — early access partners के उदाहरण

  • embedding तकनीक कई Google products में अनुभव को संचालित करने वाली मुख्य तकनीक है, और RAG की context engineering से लेकर बड़े पैमाने के data management, search और analysis तक उपयोग होती है
  • Everlaw (Max Christoff, CTO): मुक़दमेबाज़ी discovery प्रक्रिया में कानूनी विशेषज्ञों को मुख्य जानकारी खोजने में मदद के लिए Gemini embeddings अपनाए; लाखों रिकॉर्ड्स में precision और recall में सुधार हुआ, और इमेज व वीडियो के लिए शक्तिशाली नई search capabilities का उपयोग किया गया
  • Sparkonomy (Guneet Singh, सह-संस्थापक): Creator Economic Equality Engine की नींव के रूप में उपयोग; native multimodality के कारण latency में 70% तक कमी, टेक्स्ट-इमेज और टेक्स्ट-वीडियो जोड़ों के semantic similarity score 0.4 से 0.8 तक, यानी लगभग दोगुना सुधार, और लाखों मिनट के वीडियो को अभूतपूर्व precision के साथ index किया गया
  • Mindlid (Ertuğrul Çavuşoğlu, सह-संस्थापक): मौजूदा workflow में न्यूनतम बदलाव के साथ तुरंत लागू की जा सकने वाली उत्कृष्ट API continuity, और टेक्स्ट-आधारित conversational memory को ऑडियो व visual embeddings के साथ embed करने का परीक्षण; personal wellness app में top-1 recall में 20% सुधार की पुष्टि

शुरुआत करें

  • Gemini API या Vertex AI के माध्यम से Gemini Embedding 2 मॉडल उपलब्ध
  • Python SDK के साथ टेक्स्ट, इमेज और ऑडियो को एक ही कॉल में embed करने वाले code examples उपलब्ध
  • Gemini API और Vertex AI के लिए interactive Colab notebooks उपलब्ध
  • LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search जैसे प्रमुख third-party tools के साथ integration सपोर्ट

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.