PDF शोधपत्र RAG: क्या सिर्फ़ टेक्स्ट काफ़ी है? - Gemini embedding 002 एम्बेडिंग सर्च प्रयोग
(brunch.co.kr/@230kimi)Gemini embedding-2-preview (नेटिव मल्टीमोडल एम्बेडिंग) के साथ अकादमिक शोधपत्र PDF के टेक्स्ट एम्बेडिंग और इमेज एम्बेडिंग की तुलना करने वाले प्रयोग के परिणामों का सारांश।
∙ एक ही पेज के टेक्स्ट↔इमेज cosine similarity का औसत 0.642 रहा। SEM फोटो, ग्राफ कर्व, spatial layout जैसी लगभग 36% visual information टेक्स्ट एम्बेडिंग में परिलक्षित नहीं हुई
∙ 18 टेक्स्ट queries से सर्च करने पर, इमेज इंडेक्स (MRR 0.719) ने टेक्स्ट इंडेक्स (0.631) से बेहतर प्रदर्शन किया। जिन शोधपत्रों में मुख्य शब्द कई पेजों पर दोहराए जाते हैं, उनमें उलटे इमेज की पेज-भेद क्षमता अधिक रही
∙ टेक्स्ट+इमेज को मिलाकर बना Multi एम्बेडिंग (MRR 0.650), सिर्फ़ इमेज से भी कम रहा। यानी दोनों modalities की विशेषताएँ dilute हो गईं
∙ उसी दस्तावेज़ के भीतर cross-modal सर्च (टेक्स्ट→इमेज) Hit@5 0% के साथ विफल रहा। क्योंकि पेजों के बीच टेक्स्ट समानता, उसी पेज के टेक्स्ट↔इमेज समानता से अधिक थी
जिन दस्तावेज़ों में Figure ज़्यादा होते हैं, उनमें इमेज इंडेक्सिंग अधिक लाभकारी है, और “पहले टेक्स्ट निकालो, फिर vectorize करो” वाले RAG डिफ़ॉल्ट पर दोबारा विचार करने की ज़रूरत है — यही निष्कर्ष निकला।
अभी कोई टिप्पणी नहीं है.