PDF शोधपत्र RAG: क्या सिर्फ़ टेक्स्ट काफ़ी है? - Gemini embedding 002 एम्बेडिंग सर्च प्रयोग

(brunch.co.kr/@230kimi)

5 पॉइंट द्वारा 230kimi 2026-03-31 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Gemini embedding-2-preview (नेटिव मल्टीमोडल एम्बेडिंग) के साथ अकादमिक शोधपत्र PDF के टेक्स्ट एम्बेडिंग और इमेज एम्बेडिंग की तुलना करने वाले प्रयोग के परिणामों का सारांश।

∙	एक ही पेज के टेक्स्ट↔इमेज cosine similarity का औसत 0.642 रहा। SEM फोटो, ग्राफ कर्व, spatial layout जैसी लगभग 36% visual information टेक्स्ट एम्बेडिंग में परिलक्षित नहीं हुई  
∙	18 टेक्स्ट queries से सर्च करने पर, इमेज इंडेक्स (MRR 0.719) ने टेक्स्ट इंडेक्स (0.631) से बेहतर प्रदर्शन किया। जिन शोधपत्रों में मुख्य शब्द कई पेजों पर दोहराए जाते हैं, उनमें उलटे इमेज की पेज-भेद क्षमता अधिक रही  
∙	टेक्स्ट+इमेज को मिलाकर बना Multi एम्बेडिंग (MRR 0.650), सिर्फ़ इमेज से भी कम रहा। यानी दोनों modalities की विशेषताएँ dilute हो गईं  
∙	उसी दस्तावेज़ के भीतर cross-modal सर्च (टेक्स्ट→इमेज) Hit@5 0% के साथ विफल रहा। क्योंकि पेजों के बीच टेक्स्ट समानता, उसी पेज के टेक्स्ट↔इमेज समानता से अधिक थी

जिन दस्तावेज़ों में Figure ज़्यादा होते हैं, उनमें इमेज इंडेक्सिंग अधिक लाभकारी है, और “पहले टेक्स्ट निकालो, फिर vectorize करो” वाले RAG डिफ़ॉल्ट पर दोबारा विचार करने की ज़रूरत है — यही निष्कर्ष निकला।

2 टिप्पणियां

mammal 2026-03-31

ColPali से तुलना करें तो यह कैसा है?

230kimi 2026-03-31

अंग्रेज़ी में colpali निश्चित रूप से ज़्यादा बेहतर लगता है। लेकिन Korean या दूसरी गैर-अंग्रेज़ी भाषाओं में इसकी accuracy काफ़ी गिर जाती है, हाय।

PDF शोधपत्र RAG: क्या सिर्फ़ टेक्स्ट काफ़ी है? - Gemini embedding 002 एम्बेडिंग सर्च प्रयोग

संबंधित पढ़ाई

2 टिप्पणियां