• PaliGemma एक मल्टीमॉडल मॉडल है, जो object detection और segmentation जैसे कार्यों में अन्य VLMs (Vision Language Models) से अलग बेहतर प्रदर्शन दिखाता है
  • खास कार्यों के लिए प्रदर्शन बेहतर करने हेतु इसे fine-tune किया जा सकता है
  • 2024 Google I/O इवेंट में घोषित किया गया। यह SigLIP नामक vision model और Gemma नामक large language model का संयोजन है।
  • यह transformer decoder और vision transformer image encoder से बना है, तथा image और text दोनों को input के रूप में लेकर text output देता है और कई भाषाओं को support करता है
  • मॉडल में कुल 3 billion संयुक्त parameters हैं, इसलिए इसका आकार अपेक्षाकृत छोटा है, commercial use की अनुमति है, और image/short video captioning, visual question answering, text reading, object detection, object segmentation जैसे कार्यों के लिए fine-tune किया जा सकता है
  • यह single-turn VLM है, जो किसी विशेष use case के लिए fine-tune किए जाने पर सबसे अच्छा काम करता है
    • image captioning, video captioning, visual question answering, segmentation जैसे कार्यों के लिए उपयुक्त है
    • OCR, document understanding, visual question answering (VQA), object detection सहित विभिन्न computer vision कार्यों में उत्कृष्ट प्रदर्शन दिखाता है
  • यह ऐसे custom applications बनाने में उपयोगी है जिन्हें closed models से हल करना कठिन होता है, और OCR क्षेत्र में प्रदर्शन व cost efficiency दोनों के लिहाज से शीर्ष स्तर का है
  • हालांकि VLMs की सीमाओं के कारण यह open-ended, जटिल और सूक्ष्म reasoning-आधारित समस्याओं के लिए उपयुक्त नहीं है, और prompts के प्रति संवेदनशील होने के कारण उपयोग में सावधानी की आवश्यकता है
  • PaliGemma के सार्वजनिक होने से multimodal AI में बड़ी प्रगति की उम्मीद है। यह एक हल्का open model है, जिससे कोई भी अपना खुद का large vision language model अनुकूलित रूप से train कर सकता है और commercial उद्देश्य से deploy कर सकता है
  • पहले के LMMs बहुत महंगे थे और उन्हें बहुत अधिक compute power की जरूरत होती थी, लेकिन PaliGemma इन सीमाओं को पार कर custom AI applications बनाने के लिए एक क्रांतिकारी मॉडल है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.