PaliGemma 2 पेश किया गया
(developers.googleblog.com)Google ने Gemma परिवार के नवीनतम vision-language model, PaliGemma 2, की घोषणा की है। PaliGemma 2 मौजूदा Gemma 2 model पर आधारित है और इसमें इमेज को समझने तथा उनके साथ इंटरैक्ट करने की क्षमता जोड़ी गई है, जिससे विभिन्न AI applications की संभावनाएँ बढ़ती हैं.
- स्केलेबल प्रदर्शन: यह विभिन्न model sizes (3B, 10B, 28B parameters) और resolutions (224px, 448px, 896px) प्रदान करता है, जिससे अलग-अलग कार्यों के लिए अनुकूलित प्रदर्शन मिलता है।
- लंबे caption generation: यह इमेज के लिए विस्तृत और संदर्भानुकूल captions बनाता है, जो केवल objects की पहचान से आगे बढ़कर actions, emotions और पूरे scene की कहानी का वर्णन करते हैं।
- नए क्षेत्रों में विस्तार: यह chemical formula recognition, sheet music recognition, spatial reasoning, और chest X-ray report generation जैसे कई क्षेत्रों में उत्कृष्ट प्रदर्शन दिखाता है।
- आसान upgrade और fine-tuning: मौजूदा PaliGemma users आसानी से upgrade कर सकते हैं, और model को खास tasks तथा datasets के अनुसार सरलता से fine-tune कर सकते हैं।
Gemmaverse ecosystem का विस्तार:
PaliGemma के लॉन्च के बाद Gemma परिवार तेज़ी से बढ़कर Gemmaverse बन गया है, जो हज़ारों models और applications वाला एक सक्रिय ecosystem है। ColPali में visual document retrieval की प्रगति, RoboFlow की fine-tuning तकनीक, और real-time object tracking में प्रगति जैसे कई नवाचार Gemmaverse की क्षमता दिखाते हैं।
अभी कोई टिप्पणी नहीं है.