Ferret मॉडल का अवलोकन

  • Ferret मॉडल hybrid region representation और spatial-aware visual sampler के जरिए सूक्ष्म और खुले vocabulary के साथ reference तथा सटीक localization को संभव बनाता है।
  • GRIT dataset (~1.1M) एक बड़े पैमाने का, hierarchical और robust instruction-tuning dataset है।
  • Ferret-Bench एक multimodal evaluation benchmark है, जो reference/localization, semantics, knowledge और reasoning को एक साथ मांगता है।

Ferret मॉडल रिलीज़

  • [12/14] 7B, 13B checkpoint रिलीज़ किए गए।
  • [10/30] FERRET मॉडल और Ferret-Bench code रिलीज़ किया गया।
  • डेटा और code केवल research purpose के लिए उपयोग किए जा सकते हैं, और LLaMA, Vicuna, GPT-4 के license agreements का पालन करते हैं।
  • Dataset CC BY NC 4.0 के अंतर्गत है (केवल non-commercial use की अनुमति), और इस dataset से trained models को research purpose के अलावा इस्तेमाल नहीं किया जा सकता।

इंस्टॉलेशन और उपयोग

  • FERRET repository को clone करें, संबंधित folder में जाएँ, और आवश्यक packages इंस्टॉल करें।
  • अतिरिक्त package इंस्टॉलेशन कुछ विशेष training cases के लिए आवश्यक है।

ट्रेनिंग

  • FERRET को 8 A100 GPU (प्रत्येक में 80GB memory) पर train किया गया।
  • कम GPU पर training करते समय per_device_train_batch_size को कम करना और gradient_accumulation_steps को बढ़ाना चाहिए।
  • Vicuna checkpoint और LLaVA के projector को तैयार करना आवश्यक है।
  • Training script उपलब्ध है।

मूल्यांकन

  • विस्तृत जानकारी के लिए documentation देखें।

चेकपॉइंट

  • pre-trained model और Vicuna के बीच delta निकाला जाता है।
  • Vicuna weights डाउनलोड करने के बाद, तैयार weight offsets डाउनलोड करें और उन्हें apply करें।

डेमो

  • FERRET training के बाद, checkpoint का उपयोग करके local environment में demo चलाएँ।
  • Gradio web UI का उपयोग करें।
  • controller, Gradio web server, और model worker को क्रम से चलाएँ।

उद्धरण

  • यदि Ferret आपके लिए उपयोगी हो, तो नीचे दिए गए BibTeX से इसे cite करें।

आभार

  • LLaVA: आधार codebase.
  • Vicuna: LLM codebase.

GN⁺ की राय

  • नवोन्मेषी तकनीक: Ferret मॉडल ऐसी नवाचारी तकनीक प्रस्तुत करता है जो विविध vocabulary का उपयोग करते हुए सूक्ष्म reference और localization को संभव बनाती है।
  • शोध का महत्व: यह मॉडल और dataset AI क्षेत्र में reference और localization कार्यों पर शोध को आगे बढ़ाने के लिए महत्वपूर्ण संसाधन हैं।
  • विविध अनुप्रयोग संभावनाएँ: यह तकनीक image और text को मिलाने वाले विभिन्न applications में उपयोग की जा सकती है, जिससे AI की visual understanding और interaction को एक स्तर ऊपर ले जाया जा सकता है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.