- Apple द्वारा CVPR 2025 में प्रस्तुत "FastVLM: Efficient Vision Encoding for Vision Language Models" का आधिकारिक Repo
- FastViTHD टोकन की संख्या घटाने और high-resolution इमेज की encoding time कम करने की क्षमता दिखाता है
- सबसे छोटा मॉडल LLaVA-OneVision-0.5B की तुलना में 85 गुना तेज़ परिणाम और 3.4 गुना छोटा encoder size हासिल करता है
- बड़ा मॉडल Cambrian-1-8B की तुलना में बेहतर प्रदर्शन और 7.9 गुना तेज़ गति दिखाता है
- iPhone जैसे मोबाइल डिवाइस पर चलने वाला demo app उपलब्ध है
FastVLM प्रोजेक्ट का महत्व और फायदे
- FastVLM, Vision Language Model (VLM) के लिए आधिकारिक implementation open source है
- यह मौजूदा vision encoders की तुलना में speed और efficiency के मामले में बेहतरीन लाभ देता है
- कई तरह के हार्डवेयर, खासकर Apple Silicon और मोबाइल environments में इसका उपयोगीपन अधिक है
- अलग-अलग आकार और प्रदर्शन वाले pretrained models को सीधे चुनकर इस्तेमाल किया जा सकता है
- अन्य प्रोजेक्ट्स की तुलना में छोटे model size के साथ optimized real-time response और कम hardware resources सुनिश्चित करता है
मुख्य विशेषताएँ
- FastViTHD hybrid संरचना वाला एक नवोन्मेषी vision encoder है, जो output tokens की संख्या घटाकर high-resolution इमेज encoding time को काफी कम करता है
- सबसे छोटा FastVLM-0.5B मॉडल LLaVA-OneVision-0.5B की तुलना में 85 गुना तेज़ TTFT (पहला token बनने का समय) और 3.4 गुना छोटा encoder size रखता है
- Qwen2-7B LLM के साथ जुड़ा बड़ा FastVLM-7B मॉडल Cambrian-1-8B जैसे हालिया SOTA की तुलना में 7.9 गुना तेज़ TTFT के साथ single image encoder पर बेहतर प्रदर्शन दिखाता है
- वास्तविक मोबाइल environment (iOS) में चलने वाला demo app भी साथ में दिया गया है, जिससे तकनीक की उपयोगिता को तुरंत परखा जा सकता है
मॉडल जानकारी (Model Zoo)
- अलग-अलग आकार के FastVLM models (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) 2-stage और 3-stage versions में उपलब्ध हैं
- हर मॉडल के लिए PyTorch checkpoint फ़ाइलें आधिकारिक रूप से उपलब्ध कराई गई हैं
- उपयोगकर्ता आधिकारिक commands का उपयोग करके कई models को
checkpoints directory में एक साथ download कर सकते हैं
उपयोग के उदाहरण (Usage Example)
- पहले से प्रशिक्षित PyTorch checkpoints के साथ predict.py script द्वारा आसानी और तेज़ी से inference test किया जा सकता है
- उदाहरण command के जरिए इमेज input देकर और prompt (प्रश्न) डालकर, उस इमेज का वर्णन या प्रश्न का उत्तर प्राप्त किया जा सकता है
Apple Silicon और मोबाइल डिवाइस support
- Apple Silicon पर inference के लिए अलग model export और quantization process समझाने वाली guide उपलब्ध है
- Apple Silicon के लिए सीधे optimized checkpoint files आधिकारिक रूप से वितरित की जाती हैं
- iPhone, iPad, Mac आदि पर सीधे उपयोग किए जा सकने वाले app development guide और source code
/app folder में दिए गए हैं
अतिरिक्त जानकारी और open source मार्गदर्शन
- FastVLM paper का आधिकारिक arXiv लिंक और CVPR 2025 conference paper citation format उपलब्ध है
- codebase कई open source projects पर आधारित है, और contribution history व license information अलग से दी गई है
- model और code का उपयोग करने से पहले license (license file और model license) ज़रूर जाँचें
1 टिप्पणियां
Hacker News राय