Apple का FastVLM - Vision Language Models के लिए कुशल vision encoding

(github.com/apple)

15 पॉइंट द्वारा GN⁺ 2025-05-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Apple द्वारा CVPR 2025 में प्रस्तुत "FastVLM: Efficient Vision Encoding for Vision Language Models" का आधिकारिक Repo
FastViTHD टोकन की संख्या घटाने और high-resolution इमेज की encoding time कम करने की क्षमता दिखाता है
सबसे छोटा मॉडल LLaVA-OneVision-0.5B की तुलना में 85 गुना तेज़ परिणाम और 3.4 गुना छोटा encoder size हासिल करता है
बड़ा मॉडल Cambrian-1-8B की तुलना में बेहतर प्रदर्शन और 7.9 गुना तेज़ गति दिखाता है
iPhone जैसे मोबाइल डिवाइस पर चलने वाला demo app उपलब्ध है

FastVLM प्रोजेक्ट का महत्व और फायदे

FastVLM, Vision Language Model (VLM) के लिए आधिकारिक implementation open source है
यह मौजूदा vision encoders की तुलना में speed और efficiency के मामले में बेहतरीन लाभ देता है
कई तरह के हार्डवेयर, खासकर Apple Silicon और मोबाइल environments में इसका उपयोगीपन अधिक है
अलग-अलग आकार और प्रदर्शन वाले pretrained models को सीधे चुनकर इस्तेमाल किया जा सकता है
अन्य प्रोजेक्ट्स की तुलना में छोटे model size के साथ optimized real-time response और कम hardware resources सुनिश्चित करता है

मुख्य विशेषताएँ

FastViTHD hybrid संरचना वाला एक नवोन्मेषी vision encoder है, जो output tokens की संख्या घटाकर high-resolution इमेज encoding time को काफी कम करता है
सबसे छोटा FastVLM-0.5B मॉडल LLaVA-OneVision-0.5B की तुलना में 85 गुना तेज़ TTFT (पहला token बनने का समय) और 3.4 गुना छोटा encoder size रखता है
Qwen2-7B LLM के साथ जुड़ा बड़ा FastVLM-7B मॉडल Cambrian-1-8B जैसे हालिया SOTA की तुलना में 7.9 गुना तेज़ TTFT के साथ single image encoder पर बेहतर प्रदर्शन दिखाता है
वास्तविक मोबाइल environment (iOS) में चलने वाला demo app भी साथ में दिया गया है, जिससे तकनीक की उपयोगिता को तुरंत परखा जा सकता है

मॉडल जानकारी (Model Zoo)

अलग-अलग आकार के FastVLM models (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) 2-stage और 3-stage versions में उपलब्ध हैं
हर मॉडल के लिए PyTorch checkpoint फ़ाइलें आधिकारिक रूप से उपलब्ध कराई गई हैं
उपयोगकर्ता आधिकारिक commands का उपयोग करके कई models को checkpoints directory में एक साथ download कर सकते हैं

उपयोग के उदाहरण (Usage Example)

पहले से प्रशिक्षित PyTorch checkpoints के साथ predict.py script द्वारा आसानी और तेज़ी से inference test किया जा सकता है
उदाहरण command के जरिए इमेज input देकर और prompt (प्रश्न) डालकर, उस इमेज का वर्णन या प्रश्न का उत्तर प्राप्त किया जा सकता है

Apple Silicon और मोबाइल डिवाइस support

Apple Silicon पर inference के लिए अलग model export और quantization process समझाने वाली guide उपलब्ध है
Apple Silicon के लिए सीधे optimized checkpoint files आधिकारिक रूप से वितरित की जाती हैं
iPhone, iPad, Mac आदि पर सीधे उपयोग किए जा सकने वाले app development guide और source code /app folder में दिए गए हैं

अतिरिक्त जानकारी और open source मार्गदर्शन

FastVLM paper का आधिकारिक arXiv लिंक और CVPR 2025 conference paper citation format उपलब्ध है
codebase कई open source projects पर आधारित है, और contribution history व license information अलग से दी गई है
model और code का उपयोग करने से पहले license (license file और model license) ज़रूर जाँचें

1 टिप्पणियां

GN⁺ 2025-05-14

Hacker News राय

2GB आकार वाले 0.5B टॉप-एंड मॉडल के लिए हर app से इसे अलग-अलग डाउनलोड करवाना समझदारी नहीं लगती। लगता है Apple शायद OS स्तर पर इन मॉडलों को पहले से उपलब्ध कराएगा, और सभी apps को इन्हें लोकल तौर पर कॉल करने के लिए SDK देगा। वाकई काफ़ी रोमांचक समय है। मैंने इस बारे में पुष्टि करने के लिए एक issue भी खोला है
- अगर public weights पर आधारित OS-मानकीकृत foundation model हो, तो उसमें बहुत बड़ी संभावनाएँ हैं। अगर API app developers को runtime पर OS standard model में customized LoRa fine-tuning लोड करने दे, तो आदर्श रूप से app-विशेष मॉडल के फ़ायदे और foundation model के फ़ायदे दोनों मिल सकते हैं, जबकि लोकप्रिय app size भी बना रह सकता है
- f16 या यहाँ तक कि int8 quantization से मॉडल का आकार और छोटा किया जा सकता है, लेकिन तुमने जो कहा वही असली बात है। यूज़र के नज़रिए से भी किसी एक app के लिए 500MB फ़ाइल डाउनलोड करना अच्छा अनुभव नहीं है
- याद है कि पिछले साल WWDC में LLMs को लेकर भी कुछ ऐसा ही कहा गया था। बात यह थी कि OS base model देगा, और हर app उस मॉडल को LORAs से fine-tune कर सकेगा या custom heads जोड़ सकेगा
- मेरा अंदाज़ा है कि जब तक कोई बड़ा presentation न हो, इसका सार्वजनिक ज़िक्र नहीं किया जाएगा। शायद WWDC जैसे इवेंट पर ही इसकी पुष्टि मिले
मुझे लगता है कि time-to-first-token को काफ़ी तेज़ बनाना उन apps के लिए ज़रूरी है जो on-device continuous vision आधारित assistant की तरह स्क्रीन देखकर तुरंत action लेते हैं। repo में actual app को चलते हुए देखना काफ़ी प्रभावशाली था, और मैं आज रात इसे खुद build करके इस्तेमाल करने को लेकर उत्साहित हूँ
काश वे AI/ML community में और सक्रिय योगदान दें और HuggingFace पर weights और model architecture भी डालें। मज़ेदार बात यह है कि आज मैंने एक मिलते-जुलते VLM demo में एक free VLM इस्तेमाल होते देखा। संदर्भ के लिए लिंक: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM huggingface टीम का मॉडल है। इतने छोटे मॉडल के साथ तरह-तरह की चीज़ें बनते देखना काफ़ी रोमांचक है। संबंधित लिंक भी साझा कर रहा हूँ: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
मैं खुद Sen नाम का एक real-time voice+vision app बना रहा हूँ। अभी इसे beta में जारी किया है, और webrtc से frames को real time में stream करता हूँ। यह तेज़ और काफ़ी smart लग रहा है, और सोचता हूँ कि जैसे-जैसे ऐसे मॉडल hardware के और करीब आएँगे, ये कितने बेहतर हो जाएँगे। भविष्य में शायद ऐसे मॉडल devices पर सहज और तेज़ TTFB के साथ चलेंगे
- अगर तुम्हारे पास tech stack और setup को समझाने वाली कोई पोस्ट हो तो साझा करोगे? या छोटा-सा summary भी चलेगा। मैं बच्चों के लिए एक personal Qwen जैसा कुछ बनाना चाहता हूँ, जहाँ buttons और voice से prompt दिया जा सके। अभी vision की ज़रूरत नहीं है, हालांकि आगे कभी जोड़ना अच्छा होगा। Siri सच में बहुत निराशाजनक है। अभी वह उस स्तर तक नहीं पहुँची है जिसकी उम्मीद थी
यह बात सच में रोमांचक है कि असीमित resources झोंकने के बजाय resources को कुशलता से घटाकर छोटे मॉडलों को चलाने की दिशा में काम हो रहा है
अब और अधिक महसूस हो रहा है कि robotics का भविष्य VLA (vision-language-action) models में है। Tesla FSD भी एक end-to-end VLA model है, और efficient vision encoding शायद robots की safety और responsiveness के लिए निर्णायक होगा
एक ऐसे बच्चे के पिता के रूप में, जिसकी optic nerve बुरी तरह क्षतिग्रस्त है और जिसके कभी भी अंधा हो जाने की आशंका थी, NIH clinical trial में experimental treatment की वजह से उसकी कुछ दृष्टि बची रह सकी है (मेरा मानना है कि विज्ञान के लिए समर्थन जारी रहना चाहिए)। Vision-Language Model में प्रगति की वजह से अब मुझे उम्मीद है कि अगर मेरा बच्चा अंधा भी हो जाए, तब भी वह दुनिया से जुड़ सकेगा, कॉलेज जा सकेगा, और अपनी पसंद के science या engineering क्षेत्र में कामयाब हो सकेगा। वह अपने हमउम्र बच्चों से बहुत प्रतिभाशाली है और उसका भविष्य बहुत उज्ज्वल लगता है
- मैं 80 के दशक में 100% दृष्टिबाधित होकर बड़ा होने का अपना अनुभव साझा करना चाहता हूँ। उस समय आज जैसी तकनीक नहीं थी, और लगभग 12 साल की उम्र में जाकर कंप्यूटर आए। मैंने एक पुराने typewriter पर typing सीखी और भारी धातु वाले braille writer से braille लिखना सीखा। उस दौर में OCR तकनीक भी बहुत कमज़ोर थी, और मुझे secondary school (हमारे यहाँ की terminology में) पहुँचने पर ही braille display वाले laptop के साथ पढ़ाई करने का मौका मिला। मैं DOS इस्तेमाल करता था, और Word 5.5 में notes लिखता था। Latin सीखने के लिए PC Lingua को छोड़ दें तो सीखने के लिए विशेष tools लगभग थे ही नहीं। आख़िरकार मेरे पास बस electronic notes और मेरा दिमाग था, लेकिन फिर भी मैंने स्कूल पूरा किया, अब मेरे पास बेहद संतोषजनक नौकरी है, मैं अपने घर में रहता हूँ, मेरी प्यारी girlfriend है, और मैं पूरी तरह स्वतंत्र जीवन जीता हूँ। बल्कि मुझे तो अपनी माँ को, जो हर समय मदद करना चाहती थीं, जानबूझकर दूर रखना पड़ा। विकलांग लोगों के बीच एक कहावत है कि overprotective parents की वजह से एक “अतिरिक्त विकलांगता” पैदा हो जाती है। इसे भावनात्मक रूप से मत लेना, बल्कि इसके अर्थ पर सचमुच विचार करना। तुम्हारा बच्चा 18 साल की उम्र तक पूरी तरह स्वतंत्र हो सकता है। जितना ज़्यादा उस समय को ज़बरदस्ती टालोगे, उतना ही वास्तविक independence मुश्किल होगी, और भीतर की ताकत विकसित करने के मौके छूट जाएँगे। मैं समझ सकता हूँ कि आज की तकनीकी प्रगति तुम्हें उम्मीद देती है, लेकिन मुझे यक़ीन है कि तुम्हारे बच्चे की संभावनाएँ तुम्हारी कल्पना से भी अधिक हैं। अगर तुम उसे अपनी क्षमताएँ खोजने दोगे, तो वह सचमुच चौंका देने वाली चीज़ें कर सकता है। और मैं यह भी कहूँगा कि बहुत महंगे gadgets या सबसे नए tools पर ही निर्भर मत हो। मुझे भी vision models बहुत पसंद हैं, लेकिन आज भी जब मैं घर से निकलता हूँ, तो सिर्फ़ अपनी cane और phone लेकर निकलता हूँ। कभी-कभी मैं Siri से पूछता हूँ, ‘मैं कहाँ हूँ’, लेकिन आख़िर में रास्ता मेरी cane ही ढूँढती है। सच कहूँ तो ज़्यादातर नई तकनीक बढ़ा-चढ़ाकर पेश की जाती है, और साधारण hearing और touch से ही इंसान बहुत ज़्यादा कर सकता है। तुम्हारे परिवार और बच्चे के आगे के सफ़र के लिए दिल से शुभकामनाएँ
लगता है कि ऐसी तकनीक से सिर्फ़ एक phone और चश्मे पर लगे camera के सहारे दृष्टिबाधित लोगों के लिए एक व्यावहारिक सहायक बनाया जा सकता है। जो लोग पहले किसी सहायक के बिना चल-फिर नहीं पाते थे, वे शायद रोज़मर्रा की ज़िंदगी में अधिक स्वतंत्र जीवन जी सकेंगे
- cream chicken और cream mushroom soup में फ़र्क करने के लिए यह उपयोगी हो सकता है, लेकिन mobility के मामले में यह मौजूदा रणनीतियों की तुलना में दृष्टिबाधित लोगों के लिए बहुत मददगार नहीं लगेगा। “यहाँ पेड़ है, वहाँ भी पेड़ है, एक पैदल यात्री है, फिर पेड़ है, एक sign है” जैसी feedback वास्तविक आवागमन में ज़्यादा उपयोगी नहीं लगती
सोच रहा हूँ कि क्या इसे llama.cpp में convert/run करके देखा जा सकता है। इसका LLaVA-आधारित होना काफ़ी उम्मीद जगाता है

Apple का FastVLM - Vision Language Models के लिए कुशल vision encoding

FastVLM प्रोजेक्ट का महत्व और फायदे

मुख्य विशेषताएँ

मॉडल जानकारी (Model Zoo)

उपयोग के उदाहरण (Usage Example)

Apple Silicon और मोबाइल डिवाइस support

अतिरिक्त जानकारी और open source मार्गदर्शन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय