- Apple ने vision-language AI models (AFM, Apple Foundation Models) और developers के लिए Foundation Models framework (API) को नया रूप देकर पेश किया है, साथ ही on-device और cloud models दोनों की performance और efficiency में बड़ा सुधार किया है
- AFM on-device model में 3B parameter transformer और 300M parameter vision transformer शामिल हैं, जो text और image input के साथ multilingual और vision capabilities को support करते हैं; server model में custom MoE architecture लागू है
- model lightweighting (quantization और LoRA), 15 भाषाओं का support, image understanding, tool use जैसी मजबूत क्षमताएँ और developer accessibility प्रदान की गई है
- on-device model ने non-U.S. English और image understanding में प्रतिस्पर्धी models पर बढ़त दिखाई, लेकिन server model की performance अभी GPT-4o जैसे नवीनतम models से पीछे है
- हाल में विवादों में रहे Apple के paper, Siri AI upgrade में देरी, और Apple की AI strategy में बदलाव तथा iOS ecosystem के भीतर उसके प्रभाव पर ध्यान केंद्रित हो रहा है
Apple Foundation Models (AFM) का बड़ा अपडेट
- Apple ने on-device (mobile-embedded) और server-hosted AI models (AFM) दोनों को upgrade किया है, और speed, efficiency, performance में बड़ा सुधार किया है
- developer API (Foundation Models framework) नया उपलब्ध कराया गया है, जिससे Apple Intelligence enabled devices पर on-device AI calls संभव हो गई हैं
मुख्य architecture और features
- input/output: text, image (अधिकतम 65,000 token input), output text
- architecture:
- AFM-on-Device: 3 billion parameter transformer, 300 million parameter vision transformer
- AFM-Server: custom Mixture-of-Experts (MoE) transformer (parameter count सार्वजनिक नहीं), 1 billion parameter vision transformer
- performance: non-U.S. English और image understanding में मजबूत
- availability: AFM-on-Device, Foundation Models framework के जरिए उपलब्ध है. AFM-Server सार्वजनिक उपयोग के लिए उपलब्ध नहीं है
- 15 भाषाओं का support, tool use आदि उपलब्ध
- अप्रकाशित जानकारी: server model का parameter count, token limits, training dataset की details आदि सार्वजनिक नहीं हैं
तकनीकी अंतर और optimization
- quantization:
- on-device model में अधिकांश weights को 2-bit तक compress किया गया है, जबकि embedding layer को 4-bit में रखा गया है (quantization-aware training का उपयोग)
- server model में ASTC (graphics compression) लागू है, और औसतन 3.56-bit (embedding 4-bit) तक compress किया गया है
- LoRA adapters compression से होने वाली performance गिरावट की भरपाई करते हैं, और summarization, correction, question answering जैसे specific tasks के लिए adaptation देते हैं
- custom MoE architecture hardware के बीच communication overhead को न्यूनतम कर efficiency बढ़ाता है
performance evaluation
- on-device model: non-U.S. English और image understanding में Qwen2.5-VL-3B जैसे प्रतिस्पर्धी models से बेहतर
- server model: कुछ मामलों में Qwen3-23B से थोड़ा आगे, लेकिन GPT-4o जैसे नवीनतम models के स्तर तक नहीं पहुँचता
हालिया विवाद और AI strategy में बदलाव
- Apple ने हाल ही में पाँच नवीनतम AI models की reasoning limits पर प्रयोग करने वाले paper से विवाद खड़ा किया, और उसके जवाब में rebuttal papers भी जल्द सामने आए
- Siri AI upgrade अनिश्चितकाल के लिए टाल दिया गया है, और नए iPhone में AI features की कमी को लेकर class action lawsuit भी दायर की गई है
- जहाँ Google/Android कैंप तेज़ी से AI race में आगे निकल रहा है, वहीं Apple Foundation Models आदि के जरिए अपनी AI strategy बदल रहा है
आगे की संभावनाएँ और प्रभाव
- iOS के default bundled model के रूप में यह app developer ecosystem पर बहुत बड़ा प्रभाव डाल सकता है
- memory limits और model size की समस्या के कारण, app developers के लिए अपने AI models bundle करने के बजाय Apple के दिए गए models का उपयोग तेज़ी से बढ़ सकता है
- Apple की AI platform strategy क्या app innovation और on-device AI उपयोग के विस्तार को तेज़ करेगी, इस पर नज़र रहेगी
अभी कोई टिप्पणी नहीं है.