Apple के नए on-device और server-based foundation models का परिचय
(machinelearning.apple.com)- 2024 WWDC में iOS 18, iPadOS 18 और macOS Sequoia में गहराई से इंटीग्रेट किए गए पर्सनल इंटेलिजेंस सिस्टम Apple Intelligence की घोषणा की गई
- Apple Intelligence कई ऐसे generative models से बना है जो उपयोगकर्ता के रोज़मर्रा के कामों के लिए विशेष रूप से तैयार किए गए हैं, और यह मौजूदा गतिविधि के अनुसार तुरंत अनुकूलित हो सकता है
- बिल्ट-इन foundation models को दस्तावेज़ लिखने/सुधारने, notifications का सारांश/प्राथमिकता तय करने, बातचीत के लिए मज़ेदार इमेज बनाने, और apps के बीच इंटरैक्शन को सरल बनाने जैसे user experience के लिए fine-tune किया गया है
- 2 मॉडल — लगभग 3 अरब parameters वाला on-device language model, और Private Cloud Compute के ज़रिए उपलब्ध बड़ा server-based language model — को दक्ष, सटीक और ज़िम्मेदार तरीके से विशेष कार्य करने के लिए बनाया और लागू किया गया है
- ये Apple द्वारा बनाए गए बड़े generative model परिवार का हिस्सा हैं, जिसमें Xcode में intelligence बनाने के लिए coding model और Messages app में visual expression में मदद करने वाला diffusion model भी शामिल है
ज़िम्मेदार AI विकास पर फोकस
- Apple Intelligence को हर चरण में मुख्य मूल्यों के अनुरूप डिज़ाइन किया गया है और इसे privacy में क्रांतिकारी नवाचारों की बुनियाद पर बनाया गया है
- Apple ने ज़िम्मेदार AI सिद्धांत स्थापित किए हैं जो AI tools और उन्हें आधार देने वाले models के विकास के तरीके को मार्गदर्शित करते हैं:
- बुद्धिमान tools के ज़रिए उपयोगकर्ताओं को सशक्त बनाना
- उपयोगकर्ता का प्रतिनिधित्व करना
- सोच-समझकर डिज़ाइन करना
- privacy की सुरक्षा
- ये सिद्धांत Apple Intelligence को संभव बनाने वाली पूरी architecture में परिलक्षित होते हैं
Pre-Training
- foundation models को Apple के AXLearn framework से train किया गया, जिसे 2023 में open source के रूप में जारी किया गया था
- यह JAX और XLA पर बना है, जिससे अलग-अलग hardware और cloud platforms पर efficient और scalable training संभव होती है
- training scaling के लिए data, model, sequence length जैसे कई dimensions में parallelization तकनीकों के संयोजन का उपयोग किया गया
- models को licensed data और public data पर train किया गया। Web publishers data उपयोग पर नियंत्रण के ज़रिए Apple Intelligence training में web content के उपयोग से opt out कर सकते हैं
- उपयोगकर्ताओं का personal data या interactions कभी उपयोग नहीं किए जाते। PII removal filtering, low-quality content filtering, और high-quality documents की पहचान के लिए model-based classifiers लागू किए गए
Post-Training
- यह पुष्टि होने के बाद कि data quality model की सफलता के लिए महत्वपूर्ण है, hybrid data strategy का उपयोग किया गया
- teacher committee के माध्यम से rejection sampling fine-tuning algorithm, और mirror descent policy optimization तथा leave-one-out advantage estimator का उपयोग करने वाला RLHF algorithm विकसित किया गया
- इन दोनों algorithms से model की instruction-following quality में उल्लेखनीय सुधार हुआ
Optimization
- high-performance generative models विकसित करने के अलावा, on-device और private cloud में speed और efficiency को optimize करने के लिए कई innovative techniques लागू की गईं
- on-device और server model दोनों में grouped-query attention का उपयोग किया गया
- memory requirements और inference cost घटाने के लिए shared input और output vocabulary embedding tables का उपयोग किया गया
- on-device model में 49K vocabulary size का उपयोग होता है, जबकि server model में अतिरिक्त भाषाओं और technical tokens सहित 100K vocabulary size का उपयोग होता है
- on-device inference के लिए low-bit palettization का उपयोग किया गया — uncompressed model जैसी ही accuracy पाने के लिए mixed 2-bit और 4-bit configuration strategy (औसतन प्रति weight 3.5-bit) को शामिल करने वाला नया LoRA adapter framework विकसित किया गया
- Talaria tool का उपयोग करके हर task के लिए bitrate selection को बेहतर मार्गदर्शन दिया गया
- activation और embedding quantization का उपयोग किया गया, और efficient KV cache update तरीका विकसित किया गया
- इस optimization सेट के साथ iPhone 15 Pro पर प्रति prompt token लगभग 0.6ms का time-to-first-token latency और 30 tokens प्रति second की generation speed हासिल की गई
Model Adaptation
- foundation models को उपयोगकर्ताओं की रोज़मर्रा की गतिविधियों के लिए fine-tune किया जाता है, और वे चल रहे task के अनुसार खुद को dynamically specialize भी कर सकते हैं
- किसी विशेष task के लिए model को fine-tune करने हेतु adapters का उपयोग किया जाता है, जो छोटे neural network modules होते हैं और pre-trained model की विभिन्न layers से जोड़े जा सकते हैं
- केवल adapter layers को fine-tune किया जाता है, इसलिए मूल pre-trained model के parameters बदले बिना उसकी general knowledge सुरक्षित रहती है, जबकि specific task support के लिए adapter layers को customize किया जाता है
Performance and Evaluation
- फोकस ऐसे generative models देने पर है जो उपयोगकर्ताओं को Apple products में communication, काम, self-expression और कार्य निष्पादन में मदद करें
- model benchmarking के दौरान मानव मूल्यांकन पर ज़ोर दिया गया, क्योंकि यह user experience के साथ उच्च संबंध रखता पाया गया
- feature-specific adapters और foundation models दोनों के लिए performance evaluation किया गया
सारांश adapter evaluation का उदाहरण:
- क्योंकि email और notification summaries के लिए product requirements सूक्ष्म लेकिन महत्वपूर्ण तरीकों से अलग हैं, इन specific requirements को पूरा करने के लिए palettized model के ऊपर LoRA adapters को fine-tune किया गया
- training data बड़े server model द्वारा बनाए गए synthetic summaries पर आधारित था, जिन्हें केवल high-quality summaries बनाए रखने वाली rejection sampling strategy से filter किया गया
- product-specific summary evaluation के लिए use case के अनुसार सावधानी से sample किए गए 750 response sets का उपयोग किया गया
- evaluation dataset में ऐसे विविध inputs को प्रमुखता दी गई जिनका production में product features के सामने आने की संभावना है, और इसमें अलग-अलग content types और lengths वाले single और stacked documents का stratified mix शामिल था
- यह महत्वपूर्ण है कि performance का मूल्यांकन ऐसे datasets पर किया जाए जो product feature के रूप में वास्तविक use cases का प्रतिनिधित्व करते हों
- पाया गया कि adapters वाले model, comparable models की तुलना में बेहतर summaries बनाते हैं
Human Satisfaction Score on Summarization Feature Benchmark
- data table के अनुसार Apple का on-device+adapter model email और notification summaries में Phi-3-mini model की तुलना में अधिक satisfaction-good ratio और कम satisfaction-bad ratio दिखाता है। adapters वाला model बेहतर summaries बनाता है
- Apple के on-device और server models ने सामान्य capabilities का मूल्यांकन विभिन्न कठिनाई स्तरों वाले वास्तविक prompts से बने comprehensive evaluation set के साथ किया। समान आकार के open source और commercial models से तुलना में:
- on-device model (~3 अरब parameters) ने Phi-3-mini, Mistral-7B, Gemma-7B जैसे बड़े models से बेहतर प्रदर्शन किया
- server model, DBRX-Instruct, Mixtral-8x22B, GPT-3.5-Turbo के बराबरी का था, फिर भी बहुत efficient रहा
- harmful content, sensitive topics और factuality के संदर्भ में model performance जाँचने के लिए विभिन्न adversarial prompt sets का उपयोग किया गया। on-device और server model दोनों adversarial prompts के सामने robust रहे और open source तथा commercial models की तुलना में कम violation rate हासिल किया
- IFEval benchmark का उपयोग करके समान आकार के models के साथ instruction-following ability की तुलना में पाया गया कि Apple के on-device और server models, समान श्रेणी के open source और commercial models की तुलना में विस्तृत instructions का बेहतर पालन करते हैं
- विभिन्न writing instructions से बने internal summarization और writing benchmarks में models की writing ability का भी मूल्यांकन किया गया
Writing Benchmarks
- data table के अनुसार summarization और writing में Apple के on-device और server models ने comparison models के मुकाबले अच्छी और प्रतिस्पर्धी performance दिखाई
निष्कर्ष
- WWDC24 में पेश किए गए Apple foundation models और adapters, Apple Intelligence की बुनियाद हैं — एक नया personal intelligence system जो iPhone, iPad और Mac में गहराई से इंटीग्रेट होकर language, image, action और personal context में शक्तिशाली capabilities प्रदान करता है
- इन्हें Apple products में उपयोगकर्ताओं की रोज़मर्रा की गतिविधियों में मदद करने के उद्देश्य से बनाया गया है, हर चरण में ज़िम्मेदारी के साथ विकसित किया गया है, और Apple के मुख्य मूल्यों द्वारा निर्देशित है
- Apple जल्द ही language, diffusion और coding models सहित अपने व्यापक generative model परिवार के बारे में और जानकारी साझा करेगा
1 टिप्पणियां
Hacker News राय
Adapter का उपयोग: pre-trained model में विभिन्न layers पर plug-in किए जा सकने वाले छोटे neural network modules, यानी adapters, का उपयोग करके model को specific tasks के लिए fine-tune किया जाता है। इससे app developers हर hardware model के लिए optimized model इस्तेमाल कर सकते हैं.
उम्मीद: अभी third-party training support की घोषणा नहीं हुई है, लेकिन उम्मीद है कि यह योजना में होगा। local + private ML की कठिनाई यह है कि हर app के लिए बड़े आकार के weights की ज़रूरत न पड़े.
Apple का अवसर: Apple के पास हर chip के लिए optimized model देने और नए use cases के लिए ऐसे adapters देने का अवसर है जिनके लिए केवल कुछ MB weights की ज़रूरत हो। यह model के app slimming जैसा है.
Developer experience: भले ही base model बिल्कुल latest न हो, developer experience शानदार और repeatable है। server side काफी आसान है, और उम्मीद है कि local + private कई use cases को कवर करेगा.
Adapter की भूमिका: adapters का उपयोग करके model को specific tasks के लिए fine-tune किया जाता है, memory को efficiently manage किया जाता है, और operating system की responsiveness सुनिश्चित की जाती है। adapter parameters को 16-bit में व्यक्त किया जाता है, और लगभग 30 करोड़ parameters वाले model के लिए करीब 10MB memory की ज़रूरत होती है.
Loras से समानता: यह approach Loras जैसी लगती है.
तुलना चार्ट: लेख के बीच में दूसरे संबंधित models के साथ comparison chart शामिल है। server-side model, GPT-3.5 से बेहतर है और GPT-4 से कमजोर। लेकिन "output harmfulness की human evaluation" वाला chart खास तौर पर दिलचस्प है.
Model की सतर्कता: GPT को "level 3" बनाकर, और OpenAI के model का उपयोग करके यह साफ़ करना कि "यह ChatGPT ने कहा" है, model को अधिक सतर्क बनाया जाता है.
Server model इस्तेमाल करने की उम्मीद: इन दो पेजों की सामग्री बहुत शानदार है, और Apple stack के लिए optimized cloud बनाने हेतु server model को आज़माना चाहूँगा.
Memory बढ़ने की उम्मीद: उम्मीद है कि Apple सभी Mac की base memory को 8GB से ऊपर बढ़ाएगा। चाहूँगा कि 16GB M4 base बने, लेकिन संभव है Apple 12GB दे और 16GB option के लिए अतिरिक्त शुल्क ले.
Data privacy: Apple को यह स्पष्ट करना चाहिए कि वह third-party services को क्या भेजता है, और अगर users चाहें तो opt-out की सुविधा देनी चाहिए। device पर inference चलाना और OpenAI की API के जरिए data भेजना अलग बातें हैं.
Domain name की पसंद: machinelearning.apple.com का उपयोग अच्छा लगा.
Optimization result: 3.5B weights को quality loss के बिना इस्तेमाल करना state-of-the-art optimization result है.
Output harmfulness evaluation: यह देखना दिलचस्प है कि Mistral-7B छोटे models में false positive rejection को कम करने में सबसे बेहतर है.
Battery life पर प्रभाव: जिज्ञासा है कि ऐसे models का battery life पर क्या असर पड़ता है। iPhone 15 Pro पर PrivateLLM app इस्तेमाल करने के अनुभव में, कुछ मिनट उपयोग के बाद battery charge तेज़ी से घटने लगा.