Apple Core AI फ़्रेमवर्क
(developer.apple.com)- Core AI Apple silicon पर AI मॉडल को ऐप के भीतर चलाने, optimize करने और deploy करने के लिए नया framework है
- यह CPU, GPU और Neural Engine का उपयोग करता है, और Swift API के जरिए
.aimodelinference को ऐप में integrate किया जा सकता है - PyTorch मॉडल को Core AI मॉडल में convert किया जा सकता है, और toolchain में compression, debugging, और pre-compilation तक उपलब्ध हैं
- बड़े मॉडलों के लिए रन से पहले specialization ज़रूरी है, इसलिए download, cache, और first-run flow की design महत्वपूर्ण है
- SAM 3, Qwen, और Transformer उदाहरणों के जरिए on-device vision, language, और state caching optimization flow भी दिखाए गए हैं
Core AI की भूमिका
- Core AI Apple platforms पर on-device AI execution के लिए नई technologies का समूह है
- iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, watchOS 27.0+ Beta का समर्थन
- यह ऐप के भीतर high-performance AI inference चलाने और user data को device के बाहर भेजे बिना काम करने वाली संरचना देता है
- Core AI सिर्फ एक execution API नहीं है, बल्कि model preparation से लेकर app integration तक शामिल करता है
- model optimization, PyTorch conversion,
.aimodelcreation, debugging, Xcode profiling, और pre-compilation उपलब्ध हैं - neural network के अलावा decision tree या tabular feature engineering मॉडल Core ML के उपयोग के लिए हैं
- model optimization, PyTorch conversion,
डेवलपमेंट फ्लो: PyTorch से Swift ऐप तक
- Core AI मौजूदा PyTorch workflow को Apple silicon deployment flow से जोड़ता है
torch.exportसे PyTorch मॉडल को exported program में convert किया जाता है- Core AI PyTorch Extensions के
TorchConverterसे.aimodelबनाया जाता है - Core AI Optimization के जरिए Apple silicon के अनुरूप compression और optimization लागू किए जाते हैं
- Swift ऐप में नए Core AI Framework API से model loading और inference चलाया जाता है
AIModel.aimodelफ़ाइल को load करता है और inference functions की जाँच करता हैInferenceFunctionएक executable single computation graph हैNDArraymulti-dimensional input/output data रखने का type हैruncall के जरिएNDArrayinput देकर inference result लिया जाता है
- Xcode में
.aimodelफ़ाइल को सीधे देखा जा सकता है- model size, operation distribution, metadata, और function signature देखे जा सकते हैं
- dynamic shape dimensions को
?से दिखाया जाता है
परफ़ॉर्मेंस optimization: state, cache, memory layout
- Transformer मॉडल जैसी संरचनाओं में, जहाँ input sequence लंबा होता जाता है, inference time धीरे-धीरे बढ़ सकता है
- Snake उदाहरण में जब दोनों Snake को AI मॉडल से चलाया गया, तो समय के साथ गेम धीमा होने लगा
- Core AI Instruments में inference सेक्शन का समय लगातार बढ़ता हुआ दिखा
- Core AI state का उपयोग करके key/value cache जैसी संरचना लागू कर सकता है
- state model input भी है, inference के दौरान पढ़ा भी जाता है और in-place update भी होता है
- पिछले step के key/value को दोबारा compute किए बिना cache में रखा जाता है
- हर बार पूरे game history को input में डालने की ज़रूरत नहीं रहती
- Swift की तरफ
InferenceFunction.runकेstatesargument में mutable view collection पास की जाती है- updated मॉडल समय बीतने पर भी स्थिर speed बनाए रखता है
- Instruments में भी inference latency बढ़ने की गति काफी धीमी हो जाती है
- Core AI inference loop overhead कम करने के लिए memory control features भी देता है
NDArrayका optimal memory layout देखा जा सकता है और उसी संरचना में allocation की जा सकती है- output values को पहले से allocate करके inference के दौरान नए output allocation से बचा जा सकता है
- asynchronous values का उपयोग करके कई inference functions को pipeline किया जा सकता है
मॉडल deployment: download, specialization, pre-compilation
- Core AI मॉडल एक source representation है जो सभी Apple devices पर चल सकता है, लेकिन वास्तविक execution से पहले device-specific specialization ज़रूरी है
- model load के समय पहले यह देखा जाता है कि cache में specialization किया हुआ परिणाम पहले से मौजूद है या नहीं
- अगर नहीं है, तो उस device और OS version के अनुरूप execution artifact बनाया जाता है
- बड़े मॉडलों में specialization में समय लग सकता है, इसलिए इसे user interaction के बीच में नहीं रखना महत्वपूर्ण है
- SAM 3 उदाहरण में first run पर model load और बड़े specialization event के कारण spinner लंबे समय तक दिखा
- feature intro screen में, जब user वास्तव में कोशिश करे तभी Background Assets के जरिए model download करने वाला flow सुझाया गया है
coreai-buildcommand से development machine पर कुछ compilation पहले से किया जा सकता है- specific device architecture के लिए compiled model बनाया जा सकता है
- user device पर specialization फिर भी ज़रूरी रहता है, लेकिन बचा हुआ काम कम होने से preparation time घट जाता है
AIModelCacheसे model cache को programmatically control किया जा सकता है- अनावश्यक items हटाना
- item retention policy को control करना
- एक ही app group के कई apps के बीच cache share करना
मॉडल optimization और debugging
- Core AI Optimization model compression और quantization features देता है
- INT4, INT8, FP4, FP8 weight compression का समर्थन
- calibration data या quantization aware training का उपयोग करने वाले quantization API उपलब्ध हैं
- SAM 3 उदाहरण में 32-bit baseline asset 3GB से अधिक था, और 4-bit compression के बाद लगभग 430MB रह गया
- जब सभी layers पर aggressively compression लागू किया गया, तो छिपा हुआ एक फूल detect नहीं हो पाया
- सिर्फ output देखकर यह पता लगाना कठिन था कि समस्या किस layer में है
- Core AI Debugger converted मॉडल और मूल PyTorch मॉडल के internal values की तुलना करता है
- model structure को graph के रूप में visualize करता है
- intermediate tensor values देखे जा सकते हैं
- Python source code की specific line तक trace किया जा सकता है
- PSNR के आधार पर बड़ा अंतर वाले operations को दिखाता है
- SAM 3 comparison में low PSNR sync point का अधिकांश हिस्सा detector decoder में पाया गया
- detector block पूरे parameters का केवल 4% था, इसलिए compression gain भी छोटा था
- detector को quantization target से बाहर करने पर सभी फूल फिर से detect हुए और baseline quality वापस आ गई
Core AI Models और high-level API
- Core AI Models repository ऐप के अनुरूप convert और optimize किए जा सकने वाले popular models और export recipes देता है
- SAM 3 और Qwen family models खोजकर उन्हें Core AI मॉडल में convert किया जा सकता है
- Swift package model-specific preprocessing और postprocessing को abstract करता है
- SAM 3 जैसे segmentation मॉडल को
CoreAIImageSegmenterसे उपयोग किया जा सकता है- text prompt के जरिए object segmentation
- raw tensor shape को सीधे handle किए बिना Swift API से mask निकाला जा सकता है
- Qwen जैसे language मॉडल को
CoreAILanguageModelसे load किया जा सकता है- asset loading, engine creation, tokenizer setup को abstract करता है
FoundationModelsकेLanguageModelSessionसे जोड़कर इस्तेमाल किया जा सकता है- streaming response और
@Generableआधारित structured output का उपयोग किया जा सकता है
डेवलपर्स के लिए ध्यान देने योग्य बिंदु
- Core AI, “ऐप में मॉडल चलाने वाली API” से कहीं बड़ा on-device AI deployment system है
- PyTorch मॉडल को Apple silicon के लिए
.aimodelमें बदलने का flow - Swift ऐप में मॉडल को सुरक्षित और efficient तरीके से चलाने वाली API
- Xcode, Instruments, और Debugger के जरिए performance और accuracy diagnosis
- PyTorch मॉडल को Apple silicon के लिए
- ऐप design में मॉडल से भी ज़्यादा preparation process user experience को प्रभावित करता है
- मॉडल को ऐप में bundle करना है या Background Assets से लेना है, यह तय करना ज़रूरी है
- first run में download और specialization को कैसे दिखाया जाए, इसकी design ज़रूरी है
- cache policy और pre-compilation strategy बड़े मॉडलों की usability से सीधे जुड़ी हैं
- Core AI Apple platforms पर vision models, language models, और Transformer-आधारित मॉडलों को on-device संभालने का development flow प्रस्तुत करता है
- SAM 3 उदाहरण से segmentation मॉडल का compression, isolation, और debugging flow दिखाया गया है
- Qwen उदाहरण से custom language model और Foundation Models API के integration का तरीका दिखाया गया है
- Snake Transformer उदाहरण से state-आधारित key/value cache optimization दिखाया गया है
संदर्भ लिंक
- Apple Core AI Documentation: https://developer.apple.com/documentation/coreai/
- WWDC26: Core AI से परिचय: https://www.youtube.com/watch?v=XJFfCVW1UZ0
- WWDC26: Core AI का उपयोग करके on-device AI मॉडल को ऐप में integrate करना: https://www.youtube.com/watch?v=gl5lD2gEhb0
- WWDC26: Core AI model authoring और optimization पर गहराई से चर्चा: https://www.youtube.com/watch?v=MdlyLT_y3i0
1 टिप्पणियां
Hacker News की राय
जल्द आने वाला on-device Foundation Models अपडेट ज़्यादा रोमांचक लग रहा है: https://developer.apple.com/documentation/updates/foundation...
अभी जानकारी ज़्यादा नहीं है
लेकिन मैं https://github.com/Arthur-Ficial/apfel maintain करता हूँ, इसलिए पक्षपात हो सकता है
fmटूल जोड़ा गया है, यह देखा। इसका ज़िक्र Platforms State of the Union में हुआ थाचलाने पर ऐसा output मिलता है: https://gist.github.com/robgough/7893602895e7580117475076198...
आम तौर पर मुझे software का टुकड़ों में बँटा होना पसंद है, लेकिन Apple के मामले में built-in features में काफी चीज़ें पसंद आती हैं
खास तौर पर यह बात आकर्षक लगती है कि software यह जान सके कि “इस platform पर यह model मौजूद है” और उसे कई छोटे, और धीरे-धीरे बड़े होते generative AI tasks में इस्तेमाल कर सके
local agent-आधारित coding tools में भी और गहराई से जा रहा हूँ, और
little-coder --model ollama/gemma4:12b-it-qatसे शुरुआत की हैsetup का कुछ मिनट बचाने के लिए एक छोटी free किताब भी बनाई है: https://leanpub.com/read/local-coding-agents
hyperscaler-केंद्रित AI growth के hype से, खासकर data center की environmental cost और social cost को लेकर, मैं काफ़ी नाराज़ हूँ, इसलिए local·private AI को बढ़ावा देने की हर कोशिश का समर्थन करता हूँ
अब जबकि यह MCP support दे रहा है, containerization/seatbelt strategy के बारे में भी और सुनना चाहूँगा
Apple के container system के भीतर Darwin का इस्तेमाल कैसे होता है, इस पर अभी तक कुछ नहीं देखा
Apfel एक शानदार project है, और Tahoe में upgrade करना चाहने की यही एकमात्र वजह थी
WWDC 2026 Core AI वीडियो
Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/
यह PyTorch model को CPU, GPU, और Apple Neural Engine(ANE) पर चलने वाले format में बदलने का नया तरीका लगता है [0]
सोच रहा हूँ क्या यह मौजूदा API Core ML को पूरी तरह replace करता है [1]
[0]: https://apple.github.io/coreai-optimization/
[1]: https://developer.apple.com/documentation/coreml/
unsloth इस तरह के काम को “battery included” रूप में उपलब्ध कराने का अच्छा उदाहरण है
Apple को बेहतर तरीके से समझाना चाहिए कि हर एक के फायदे-नुकसान और feature parity कहाँ तक है
जिन apps के downloads 20 लाख से कम हैं, उन्हें server-grade models तक मुफ़्त पहुँच और वही privacy guarantee दी जाएगी
समय के साथ यह सभी apps तक फैल जाए तो अच्छा होगा। hardware/cost constraints होंगी, लेकिन बड़े developers शायद इसकी कीमत दे सकें
https://developer.apple.com/private-cloud-compute/
AI का भविष्य स्पष्ट रूप से local है, और हाल में इसे “infinite tokens” के रूप में समझाया जा रहा है
M1 MacBook Pro भी यह कर सकता है और RTX 3090 भी
हर महीने सैकड़ों डॉलर देने की ज़रूरत नहीं है, और दूसरों पर भी यही बात लागू होती है
40 साल बाद हम आधुनिक smart terminals जैसी centralized infrastructure पर वापस आ गए हैं
AI का भविष्य भी आखिरकार उसी दिशा में जाएगा। शायद यह local और centralization के बीच आता-जाता रहेगा
लेकिन अगर लोग local पर चलने वाली चीज़ें बेचकर पैसा कमा सकते हैं, तब भी ऐसा लगता है कि centralization ज़्यादा power और ज़्यादा पैसा पैदा करती है
आम users general-purpose models चाहते हैं, इसलिए AI chat apps बने रहेंगे
ज़्यादातर programs को local पर चलने वाले specialized AI से फायदा हो सकता है, और programs की संख्या users से कहीं ज़्यादा है
लगता है Apple activation values की तरफ भी काम कर रहा है। मेरी जानकारी के मुताबिक w4a8, w4a16 है
अगर यह सही ढंग से कर लिया गया, और यह एक बड़ा assumption है, तो Apple की market reach को देखते हुए यह तय करने में बड़ा असर डाल सकता है कि 100 billion से कम parameters वाले models को कैसे train और serve किया जाए
मुख्य उपयोग on-device होगा, और ज़्यादातर मामलों में इसकी संभावना iOS से ज़्यादा macOS पर है
मैंने अभी तक इसे कहीं खास तौर पर उभारा हुआ नहीं देखा, लेकिन Mac के बीच distributed inference दिलचस्प है। इसमें Thunderbolt 5 पर JACCL, OpenAI-compatible
mlx_lm.server, और Mac पर agent-style execution शामिल हैंApple, MLX (direct weight import) को Foundation Models / Core AI से अलग रख रहा है
AI कंपनियाँ listing के लिए इतनी जल्दी इसी वजह से कर रही हैं
अगले साल के अंत तक ज़्यादातर AI सीधे devices पर चलने लगेगा
उनके पास कोई moat नहीं है, वे scaling limits तक पहुँच चुके हैं, जो कुछ जादू जैसा दिखता है उसका ज़्यादातर हिस्सा छोटे models में distill किया जा सकता है, और वे खुद भी यह जानते हैं
Qwen ने 120B-स्तर का model जारी करना बंद कर दिया, यह बहुत अर्थपूर्ण है
अगले 10 साल में, शायद 3 साल में, कोई न कोई ऐसा 256B model निकालेगा जो Opus 4.5 स्तर का होगा और local पर चल सकेगा
अभी हमारे engineers Opus tokens पर लगभग $800 प्रति माह खर्च कर रहे हैं, और उस दर पर local LLM का payback period लगभग 10 महीने है
अफ़सोस की बात है कि बड़े models अब भी बेहतर models ही लगते हैं
अभी मेरी सबसे बड़ी AI request यही है। प्लीज़, Apple
सोच रहा हूँ कि Linux पर भी ऐसा कुछ है या नहीं
उदाहरण के लिए, अगर आप application developer हैं, तो क्या आप यह मान सकते हैं कि kernel किसी खास version से ऊपर होने पर GNU Core AI जैसी कोई चीज़ मौजूद होगी?
अब Apple भी शायद Core ML, MLX, और Core AI के बीच उसी स्थिति में आ गया है
framework fragmentation की समस्या जल्द खत्म होती नहीं दिखती
NVIDIA चाहता है कि training और inference सभी CUDA पर करें, और वह इस बात से इनकार करना चाहता है कि NPU उपयोगी हैं
NPU बनाने वाली हर कंपनी के पास अपनी architecture और LLM से पहले डिज़ाइन किए गए hardware से मिली सीमाओं के मुताबिक अलग framework है। ज़्यादातर के पास GPU को target करने वाला एक और framework भी है
OS vendors के पास भी आम तौर पर एक-दो ऐसे frameworks होते हैं जिन्हें वे hardware-specific frameworks की जगह इस्तेमाल होते देखना चाहते हैं
सोच रहा हूँ कि क्या इसका मतलब है कि ANE पर मनचाही चीज़ चलाई जा सकती है
पिछली बार जब मैंने कोशिश की थी, तब यह सिर्फ Face ID जैसी Apple first-party features के लिए इस्तेमाल होने जैसा लगा था
MLX ही वह चीज़ थी जो ANE का बिल्कुल उपयोग नहीं कर सकती थी