1 पॉइंट द्वारा GN⁺ 5 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Core AI Apple silicon पर AI मॉडल को ऐप के भीतर चलाने, optimize करने और deploy करने के लिए नया framework है
  • यह CPU, GPU और Neural Engine का उपयोग करता है, और Swift API के जरिए .aimodel inference को ऐप में integrate किया जा सकता है
  • PyTorch मॉडल को Core AI मॉडल में convert किया जा सकता है, और toolchain में compression, debugging, और pre-compilation तक उपलब्ध हैं
  • बड़े मॉडलों के लिए रन से पहले specialization ज़रूरी है, इसलिए download, cache, और first-run flow की design महत्वपूर्ण है
  • SAM 3, Qwen, और Transformer उदाहरणों के जरिए on-device vision, language, और state caching optimization flow भी दिखाए गए हैं

Core AI की भूमिका

  • Core AI Apple platforms पर on-device AI execution के लिए नई technologies का समूह है
    • iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, watchOS 27.0+ Beta का समर्थन
    • यह ऐप के भीतर high-performance AI inference चलाने और user data को device के बाहर भेजे बिना काम करने वाली संरचना देता है
  • Core AI सिर्फ एक execution API नहीं है, बल्कि model preparation से लेकर app integration तक शामिल करता है
    • model optimization, PyTorch conversion, .aimodel creation, debugging, Xcode profiling, और pre-compilation उपलब्ध हैं
    • neural network के अलावा decision tree या tabular feature engineering मॉडल Core ML के उपयोग के लिए हैं

डेवलपमेंट फ्लो: PyTorch से Swift ऐप तक

  • Core AI मौजूदा PyTorch workflow को Apple silicon deployment flow से जोड़ता है
    • torch.export से PyTorch मॉडल को exported program में convert किया जाता है
    • Core AI PyTorch Extensions के TorchConverter से .aimodel बनाया जाता है
    • Core AI Optimization के जरिए Apple silicon के अनुरूप compression और optimization लागू किए जाते हैं
  • Swift ऐप में नए Core AI Framework API से model loading और inference चलाया जाता है
    • AIModel .aimodel फ़ाइल को load करता है और inference functions की जाँच करता है
    • InferenceFunction एक executable single computation graph है
    • NDArray multi-dimensional input/output data रखने का type है
    • run call के जरिए NDArray input देकर inference result लिया जाता है
  • Xcode में .aimodel फ़ाइल को सीधे देखा जा सकता है
    • model size, operation distribution, metadata, और function signature देखे जा सकते हैं
    • dynamic shape dimensions को ? से दिखाया जाता है

परफ़ॉर्मेंस optimization: state, cache, memory layout

  • Transformer मॉडल जैसी संरचनाओं में, जहाँ input sequence लंबा होता जाता है, inference time धीरे-धीरे बढ़ सकता है
    • Snake उदाहरण में जब दोनों Snake को AI मॉडल से चलाया गया, तो समय के साथ गेम धीमा होने लगा
    • Core AI Instruments में inference सेक्शन का समय लगातार बढ़ता हुआ दिखा
  • Core AI state का उपयोग करके key/value cache जैसी संरचना लागू कर सकता है
    • state model input भी है, inference के दौरान पढ़ा भी जाता है और in-place update भी होता है
    • पिछले step के key/value को दोबारा compute किए बिना cache में रखा जाता है
    • हर बार पूरे game history को input में डालने की ज़रूरत नहीं रहती
  • Swift की तरफ InferenceFunction.run के states argument में mutable view collection पास की जाती है
    • updated मॉडल समय बीतने पर भी स्थिर speed बनाए रखता है
    • Instruments में भी inference latency बढ़ने की गति काफी धीमी हो जाती है
  • Core AI inference loop overhead कम करने के लिए memory control features भी देता है
    • NDArray का optimal memory layout देखा जा सकता है और उसी संरचना में allocation की जा सकती है
    • output values को पहले से allocate करके inference के दौरान नए output allocation से बचा जा सकता है
    • asynchronous values का उपयोग करके कई inference functions को pipeline किया जा सकता है

मॉडल deployment: download, specialization, pre-compilation

  • Core AI मॉडल एक source representation है जो सभी Apple devices पर चल सकता है, लेकिन वास्तविक execution से पहले device-specific specialization ज़रूरी है
    • model load के समय पहले यह देखा जाता है कि cache में specialization किया हुआ परिणाम पहले से मौजूद है या नहीं
    • अगर नहीं है, तो उस device और OS version के अनुरूप execution artifact बनाया जाता है
  • बड़े मॉडलों में specialization में समय लग सकता है, इसलिए इसे user interaction के बीच में नहीं रखना महत्वपूर्ण है
    • SAM 3 उदाहरण में first run पर model load और बड़े specialization event के कारण spinner लंबे समय तक दिखा
    • feature intro screen में, जब user वास्तव में कोशिश करे तभी Background Assets के जरिए model download करने वाला flow सुझाया गया है
  • coreai-build command से development machine पर कुछ compilation पहले से किया जा सकता है
    • specific device architecture के लिए compiled model बनाया जा सकता है
    • user device पर specialization फिर भी ज़रूरी रहता है, लेकिन बचा हुआ काम कम होने से preparation time घट जाता है
  • AIModelCache से model cache को programmatically control किया जा सकता है
    • अनावश्यक items हटाना
    • item retention policy को control करना
    • एक ही app group के कई apps के बीच cache share करना

मॉडल optimization और debugging

  • Core AI Optimization model compression और quantization features देता है
    • INT4, INT8, FP4, FP8 weight compression का समर्थन
    • calibration data या quantization aware training का उपयोग करने वाले quantization API उपलब्ध हैं
  • SAM 3 उदाहरण में 32-bit baseline asset 3GB से अधिक था, और 4-bit compression के बाद लगभग 430MB रह गया
    • जब सभी layers पर aggressively compression लागू किया गया, तो छिपा हुआ एक फूल detect नहीं हो पाया
    • सिर्फ output देखकर यह पता लगाना कठिन था कि समस्या किस layer में है
  • Core AI Debugger converted मॉडल और मूल PyTorch मॉडल के internal values की तुलना करता है
    • model structure को graph के रूप में visualize करता है
    • intermediate tensor values देखे जा सकते हैं
    • Python source code की specific line तक trace किया जा सकता है
    • PSNR के आधार पर बड़ा अंतर वाले operations को दिखाता है
  • SAM 3 comparison में low PSNR sync point का अधिकांश हिस्सा detector decoder में पाया गया
    • detector block पूरे parameters का केवल 4% था, इसलिए compression gain भी छोटा था
    • detector को quantization target से बाहर करने पर सभी फूल फिर से detect हुए और baseline quality वापस आ गई

Core AI Models और high-level API

  • Core AI Models repository ऐप के अनुरूप convert और optimize किए जा सकने वाले popular models और export recipes देता है
    • SAM 3 और Qwen family models खोजकर उन्हें Core AI मॉडल में convert किया जा सकता है
    • Swift package model-specific preprocessing और postprocessing को abstract करता है
  • SAM 3 जैसे segmentation मॉडल को CoreAIImageSegmenter से उपयोग किया जा सकता है
    • text prompt के जरिए object segmentation
    • raw tensor shape को सीधे handle किए बिना Swift API से mask निकाला जा सकता है
  • Qwen जैसे language मॉडल को CoreAILanguageModel से load किया जा सकता है
    • asset loading, engine creation, tokenizer setup को abstract करता है
    • FoundationModels के LanguageModelSession से जोड़कर इस्तेमाल किया जा सकता है
    • streaming response और @Generable आधारित structured output का उपयोग किया जा सकता है

डेवलपर्स के लिए ध्यान देने योग्य बिंदु

  • Core AI, “ऐप में मॉडल चलाने वाली API” से कहीं बड़ा on-device AI deployment system है
    • PyTorch मॉडल को Apple silicon के लिए .aimodel में बदलने का flow
    • Swift ऐप में मॉडल को सुरक्षित और efficient तरीके से चलाने वाली API
    • Xcode, Instruments, और Debugger के जरिए performance और accuracy diagnosis
  • ऐप design में मॉडल से भी ज़्यादा preparation process user experience को प्रभावित करता है
    • मॉडल को ऐप में bundle करना है या Background Assets से लेना है, यह तय करना ज़रूरी है
    • first run में download और specialization को कैसे दिखाया जाए, इसकी design ज़रूरी है
    • cache policy और pre-compilation strategy बड़े मॉडलों की usability से सीधे जुड़ी हैं
  • Core AI Apple platforms पर vision models, language models, और Transformer-आधारित मॉडलों को on-device संभालने का development flow प्रस्तुत करता है
    • SAM 3 उदाहरण से segmentation मॉडल का compression, isolation, और debugging flow दिखाया गया है
    • Qwen उदाहरण से custom language model और Foundation Models API के integration का तरीका दिखाया गया है
    • Snake Transformer उदाहरण से state-आधारित key/value cache optimization दिखाया गया है

संदर्भ लिंक

1 टिप्पणियां

 
GN⁺ 5 시간 전
Hacker News की राय
  • जल्द आने वाला on-device Foundation Models अपडेट ज़्यादा रोमांचक लग रहा है: https://developer.apple.com/documentation/updates/foundation...
    अभी जानकारी ज़्यादा नहीं है
    लेकिन मैं https://github.com/Arthur-Ficial/apfel maintain करता हूँ, इसलिए पक्षपात हो सकता है

    • सोच रहा हूँ क्या आपने fm टूल जोड़ा गया है, यह देखा। इसका ज़िक्र Platforms State of the Union में हुआ था
      चलाने पर ऐसा output मिलता है: https://gist.github.com/robgough/7893602895e7580117475076198...
    • सहमत। OS API के एक मुख्य हिस्से के रूप में पूरे सिस्टम और पूरे platform में इस्तेमाल होने वाला on-device model शामिल करने का विचार बहुत आकर्षक है
      आम तौर पर मुझे software का टुकड़ों में बँटा होना पसंद है, लेकिन Apple के मामले में built-in features में काफी चीज़ें पसंद आती हैं
      खास तौर पर यह बात आकर्षक लगती है कि software यह जान सके कि “इस platform पर यह model मौजूद है” और उसे कई छोटे, और धीरे-धीरे बड़े होते generative AI tasks में इस्तेमाल कर सके
    • Apfel उपयोगी लग रहा है। मैं लगभग 1 साल से Apple Foundation Models के साथ प्रयोग कर रहा हूँ, और यह embedded applications के लिए उपयोगी हो सकता है
      local agent-आधारित coding tools में भी और गहराई से जा रहा हूँ, और little-coder --model ollama/gemma4:12b-it-qat से शुरुआत की है
      setup का कुछ मिनट बचाने के लिए एक छोटी free किताब भी बनाई है: https://leanpub.com/read/local-coding-agents
      hyperscaler-केंद्रित AI growth के hype से, खासकर data center की environmental cost और social cost को लेकर, मैं काफ़ी नाराज़ हूँ, इसलिए local·private AI को बढ़ावा देने की हर कोशिश का समर्थन करता हूँ
    • यह देखकर हैरानी हुई कि Apple ने Core AI में OpenAPI-compatible endpoint, कम से कम test tool के रूप में भी, शामिल करने का विचार नहीं अपनाया
      अब जबकि यह MCP support दे रहा है, containerization/seatbelt strategy के बारे में भी और सुनना चाहूँगा
      Apple के container system के भीतर Darwin का इस्तेमाल कैसे होता है, इस पर अभी तक कुछ नहीं देखा
      Apfel एक शानदार project है, और Tahoe में upgrade करना चाहने की यही एकमात्र वजह थी
  • WWDC 2026 Core AI वीडियो
    Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
    Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
    Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/

  • यह PyTorch model को CPU, GPU, और Apple Neural Engine(ANE) पर चलने वाले format में बदलने का नया तरीका लगता है [0]
    सोच रहा हूँ क्या यह मौजूदा API Core ML को पूरी तरह replace करता है [1]
    [0]: https://apple.github.io/coreai-optimization/
    [1]: https://developer.apple.com/documentation/coreml/

    • हाँ। Core AI documentation के मुताबिक अगर app neural network के अलावा दूसरे model types, जैसे decision tree या tabular feature engineering, का उपयोग करता है तो Core ML देखना चाहिए
    • काफ़ी दिलचस्प है, लेकिन उदाहरण के लिए Metal के लिए optimized model को llama.cpp जैसी किसी चीज़ में load करके इस्तेमाल करने के मौजूदा तरीकों की तुलना में performance कैसी होगी, यह जानना दिलचस्प होगा
      unsloth इस तरह के काम को “battery included” रूप में उपलब्ध कराने का अच्छा उदाहरण है
    • लगता है Core ML को replace करने की कोशिश है, लेकिन अभी Core AI, Core ML, MLX और coremltools के बीच संबंध और उलझाने वाले हैं
      Apple को बेहतर तरीके से समझाना चाहिए कि हर एक के फायदे-नुकसान और feature parity कहाँ तक है
    • OS 27 या उससे ऊपर चाहिए, इसलिए backward compatibility की वजह से Core ML अभी भी उपयोगी है
  • जिन apps के downloads 20 लाख से कम हैं, उन्हें server-grade models तक मुफ़्त पहुँच और वही privacy guarantee दी जाएगी
    समय के साथ यह सभी apps तक फैल जाए तो अच्छा होगा। hardware/cost constraints होंगी, लेकिन बड़े developers शायद इसकी कीमत दे सकें
    https://developer.apple.com/private-cloud-compute/

    • Apple Intelligence Extensions के ज़िक्र से लगता है कि फ़िलहाल इसे बहुत व्यापक नहीं किया जाएगा, बल्कि इसकी जगह developers को दूसरे providers के साथ integrate करने दिया जाएगा जिनके साथ users के पहले से account हैं
  • AI का भविष्य स्पष्ट रूप से local है, और हाल में इसे “infinite tokens” के रूप में समझाया जा रहा है
    M1 MacBook Pro भी यह कर सकता है और RTX 3090 भी
    हर महीने सैकड़ों डॉलर देने की ज़रूरत नहीं है, और दूसरों पर भी यही बात लागू होती है

    • 1980 के दशक में भी computing का भविष्य साफ़ तौर पर local माना जाता था। घर के कंप्यूटर, PC, Mac, office servers (Novell, बाद में disk sharing वाले Windows NT) जैसी चीज़ें थीं
      40 साल बाद हम आधुनिक smart terminals जैसी centralized infrastructure पर वापस आ गए हैं
      AI का भविष्य भी आखिरकार उसी दिशा में जाएगा। शायद यह local और centralization के बीच आता-जाता रहेगा
      लेकिन अगर लोग local पर चलने वाली चीज़ें बेचकर पैसा कमा सकते हैं, तब भी ऐसा लगता है कि centralization ज़्यादा power और ज़्यादा पैसा पैदा करती है
    • अगर “infinite tokens” की सीमा 10 tokens per second है, तो यह एक महीने में 2.6 करोड़ tokens बनता है
    • असली पैसा मॉडल के आसपास का code लिखकर उसे specialized tasks के लिए efficient बनाने में है
      आम users general-purpose models चाहते हैं, इसलिए AI chat apps बने रहेंगे
      ज़्यादातर programs को local पर चलने वाले specialized AI से फायदा हो सकता है, और programs की संख्या users से कहीं ज़्यादा है
  • लगता है Apple activation values की तरफ भी काम कर रहा है। मेरी जानकारी के मुताबिक w4a8, w4a16 है
    अगर यह सही ढंग से कर लिया गया, और यह एक बड़ा assumption है, तो Apple की market reach को देखते हुए यह तय करने में बड़ा असर डाल सकता है कि 100 billion से कम parameters वाले models को कैसे train और serve किया जाए
    मुख्य उपयोग on-device होगा, और ज़्यादातर मामलों में इसकी संभावना iOS से ज़्यादा macOS पर है

  • मैंने अभी तक इसे कहीं खास तौर पर उभारा हुआ नहीं देखा, लेकिन Mac के बीच distributed inference दिलचस्प है। इसमें Thunderbolt 5 पर JACCL, OpenAI-compatible mlx_lm.server, और Mac पर agent-style execution शामिल हैं
    Apple, MLX (direct weight import) को Foundation Models / Core AI से अलग रख रहा है

  • AI कंपनियाँ listing के लिए इतनी जल्दी इसी वजह से कर रही हैं
    अगले साल के अंत तक ज़्यादातर AI सीधे devices पर चलने लगेगा
    उनके पास कोई moat नहीं है, वे scaling limits तक पहुँच चुके हैं, जो कुछ जादू जैसा दिखता है उसका ज़्यादातर हिस्सा छोटे models में distill किया जा सकता है, और वे खुद भी यह जानते हैं

    • Qwen का 30B-स्तर का model वास्तव में काफ़ी उपयोगी है, अगर आपके पास ऐसी machine हो जिसमें memory bandwidth इतना हो कि वह 30~90 tokens per second चला सके
      Qwen ने 120B-स्तर का model जारी करना बंद कर दिया, यह बहुत अर्थपूर्ण है
      अगले 10 साल में, शायद 3 साल में, कोई न कोई ऐसा 256B model निकालेगा जो Opus 4.5 स्तर का होगा और local पर चल सकेगा
      अभी हमारे engineers Opus tokens पर लगभग $800 प्रति माह खर्च कर रहे हैं, और उस दर पर local LLM का payback period लगभग 10 महीने है
    • क्या हम सचमुच scaling limits तक पहुँच गए हैं, यह मुझे नहीं पता
      अफ़सोस की बात है कि बड़े models अब भी बेहतर models ही लगते हैं
    • coding के क्षेत्र में शायद 35B, 70B, 150B models कुछ सौ से कुछ हज़ार डॉलर की one-time payment पर बेचे जाएँगे, और 1 साल तक हर महीने या हर दो महीने में नए coding docs और repositories पर trained updates दिए जाएँगे
    • बहुत बढ़िया, उनकी गला-घोंटू पकड़ खत्म हो गई। क्रांति ज़िंदाबाद!
    • मुझे बस एक बहुत छोटा model चाहिए जो device पर चले। जैसे, autocomplete में यह समझ सके कि मैं “I'll be right Brian” नहीं बल्कि “I'll be right back” लिखना चाहता हूँ
      अभी मेरी सबसे बड़ी AI request यही है। प्लीज़, Apple
  • सोच रहा हूँ कि Linux पर भी ऐसा कुछ है या नहीं
    उदाहरण के लिए, अगर आप application developer हैं, तो क्या आप यह मान सकते हैं कि kernel किसी खास version से ऊपर होने पर GNU Core AI जैसी कोई चीज़ मौजूद होगी?

    • Apple के अलावा दूसरी platforms पर आम तौर पर आपको support किए जाने वाले silicon vendors की संख्या से 2 या उससे ज़्यादा अधिक AI frameworks की चिंता करनी पड़ती है
      अब Apple भी शायद Core ML, MLX, और Core AI के बीच उसी स्थिति में आ गया है
      framework fragmentation की समस्या जल्द खत्म होती नहीं दिखती
      NVIDIA चाहता है कि training और inference सभी CUDA पर करें, और वह इस बात से इनकार करना चाहता है कि NPU उपयोगी हैं
      NPU बनाने वाली हर कंपनी के पास अपनी architecture और LLM से पहले डिज़ाइन किए गए hardware से मिली सीमाओं के मुताबिक अलग framework है। ज़्यादातर के पास GPU को target करने वाला एक और framework भी है
      OS vendors के पास भी आम तौर पर एक-दो ऐसे frameworks होते हैं जिन्हें वे hardware-specific frameworks की जगह इस्तेमाल होते देखना चाहते हैं
    • व्यावहारिक रूप से llama.cpp यह भूमिका निभाता है। आप इसे link करके इस्तेमाल कर सकते हैं या network API इस्तेमाल कर सकते हैं
    • नहीं। लेकिन Red Hat और IBM अपनी distributions के लिए ऐसा कर रहे हैं
    • onnxruntime, llama.cpp, और ज़्यादा विशेष रूप से ggml है, और iree.dev भी कोशिश कर रहा है
  • सोच रहा हूँ कि क्या इसका मतलब है कि ANE पर मनचाही चीज़ चलाई जा सकती है
    पिछली बार जब मैंने कोशिश की थी, तब यह सिर्फ Face ID जैसी Apple first-party features के लिए इस्तेमाल होने जैसा लगा था

    • अगर model को Core ML में convert कर दें, तो यह पहले से किया जा सकता था
      MLX ही वह चीज़ थी जो ANE का बिल्कुल उपयोग नहीं कर सकती थी
    • कई सालों से Core ML के साथ ऐसा किया जा रहा है