3 पॉइंट द्वारा GN⁺ 2026-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google का open source model Gemma 4 अब iPhone पर इंटरनेट कनेक्शन के बिना native रूप से चल सकता है और पूरी तरह offline inference कर सकता है
  • Gemma 4 का 31B model, Qwen 3.5 के 27B model के समान प्रदर्शन दिखाता है, जबकि इसके parameters लगभग 4 अरब अधिक हैं
  • E2B·E4B variants speed और heat control के लिए optimized mobile models हैं, और Google app डिफ़ॉल्ट रूप से E2B के उपयोग की सिफारिश करता है
  • यूज़र Google AI Edge Gallery app के ज़रिए model चुन सकते हैं और API या cloud के बिना device पर inference चला सकते हैं
  • यह रन on-device AI की वास्तविकता को दिखाता है और edge AI ecosystem के विस्तार में एक महत्वपूर्ण milestone माना जा रहा है

iPhone पर Google Gemma 4 का on-device रन

  • Google का open source model Gemma 4 iPhone पर पूरी तरह offline inference को सपोर्ट करता है और native रूप से काम करता है
    • इंटरनेट कनेक्शन के बिना local inference संभव है
    • edge AI deployment अब भविष्य की चुनौती नहीं, बल्कि वर्तमान में चल रही तकनीकी वास्तविकता बन चुका है
  • performance comparison में Gemma 4 का 31B variant, Qwen 3.5 के 27B model के समान स्तर पर आंका गया
    • Gemma में लगभग 4 अरब अधिक parameters हैं
    • दोनों models की अलग-अलग tasks में अपनी ताकत है, इसलिए कोई पूर्ण बढ़त नहीं है
  • mobile-optimized models E2B और E4B variants पर खास ध्यान है
    • efficiency को प्राथमिकता देते हुए ये speed, हल्केपन और heat control में लाभ देते हैं
    • Google का app डिफ़ॉल्ट रूप से E2B उपयोग की सिफारिश करता है
  • Google AI Edge Gallery app को App Store से डाउनलोड करके तुरंत चलाया जा सकता है
    • यूज़र model variant चुनकर device पर सीधे inference चला सकते हैं
    • API calls या cloud dependency नहीं है
  • यह app साधारण text interface से आगे बढ़कर image recognition, voice interaction और expandable Skills framework भी शामिल करता है
    • इसे on-device AI experiment platform के रूप में डिज़ाइन किया गया है, जिसका उपयोग developers और advanced users कर सकते हैं

तकनीकी संरचना और प्रदर्शन

  • Gemma 4, iPhone के GPU के माध्यम से inference path का उपयोग करता है
    • response latency बहुत कम है, जिससे यह साबित होता है कि consumer hardware पर भी high-performance AI workloads संभाले जा सकते हैं
    • इसे local AI deployment के commercial उपयोग की संभावना दिखाने वाले प्रमुख उदाहरण के रूप में देखा जा रहा है
  • offline capability enterprise environments में उपयोगिता को काफी बढ़ाती है
    • field operations, medical environments और data privacy-sensitive क्षेत्रों में cloud पर निर्भर हुए बिना इसका उपयोग किया जा सकता है

महत्व और आगे की दिशा

  • iPhone पर Gemma 4 का चलना सिर्फ एक तकनीकी प्रदर्शन नहीं, बल्कि on-device AI युग के आगमन का प्रतीक है
    • Google, Gemma के माध्यम से edge AI ecosystem के विस्तार को गंभीरता से आगे बढ़ा रहा है
    • “Gemma बोतल से बाहर आ चुका है” जैसी अभिव्यक्ति की तरह, AI के local होने की दिशा में बदलाव पहले ही शुरू हो चुका है

1 टिप्पणियां

 
GN⁺ 2026-04-17
Hacker News राय
  • लेखन शैली ऐसी लगी जैसे LLM ने लिखी हो
    “It’s not mere X — it’s Y” जैसे पैटर्न कई बार दोहराए गए थे

    • इस बात पर मज़ाक किया गया कि “gizmoweek dot com” के नैतिक मानकों पर शक करना भी अविश्वसनीय है
    • लेखक इंसान हो या LLM, उससे फ़र्क नहीं पड़ता। असली समस्या विस्तृत जानकारी की कमी है। iPhone मॉडल बेंचमार्क भी नहीं हैं, और सामग्री लगभग खाली है
    • Claude, Grok आदि कई मॉडलों से चलाकर देखा, और सबने content farm जैसी खास समस्याएँ बताईं, जैसे स्रोतों का अभाव और दोहराव वाले वाक्य। यहाँ तक कि यह भी साबित नहीं हो पाया कि लेखक सचमुच मौजूद व्यक्ति है
    • “:v” इमोजी देखकर लंबे समय बाद millennial पीढ़ी मिल जाने जैसी खुशी जताई गई
    • ऐसा लगा जैसे AI हमें खास भाषा पैटर्न से बचने के लिए प्रशिक्षित कर रहा हो। कहा गया कि कमजोर भाषा का बंधक नहीं बनना चाहते
  • पता चला कि inference Apple Neural Engine के बजाय GPU के जरिए चल रहा है
    लगता है Google इंजीनियरों ने Apple के मालिकाना tensor block के लिए custom kernel compile करना छोड़ दिया। Metal को port करना आसान है, लेकिन बैटरी ज़्यादा खपत होती है। ANE backend दोबारा लिखे जाने तक यह सिर्फ एक तकनीकी demo जैसा है

    • ANE, LLM चलाने के लिए व्यावहारिक रूप से उपयुक्त नहीं है। LLM ecosystem CPU/GPU-केंद्रित रूप में standardize हो चुका है, और Apple के MLX में भी ANE support नहीं है
    • कुछ महीनों बाद WWDC में CoreML की जगह लेने वाला Core AI framework घोषित हो सकता है, ऐसा 9to5mac लेख का हवाला देते हुए उम्मीद जताई गई
    • ANE तभी कुशल होता है जब कम से कम 128 vector units में batching हो। token generation के लिए यह अक्षम है, लेकिन Flash-MoE और DFlash जैसी नई तकनीकों की वजह से पहले से ज़्यादा आशावाद है
    • power consumption ठीक है, लेकिन 24/7 background listening जैसी सुविधाएँ privacy control के कारण पसंद नहीं आईं
    • Android का AI Edge Gallery app भी सिर्फ GPU का उपयोग करता है। यह Apple के tensor block की समस्या कम और Google की समग्र लापरवाही ज़्यादा लगती है
  • Gemma 4 से offline coding app (pucky) बनाकर iPhone पर चलाया गया
    GitHub लिंक देखें। 4B model भी चल सकता है, लेकिन memory constraints के कारण default रूप से 2B इस्तेमाल होता है। यह TypeScript single file बनाकर oxc से compile करता है। App Store review पार करना मुश्किल है, इसलिए सीधे Xcode से build करना पड़ता है

    • पिछले HN thread का हवाला देते हुए React Native की जगह Swift आज़माने का सुझाव दिया गया
  • लगता है Apple App Store में local LLM को सीमित कर रहा है। कहा गया कि ऐप को सीधे distribute करने की कोशिश में 2.5.2 clause अड़ गया

    • अनुमान लगाया गया कि Apple LLM से जुड़े नियम और कड़े करेगा। अगर यूज़र खुद ऐप बना पाएँगे, तो Apple के business model को ख़तरा हो सकता है
    • लेकिन नियम एक जैसे लागू नहीं हो रहे। उनके फ़ोन पर पहले से Google Edge Gallery और Locally AI ठीक से चल रहे हैं
    • App Store guideline 2.5.2 का पूरा पाठ उद्धृत करते हुए पूछा गया कि local LLM आखिर इसमें क्यों फँस रहा है
    • उनके ऐप में ANE-optimized LLM था और वह पूरी तरह offline चलता था, फिर भी review एक ही दिन में पास हो गया। विश्लेषण यह था कि Apple शायद AI spam apps को छाँटना चाहता है। MacRumors लेख का भी उल्लेख किया गया
    • पूछा गया कि क्या Cactus Compute से जुड़े apps भी यही समस्या झेल रहे हैं
  • संबंधित thread के रूप में Gemma 4 on iPhone साझा किया गया

  • iPhone 16 Plus पर स्पीड बहुत तेज़ है, लेकिन लंबे message में अचानक बहुत धीमी हो जाती है। कहा गया कि यह thermal throttling नहीं है। diagnostic data देखना चाहा गया

    • LLM inference की complexity O(tokens²) होती है, इसलिए लंबाई के साथ धीमा होना स्वाभाविक है
  • Gemma 4 वाले Edge Gallery iOS app की उम्मीद थी, लेकिन intents access restrictions और web search के लिए custom plugin की ज़रूरत जैसी बातों से असुविधा हुई। ChatMCP API-आधारित है, इसलिए कुछ हद तक उपयोगी लगा

  • iPhone 16 Pro पर Google AI Edge Gallery install करके benchmark चलाया गया
    GPU के आधार पर Prefill 231t/s, Decode 16t/s, first token तक 1.16 सेकंड, initialization 20 सेकंड का परिणाम साझा किया गया

  • छोटे model इस्तेमाल करते समय सावधानी ज़रूरी है
    “क्या कुत्ता avocado खा सकता है?” इस सवाल पर इसने पूरे आत्मविश्वास से ‘Yes’ कहा। मॉडल की सीमाएँ समझनी चाहिए

    • मज़ाक में जवाब आया, “तकनीकी रूप से खा तो सकता है…”
  • offline होने के बावजूद शक जताया गया कि Google input data या device information इकट्ठा करेगा

    • GitHub source देखने पर पता चलता है कि message contents इकट्ठा नहीं किए जाते, लेकिन model usage statistics रिकॉर्ड होते हैं
    • Google के internal training material में काल्पनिक ‘gShoe’ product का उदाहरण देकर data collection की privacy समस्या समझाई जाती है, यह दिलचस्प किस्सा भी साझा किया गया
    • यह भी कहा गया कि Apple, Google को 1 अरब डॉलर का भुगतान करते हुए on-device AI strategy आगे बढ़ा रहा है, और यह उसका preview हो सकता है