- Google AI Edge मोबाइल, वेब और embedded devices में AI model deployment को आसान बनाता है
- एकीकृत cross-platform framework के साथ Android, iOS, वेब और embedded environments में एक ही मॉडल चलाया जा सकता है
- यह कई machine learning frameworks (JAX, Keras, PyTorch, TensorFlow) के साथ compatibility प्रदान करता है
- model conversion visualization, debugging और custom pipeline निर्माण जैसे advanced developer tools उपलब्ध कराता है
- Gemini Nano जैसे on-device generative AI environments का उपयोग Android और Chrome platforms पर किया जा सकता है
Google AI Edge परिचय
- Google AI Edge on-device और cross-platform AI deployment के लिए एक solution है
- यह एक ऐसा platform है जो मोबाइल, वेब, embedded application environments सहित कई platforms पर AI models को कुशलतापूर्वक deploy और run करने देता है.
मुख्य विशेषताएं
- डिवाइस के भीतर संग्रहण: data लोकल और निजी रहता है, जिससे latency कम होती है और offline operation समर्थित होता है
- Cross-platform support: Android, iOS, वेब और embedded environments में एक ही मॉडल को चलाना संभव है
- Multi-framework compatibility: JAX, Keras, PyTorch, TensorFlow आदि कई machine learning frameworks के साथ compatibility प्रदान करता है
- पूर्ण AI edge stack: flexible frameworks, turnkey solutions और hardware accelerators के लिए एकीकृत support देता है
तैयार solutions और flexible frameworks
सामान्य AI tasks के लिए low-code API
- generative AI, vision, text, audio जैसे सामान्य AI tasks को आसानी से संभालने के लिए low-code cross-platform API प्रदान करता है
- MediaPipe-आधारित solutions के कारण तेजी से शुरुआत और लागू करना संभव है
custom models का cross-platform deployment
- JAX, Keras, PyTorch, TensorFlow आदि से train किए गए मौजूदा AI models को Android, iOS, वेब और embedded devices पर high performance के साथ चलाया जा सकता है
- LiteRT support के जरिए operational efficiency और deployment convenience मिलती है
model conversion और visualization tools
- मॉडल के conversion और quantization process को visualize करने की सुविधा देता है
- performance benchmark overlay के जरिए AI projects में hotspot debugging संभव है
customized ML pipeline बनाना
- pre-processing और post-processing logic सहित कई ML models को chain करके जटिल functional pipelines बनाई जा सकती हैं
- GPU और NPU आधारित accelerated pipelines को CPU से बिना block हुए चलाया जा सकता है
Android और Chrome में Gemini Nano
- Google के नवीनतम on-device generative AI model Gemini Nano के माध्यम से Android और Chrome जैसे कई environments में generative AI features जोड़े जा सकते हैं
निष्कर्ष
- Google AI Edge distributed, on-device AI technology deployment के लिए एक मजबूत विकल्प है.
- cross-platform compatibility, कई frameworks का support, developer productivity tools और नवीनतम generative AI environment के साथ यह startup और IT developer community को अधिक कुशल और शक्तिशाली AI adoption experience देता है.
1 टिप्पणियां
Hacker News राय
मेरी राय में, tensorflow lite और mediapipe का कॉम्बिनेशन एक समय बहुत अच्छा था, लेकिन पिछले 3 सालों में ऐसा लगा कि Google ने इसे लगभग छोड़ ही दिया। Mediapipe में कोई खास अपडेट नहीं आए, और जो मॉडल ज़्यादा इस्तेमाल होते हैं वे भी अक्सर पुराने या धीमे हैं। TF Lite ने Apple ANU जैसे NPU के लिए सपोर्ट दिया था, लेकिन mediapipe में इसका कोई सपोर्ट नहीं था। और MLKit, Firebase ML, TF lite, LiteRT जैसी ब्रांडिंग भी बहुत बिखरी हुई थी। अब मुझे लगता है कि hugging face transformers या transformers.js लाइब्रेरी के साथ onnxruntime इस्तेमाल करना, या फिर executorch के mature होने का इंतज़ार करना बेहतर विकल्प है। मैंने शायद ही कभी ऐसे नए SOTA मॉडल देखे हों जो आधिकारिक तौर पर tensorflow lite / liteRT पर port किए गए हों (SAM2, EfficientSAM, EdgeSAM, DFINE, DEIM, Whisper, Lite-Whisper, Kokoro, DepthAnythingV2 आदि); ज़्यादातर चीज़ें मूल रूप से pytorch-केंद्रित हैं, लेकिन ONNX और MLX कम्युनिटी अभी भी बड़ी है
https://github.com/google-ai-edge/gallery पर आप ऐसे ML/GenAI use cases की gallery देख सकते हैं जो सीधे डिवाइस पर चलते हैं। वहीं मॉडल को लोकली आज़मा या इस्तेमाल भी किया जा सकता है
on-device ML के लिए समाधान बढ़ रहे हैं, यह अपने आप में अच्छी बात है। लेकिन अगर यह मेरे किसी खास use case के लिए न हो, तो मैं इसे तुरंत अपनाऊँगा या नहीं, इस पर संदेह है। यह भी समझना मुश्किल है कि मनचाहे input और output वाले नए मॉडल को जोड़ना कितना कठिन होगा। अलग-अलग डिवाइसों पर मॉडल inference के लिए मैं Onnx इस्तेमाल करता रहा हूँ, और Onnx सच में low-level है, इसलिए आप लगभग कोई भी weights लगा सकते हैं। कई कामों में transformers.js, Onnx के ऊपर wrapper की तरह काम कर सकता है, जिससे decoding जैसी दोहराई जाने वाली चीज़ें छोड़ सकते हैं (जैसे beam search खुद implement करने की ज़रूरत नहीं पड़ती)। ऊपर बताए गए guide जैसा, लेकिन उससे अधिक व्यापक resource है https://github.com/huggingface/transformers.js-examples। जिन अलग-अलग समाधानों का मैंने ज़िक्र किया, वे https://ai.google.dev/edge/mediapipe/solutions/guide पर देखे जा सकते हैं
यह TensorFlow Lite + MediaPipe को नए “ब्रांड” के रूप में दोबारा पैक करना है
क्या किसी ने इस solution के साथ काम किया है? मैंने custom pytorch मॉडल को coreml में export करने में काफ़ी समय बर्बाद किया, और बहुत सी चीज़ें unsupported थीं, segfault आते थे, बार-बार क्रैश होता था, और कई बचकानी errors ने परेशान किया। काश कोई भरोसा दिलाए कि यह solution उतना कठिन नहीं होगा
मैंने इसे सीधे टेस्ट किया, और मेरी समझ में यह मूलतः pure pytorch मॉडल को .tflite मॉडल में फिर से बनाने के लिए था। मेरे मामले में मैंने इसे custom finbert मॉडल पर लागू किया, लेकिन मॉडल का आकार लगभग वैसा ही रहा। मैंने quantized version convert किया, लेकिन output काफ़ी अलग था। दस्तावेज़ों से मुझे याद है कि यह standard pytorch मॉडल, जैसे torchvision.models परिवार, के लिए ज़्यादा अनुकूल था। इसलिए अगर आपका मॉडल उसी तरह का है तो शायद बेहतर नतीजे मिलें। ध्यान रहे, मैंने यह करीब 1 साल पहले आज़माया था, इसलिए हो सकता है कि मैं किसी बड़े bug patch से पहले ही बच गया होऊँ
यहाँ अधिक जानकारी है https://ai.google.dev/edge/mediapipe/solutions/guide और open source लिंक है https://github.com/google-ai-edge/mediapipe। मेरी नज़र में यह वास्तव में डिवाइस (edge) पर चलने वाले AI मॉडल deploy करने का एक unified तरीका है। शायद इसे “AI stack का JavaScript” जैसी स्थिति में रखा जा सकता है। मैं जानना चाहता हूँ कि इस तकनीक का target user कौन है
mediapipe के कुछ मॉडल काफ़ी उपयोगी हैं, लेकिन mediapipe खुद 2019 के आसपास से मौजूद पुरानी तकनीक है। इसका फोकस हमेशा edge पर AI चलाने, खासकर vision AI (जैसे face tracking) पर रहा है। face tracking जैसी चीज़ें अब भी उपयोगी हैं, लेकिन image recognition वगैरह में दुनिया काफ़ी बदल चुकी है
target audience शायद वे लोग हैं जो cross-platform तरीके से ML मॉडल deploy करना चाहते हैं। खासकर तब, जब सिर्फ TFLite runtime से समस्या हल न हो और अतिरिक्त कोड सपोर्ट करना पड़े। LLM या computer vision जैसे use cases इसके लिए उपयुक्त हैं। उदाहरण के लिए, अगर आप hand gesture recognizer deploy करना चाहते हैं, तो प्रक्रिया कुछ ऐसी होगी: input image को किसी खास color space और size में preprocess करना, image को GPU पर copy करना, hand detection के लिए TFLite मॉडल चलाना, output resize करना, gesture recognition के लिए TFLite मॉडल चलाना, और valid result में postprocess करना। अगर इसे iOS और Android दोनों पर deploy करना हो, तो सिर्फ TFLite चलाने से कहीं ज़्यादा सहायक कोड लिखना पड़ता है। Mediapipe में Google का तरीका यह था कि इस तरह की pipeline और common processing nodes को C++ लाइब्रेरी के रूप में पैक कर दिया जाए और ज़रूरत के हिसाब से हिस्से चुने जाएँ। यह लाइब्रेरी cross-platform compile हो सकती है और GPU acceleration विकल्प भी देती है। मुझे लगता है कि Google के अंदर इस बात पर विचार हुआ होगा कि ऐसी क्षमताएँ TFLite runtime में जोड़ी जाएँ या Mediapipe जैसी अलग लाइब्रेरी बनाई जाए। अंततः दिशा शायद यह रही कि TFLite को “tensor computation” तक सीमित रखा जाए, और LLM या image processing जैसे व्यापक काम अलग लाइब्रेरी को सौंपे जाएँ
यह नया प्रोडक्ट है या मौजूदा MediaPipe तकनीकों को एक कहानी में बाँधने वाला कोई marketing page, यह स्पष्ट नहीं है। शुरू में मैं काफ़ी उत्साहित था, लेकिन “Google AI Edge” आखिर है क्या, इसे लेकर भ्रम हुआ। फिर खोजने पर लगा कि यह लगभग 2 साल पहले घोषित https://developers.googleblog.com/en/introducing-mediapipe-solutions-for-on-device-machine-learning/ का rebranding है
जो चीज़ें पहले से CoreML या TimyML जैसे framework के रूप में उपलब्ध हैं, उनकी तुलना में यह समाधान कुछ साल पीछे है। और Google को पहले यह दिखाना चाहिए कि अगली तिमाही के नतीजों की वजह से वह अपने products को तुरंत बंद नहीं कर देता
असल में यह सही नहीं है। दोनों products पूरी तरह अलग हैं। CoreML Apple ecosystem तक सीमित है, जहाँ आप PyTorch मॉडल को CoreML (.mlmodel) में convert करके iOS/Mac accelerators के साथ चला सकते हैं। Google Mediapipe एक बड़ा C++ लाइब्रेरी है जो cross-platform (ios/android/web) में ML flow चलाता है। इसमें Tensorflow Lite (अब LiteRT) भी शामिल है, और image resize जैसे सामान्य preprocessing काम भी कर सकता है, यानी यह graph processor की तरह है। Google के products जल्दी बंद करने वाला meme तो है, लेकिन Mediapipe open source है, इसलिए कम से कम यह बात माननी होगी। मैंने Mediapipe fork के साथ iOS/Android computer vision product बनाया है; यह बहुत जटिल था, लेकिन अच्छी तरह चला। यह ऐसी cross-platform solution है जो CoreML से कभी नहीं बन सकती
TensorFlow Lite पिछले कई वर्षों में अरबों डिवाइसों पर परखा जा चुका है। यह समाधान Mediapipe और उससे जुड़ी चीज़ों को साथ बाँधकर rebrand/expand किया हुआ लगता है। Google on-device ML में 5 साल से भी ज़्यादा समय से गंभीर निवेश कर रहा है, इसलिए यह नहीं लगता कि वह इसे अचानक बंद कर देगा। हाँ, नाम बार-बार बदलना निश्चित रूप से भ्रम पैदा करता है
क्या generative AI वाला हिस्सा Apple ecosystem में नहीं है? अगर Google जैसी चीज़ वहाँ आए, तो यह बहुत बड़ा बदलाव होगा। मुझे व्यक्तिगत रूप से chat-संबंधित features बहुत उपयोगी लगते हैं। और दिमाग में यही आता है कि Swift Assist आखिर कब आएगा
यह बस tensorflow lite का rebranding है। मैं 2019 से इसे edge device पर इस्तेमाल कर रहा हूँ। CoreML भी शानदार है
CoreML मूल रूप से Apple ने TensorFlow को देखकर, सहयोग करने के बजाय, वैसी ही क्षमता खुद बनाकर तैयार किया। TF उस समय CoreML की घोषणा से लगभग 2 साल पहले से मौजूद था और सफल framework था। आज भी CoreML असल में एक proprietary BLAS interface से ज़्यादा कुछ नहीं है, और उद्योग में व्यापक रूप से इस्तेमाल नहीं होता। iOS डेवलपर का नज़रिया सच में डरावना होता है
यह काम WebLLM से भी किया जा सकता है