Windows ML आधिकारिक रूप से जारी: Windows डिवाइसों में लोकल AI को स्केल करने के लिए सपोर्ट

(blogs.windows.com)

4 पॉइंट द्वारा GN⁺ 2025-09-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Windows ML अब आधिकारिक रूप से उपलब्ध है, जो CPU·GPU·NPU पर on-device inference और model·dependency management को standardize करके production environment deployment की efficiency बेहतर बनाता है
cloud और client को जोड़ने वाले hybrid AI प्रवाह में Windows 11, लोकल inference के लिए OS स्तर पर unified AI runtime प्रदान करता है
ONNX Runtime compatibility और Execution Provider(EP) की automatic distribution के जरिए hardware-विशिष्ट optimization को abstract किया जाता है, साथ ही app size reduction और incremental updates को सपोर्ट मिलता है
AMD·Intel·NVIDIA·Qualcomm के साथ सहयोग में, हर vendor के EP को Windows deploy·register करता है, और power/performance के लिए device policy targeting जैसी fine-grained targeting उपलब्ध कराता है
यह Windows App SDK 1.8.1+ और Windows 11 24H2 या उससे ऊपर में built-in उपलब्ध है, और AI Toolkit for VS Code·AI Dev Gallery जैसे tools onboarding को सरल बनाते हैं

अवलोकन: Windows ML का लक्ष्य और स्थान

Windows ML, Windows 11 में built-in on-device AI inference runtime है, जिसका लक्ष्य hybrid AI युग के लिए local inference की standard layer बनना है
- यह Windows AI Foundry की foundation layer के रूप में काम करता है, और Foundry Local के जरिए expanded silicon support देता है
- इसका उद्देश्य cloud cost·latency·privacy issues को कम करना और real-time·security·efficiency पर केंद्रित user experience देना है

runtime संरचना: ONNX·EP·distribution model

ONNX Runtime(ORT) compatibility के कारण मौजूदा ORT API और workflow को वैसे ही इस्तेमाल किया जा सकता है
- Windows, ORT और Execution Provider की deployment·maintenance संभालता है, इसलिए इन्हें app में bundle करने की जरूरत नहीं रहती
- EP, runtime और silicon के बीच optimization bridge का काम करता है; इसे हर vendor विकसित और maintain करता है, जबकि Windows इसे dynamic download/registration के जरिए उपलब्ध कराता है
infrastructure API के रूप में deployment simplification·overhead reduction·compatibility retention के तीन लाभ दिए जाते हैं
- डिवाइस के अनुरूप EP को automatically detect और install करके दर्जनों से सैकड़ों MB तक app size reduction का प्रभाव मिलता है
- certification·compliance process के जरिए builds के बीच accuracy retention बनाए रखने और continuous updates को शामिल करने का लक्ष्य है
Advanced Silicon Targeting के साथ NPU(low power)·GPU(high performance) जैसे device policy निर्धारित किए जा सकते हैं
- model AOT(advance compilation) विकल्प के जरिए end-user experience को और सरल बनाने का विकल्प भी मिलता है

silicon partner optimization

AMD: Ryzen AI लाइनअप में Windows ML integration, NPU·GPU·CPU के लिए Vitis AI EP आधारित acceleration, और scalable local AI experience पर फोकस
Intel: OpenVINO से जुड़े EP के जरिए XPU selection optimization(CPU·GPU·NPU), और Core Ultra आधारित PC में efficiency·performance सुधारने का लक्ष्य
NVIDIA: TensorRT for RTX EP के जरिए RTX GPU के लिए विशेष Tensor Core library का उपयोग, और device-specific optimized inference engine का निर्माण
- DirectML की तुलना में 50%+ faster inference का दावा, और 100M+ Windows RTX devices को target करने वाली आसान deployment पर जोर
Qualcomm Technologies: Snapdragon X Series में QNN EP के जरिए NPU acceleration, और ORT integration के साथ GPU·CPU path का भी समर्थन
- Copilot+ PC और अगली पीढ़ी के Snapdragon X2 तक unified framework को विस्तार देने की मंशा

ecosystem adoption examples

Adobe Premiere Pro / After Effects: लोकल NPU आधारित media search·audio tagging·scene detection acceleration, और आगे on-device models को Windows ML पर धीरे-धीरे migrate करने की योजना
BUFFERZONE: real-time web page analysis के जरिए phishing/scam prevention, और ऐसा security scenario जिसमें sensitive data को cloud पर भेजने की जरूरत नहीं
Reincubate Camo: image segmentation जैसी real-time vision के जरिए video quality enhancement, और सभी silicon के NPU path का उपयोग
Dot Vista (Dot Inc.): hands-free voice control·OCR को medical environment जैसे accessibility scenarios में लागू करना, और Copilot+ PC NPU का उपयोग
Wondershare Filmora: Body Effects(Lightning Twined, Neon Ring आदि) की real-time preview·application को AMD·Intel·Qualcomm NPU के लिए optimize किया गया
McAfee: deepfake·scam detection के लिए local inference का उपयोग, और social network environment में response capability को मजबूत करना
Topaz Photo: sharpening·focus restoration जैसी professional-grade AI photo enhancement capabilities को local inference के साथ प्रदान करना

developer tools और onboarding

AI Toolkit for VS Code के जरिए PyTorch→ONNX conversion, quantization·optimization·compilation·evaluation को एकीकृत रूप से सपोर्ट किया जाता है
- Windows ML target के लिए single build दृष्टिकोण अपनाकर multi-target branching logic को कम करने का प्रयास
AI Dev Gallery में custom model samples को interactive रूप में आज़माया जा सकता है
- यह local model आधारित AI scenario exploration और rapid prototyping के लिए उपयुक्त workspace देता है

शुरुआत की शर्तें और deployment target

Windows App SDK 1.8.1+ में Windows ML शामिल है, और Windows 11 24H2 या उससे ऊपर वाले devices समर्थित हैं
- नवीनतम Windows App SDK पर update करने के बाद Windows ML API call → ONNX model load → inference start का सरल path उपलब्ध है
- विस्तृत documentation·API·samples के लिए ms/TryWinML, ms/ai-dev-gallery path बताए गए हैं

तकनीकी महत्व और संकेत

OS, ORT·EP lifecycle management संभालता है, जिससे app model·lightweight inference logic पर ध्यान केंद्रित कर सकता है
- hardware fragmentation को absorb करने और performance·power optimization automation के जरिए development·deployment complexity को usability के स्तर पर कम किया जाता है
NPU-first design और GPU high-performance path दोनों देकर offline·privacy·cost आवश्यकताओं को पूरा करने वाली local AI foundation तैयार की जाती है
- vendor EP की characteristics·performance differences और Windows certification·compliance के जरिए accuracy consistency पाने वाला operational model प्रस्तुत किया गया है
ecosystem स्तर पर video·security·accessibility·creative domains के प्रमुख apps के अपनाने से on-device AI in the Windows ecosystem के तेज़ विस्तार की संभावना है
- developers के लिए model preparation(conversion·quantization) → EP policy setting → deployment automation वाली pipeline से productization speed बढ़ने की उम्मीद है

ध्यान देने योग्य सीमाएँ

EP optimization quality और device-specific performance/accuracy variation का प्रबंधन एक प्रमुख चुनौती है
- model AOT और dynamic EP distribution की cache·update strategy, तथा compatibility retention के अनुसार release management की जरूरत होगी
मौजूदा DirectML·vendor SDK·cross-platform runtime के साथ overlap·role separation की सीमारेखा architecture decision-making में महत्वपूर्ण factor बनेगी
- multi-OS target product lineup के मामले में common inference core vs. Windows-specific path का trade-off देखना होगा

निष्कर्ष

Windows ML की आधिकारिक उपलब्धता, Windows 11 को local AI के default execution environment के रूप में विकसित करने की दिशा में एक महत्वपूर्ण चरण है
- hardware abstraction·deployment automation·tool integration के जरिए productization barriers कम होते हैं, और NPU/GPU utilization maximization से responsiveness·privacy·cost efficiency मजबूत होती है
- जैसे-जैसे प्रमुख apps का adoption और vendor EP optimization साथ बढ़ेंगे, Windows ecosystem में on-device AI के तेज़ी से विस्तार की संभावना है

1 टिप्पणियां

GN⁺ 2025-09-28

Hacker News राय

Ollama की शुरुआत “लोकल में मॉडल को आसानी से चलाने” वाली open source दिशा से हुई थी, लेकिन हाल में paid web search जैसी सुविधाएँ जोड़कर इसका दायरा बढ़ा है और ऐसा लगता है कि इसकी वह मूल सादगी कुछ धुंधली हो गई है। इसके उलट Windows ML गहरे OS integration की ओर बढ़ता है, लेकिन सिर्फ Windows ecosystem तक सीमित होने के कारण यह DirectX की याद दिलाता है। अब अहम सवाल यह है कि vLLM/ONNX या सीधे CUDA/ROCm पर चलाने के अलावा क्या और विकल्प होंगे, या फिर क्या यह अंततः बस एक और vendor lock-in के बदले दूसरे vendor lock-in को अपनाने जैसा है
- Ollama, LLM (large language model) पर फोकस करता है। लेख में बताए गए Topaz Labs के Topaz Photo जैसे image upscaling के अलग-अलग उदाहरणों को देखें तो यह समझना ज़रूरी है कि इस तकनीक की दिशा अलग है
Windows app के नज़रिये से System ONNX काफ़ी आकर्षक हो सकता है, लेकिन यह इस धारणा पर टिका है कि backend ज़्यादातर सिस्टम पर भरोसेमंद तरीके से काम करे। उदाहरण के लिए AMD के मामले में ROCm, MIGraphX, Vitis जैसी 3 options हैं, लेकिन इनमें से किसी को भी मैंने कभी ठीक से चलता हुआ नहीं देखा। चूँकि अब MIGraphX पर experimental का लेबल नहीं है, इसलिए इसे एक बार फिर आज़माने का सोच रहा हूँ
यह जानने की उत्सुकता है कि Windows ML और Ollama+लोकल LLM download वाले तरीके में, वास्तव में तुलना करने पर कौन ज़्यादा सरल है। खासकर Windows ML इस्तेमाल करने पर privacy के लिहाज़ से कितनी personal information Microsoft को भेजी जाती है, यह भी सवाल है
- Windows ML, लोकल LLM models को CPU, GPU, NPU जैसे अलग-अलग hardware पर इस्तेमाल करने के लिए code को abstract करता है ताकि वह किसी खास hardware पर निर्भर न रहे। यह तकनीक पुराने DirectML (DirectX for ML) का विकसित रूप है
- Ollama, NPU को support नहीं करता
यह सवाल है कि custom layers, खासकर (flash) attention जैसी चीज़ों के कई versions जिन्हें बहुत-सी कंपनियाँ अपनाती हैं, उनका support कैसे होगा। अगर MS runtime में वह सुविधा implement करने तक इंतज़ार करना पड़े, तो क्या तब तक कुछ models चल ही नहीं पाएँगे या केवल उनके modified versions ही इस्तेमाल करने पड़ेंगे
“Windows ML ऑन-डिवाइस model inference के लिए optimized built-in AI inference runtime है, जो नए और अनुभवी दोनों तरह के developers के लिए AI-आधारित apps बनाना आसान करता है” — इस विवरण को देखें तो यह घोषणा Apple की हाल की उस घोषणा से काफ़ी मिलती-जुलती लगती है जिसमें कहा गया था कि “Apple Intelligence के core, on-device LLM access, को सभी developers के लिए खोल दिया जाएगा”
Apple द्वारा हाल में घोषित नई Apple Intelligence सुविधाओं के साथ मिलाकर देखें तो लगता है कि अंततः किसी भी device पर developers और consumers दोनों privacy-केंद्रित apps बना और इस्तेमाल कर सकेंगे, इसलिए यह win-win है
- यह Windows ML, Direct ML का evolved form है। पुराने DirectX की तरह C++-केंद्रित रहने की समस्या को ध्यान में रखते हुए, C#, C++, Python को भी WinRT projection के ज़रिये इस नए API के ऊपर इस्तेमाल किया जा सकेगा
- मैं इसे वही बात नहीं मानता। इस Windows ML घोषणा का मुख्य बिंदु ज़्यादा करीब है: “आप सभी models चला सकते हैं”

Windows ML आधिकारिक रूप से जारी: Windows डिवाइसों में लोकल AI को स्केल करने के लिए सपोर्ट

अवलोकन: Windows ML का लक्ष्य और स्थान

runtime संरचना: ONNX·EP·distribution model

silicon partner optimization

ecosystem adoption examples

developer tools और onboarding

शुरुआत की शर्तें और deployment target

तकनीकी महत्व और संकेत

ध्यान देने योग्य सीमाएँ

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय