Nvidia ने Windows PC के लिए एक बेहद शक्तिशाली CPU सिस्टम का प्रस्ताव रखा
(twitter.com/lemire)- NVIDIA के Windows PC के लिए इस हाई-परफॉर्मेंस सिस्टम में CPU·GPU मिलकर 128GB shared memory का उपयोग करते हैं और चिप कॉन्फ़िगरेशन में अधिकतम 6,144 CUDA cores मिलते हैं
- CPU में 10 performance cores और 10 efficiency cores हैं, और performance cores Cortex-X925 पर आधारित हैं; इसका SVE2 हाल के AMD chips से कमज़ोर है, लेकिन Apple Silicon से बेहतर स्तर का है
- मुख्य अंतर unified memory है, जिसमें CPU और GPU memory अलग नहीं होती; यह dedicated GPU memory से धीमी है, लेकिन local AI models चलाने के लिए ज़रूरी bandwidth और cost शर्तों को लक्ष्य बनाकर बनाई गई संरचना है
- local AI models चलाने की मांग अभी भी एक niche application मानी जाती है, वहीं यह भी दृष्टिकोण है कि 128GB shared memory छात्र-स्तर के प्रयोगों में peak GPU TFLOPs से अधिक महत्वपूर्ण हो सकती है
- तुलना के प्रमुख बिंदु AMD Strix Halo, Intel Xe3P AI GPU, और हाल के AMD processors का AVX-512 हैं; साथ ही soldered RAM के कारण बाद में अपग्रेड करना कठिन होने की सीमा भी है
सिस्टम स्पेसिफिकेशन और मेमोरी संरचना
- Nvidia द्वारा प्रस्तावित Windows PC CPU सिस्टम में 128GB shared memory और अधिकतम 6,144 नवीनतम CUDA cores वाला कॉन्फ़िगरेशन है
- CPU में 10 performance cores और 10 efficiency cores हैं, और performance cores Cortex-X925 पर आधारित हैं
- तुलना के अनुसार Cortex-X925 का SVE2, स्पेसिफिकेशन के हिसाब से, हाल के AMD chips से कमज़ोर लेकिन Apple Silicon से बेहतर है
- हाल के AMD processors सभी AVX-512 को support करते हैं, और तुलना यह है कि AVX-512, Cortex-X925 के SVE2 से काफ़ी बेहतर, अधिक data संभालने वाला और अधिक general-purpose है
- Intel अब तक consumer systems में AVX-512 देने को लेकर सावधान रहा है
- 128GB unified memory में CPU और GPU के लिए अलग memory की जगह एक single pool साझा किया जाता है, और यह वही संरचना है जिसे Apple ने कुछ साल पहले अपनाया था
- unified memory धीरे-धीरे लोकप्रिय हो रही है; यह dedicated GPU memory जितनी तेज़ नहीं है, लेकिन local AI models चलाने लायक पर्याप्त bandwidth किफ़ायती रूप से देने का लाभ रखती है
- unified RAM में CPU और GPU के बीच data भेजने की ज़रूरत नहीं पड़ती, और सब कुछ एक ही memory pool में होने से यह zero-copy operations जैसा महसूस होता है
- अब देखना यह है कि Intel और AMD इसका जवाब कैसे देते हैं
इस पर विभिन्न राय
- local AI models चलाने की मांग कितनी होगी, यह अभी अनिश्चित है, और यह अब भी एक niche application है
- एक राय यह है कि यह सिस्टम video games के लिए ठीक मशीन बन सकता है, जबकि दूसरी राय है कि यह gaming के लिए नहीं बल्कि बड़े models के लिए डिज़ाइन है, इसलिए यह उम्मीद जितना गेमिंग में अच्छा नहीं होगा
- दावा है कि छात्र-स्तर के प्रयोगों में 128GB shared memory, peak GPU TFLOPs से ज़्यादा महत्वपूर्ण हो सकती है, और इससे यह बदल सकता है कि कौन-से models और workloads को local पर आज़माया जा सकता है
- trade-off यह है कि RAM बाद में बदली नहीं जा सकती और सब कुछ soldered है
- memory capacity को लेकर राय है कि 128GB काफ़ी नहीं है और 256GB या 512GB चाहिए; AI work के लिए “beast” में कम से कम 512GB की ज़रूरत बताई गई, और कुछ लोग 1TB unified memory option भी चाहते हैं
- 128GB चुनने के कारण पर लेखक का छोटा जवाब था: "cost"
- operating system को लेकर “regular Windows” न चलाने का दावा भी है, साथ में OS को लेकर निराशा, और Linux install करने का सुझाव
- AMD Strix Halo, 128GB unified memory और बड़े iGPU वाला एक समान उत्पाद है, और desktop Zen 5 के AVX-512 के साथ एक तुलना-योग्य विकल्प भी
- AMD Strix Halo को कई महीनों तक local LLM homelab में उपयोग करने के अनुभव के अनुसार prosumer-grade LLM चलाए जा सकते हैं, लेकिन असली bottleneck memory bandwidth है
- नए Nvidia chip के लिए 300GB/s से अधिक memory bandwidth की आवश्यकता बताई गई
- RTX5090, अगर आपके पास पहले से desktop है, तो छोटे और तेज़ models के लिए अधिक सस्ता हो सकता है, जबकि यह board family बड़े local models के लिए अधिक उपयुक्त है
- local AI चलाने का फ़ायदा यह है कि secrets और customer data को ऐसे third party के पास नहीं भेजना पड़ता जिसकी accountability स्पष्ट न हो, SaaS subscriptions और token pricing से बचा जा सकता है, और local models PC उपयोग व्यवहार सीखकर काम चला सकते हैं
- local models उपयोगकर्ता को दिखे बिना features के रूप में काम कर सकते हैं, और जिन tasks में अधिक intelligence या अधिक context चाहिए, उन्हें remote पर offload किया जा सकता है
- मुख्य बात local model खुद नहीं, बल्कि integrated AI applications को support करने वाला software platform है, और यह desktop को प्रासंगिक बनाए रखने का एक तरीका है
- Google Chrome चलाना local AI use case हो सकता है; उदाहरण के तौर पर Chrome के built-in AI दस्तावेज़ का उल्लेख है
- Intel Xe3P AI GPU की तुलना में 160GB LPDDR5X, अधिकतम 480GB की संभावना, 640-bit memory interface, PCIe x16 कॉन्फ़िगरेशन शामिल हैं: https://tomshardware.com/pc-components/gpus/…
1 टिप्पणियां
Hacker News की राय
एकीकृत मेमोरी पूल खास तौर पर data center के बाहर की system architecture में आगे भी “game changer” बना रह सकता है
आधुनिक games या consumer workloads भी वास्तव में GPU की PCIe bandwidth या GDDR memory bandwidth का पूरा उपयोग नहीं करते, और local AI में भी औसत consumer के लिए तेज़ memory का लाभ इतना बड़ा नहीं होता
एकीकृत memory ज़रूरत के हिसाब से utilization को optimize करने देती है, GDDR/DDR allocation को अलग से सोचने की ज़रूरत नहीं रहती, और छोटे व portable devices में कुल memory cost कम कर सकती है
कमी security है; GPU या CPU side की memory side-channel attacks दूसरी तरफ भी असर डाल सकती हैं, इसलिए आगे memory-safe design महत्वपूर्ण होगा, और Rust समर्थकों के लिए यह अच्छी दिशा लगती है
games का मकसद hardware को saturate करना नहीं, बल्कि frame deadline के भीतर consistent output देना है
5090 को gaming से saturate करना चाहें भी तो target market छोटा है, और frame rate बनाए रखने के लिए users के असली specs को भी test machine जितना ठीक चलना चाहिए
मौजूदा generation consoles और मौजूदा generation PCs के बीच सबसे बड़े फ़र्कों में से एक एकीकृत memory है
99% workloads में system memory की ज़रूरत GPU memory से कम से कम एक order of magnitude ज़्यादा होती है, और ज़्यादातर systems को video·browsing जैसी चीज़ों के लिए ज़रूरत से ज़्यादा GPU memory की लगभग कोई आवश्यकता नहीं होती
नए use case आने से यह संरचना पूरी तरह उलट नहीं जाती; अगर अभी 128GB चाहिए और local AI को भी 128GB चाहिए, तो वही काम जारी रखने के लिए 256GB चाहिए होगा
बल्कि यह ज़्यादा इस तर्क के करीब लगता है कि GPU में इतनी महंगी memory लगानी ही नहीं चाहिए, और अगर सिर्फ inference करना है तो यह सही भी हो सकता है
एकीकृत memory architecture में काफ़ी performance छोड़नी पड़ती है; कुछ परिस्थितियों में यह समझ में आता है, लेकिन यह कोई universal solution नहीं है
local में AI model चलाने वाले लोग कितने होंगे, कहना मुश्किल है, और अभी यह niche जैसा लगता है, लेकिन हाल की Gemma release को देखें तो सिर्फ cost के नज़रिए से भी कुछ models को local में चलाने की संभावना बढ़ी है
company security को जोड़कर देखें तो और भी, लेकिन ऐसी architecture gaming के लिए क्यों अच्छी होगी यह स्पष्ट नहीं, इसलिए मूल वाक्य के पूरे दावे पर संदेह होता है
साथ ही “Stanford/Elsevier 2025 दुनिया के शीर्ष 2% वैज्ञानिक, GitHub के शीर्ष 1000 developers” जैसे वाक्य हर जगह लगाना उल्टा असर देने जैसा लगता है
इसे कई M5 MacBook पर deploy करके देखा है और कई tasks में यह वास्तव में उपयोगी रहा
यह Opus या मौजूदा Sonnet-स्तर के model को replace नहीं करता, लेकिन अपने size के हिसाब से चौंकाने वाला अच्छा है, और Sonnet 4 के समय के आसपास या उससे थोड़ा पहले के स्तर जैसा लगता है
tool calling, coding और agent tasks में यह Gemma models से कहीं ज़्यादा stable है, और खासकर MTP उपयोग पर और तेज़ है
दूसरे compute workloads की तरह economies of scale यहाँ क्यों लागू नहीं होंगी, यह समझ नहीं आता
लेखक के काम को कमतर नहीं दिखाना चाहता, लेकिन यह लेख सच में गहराई से देखने के बजाय सिर्फ spec sheet देखकर लिखा हुआ लगता है
5070 mobile के बराबर core count है, लेकिन shared peak bandwidth और shared peak TDP दोनों लगभग 2/3 स्तर पर हैं, इसलिए GPU-only performance dedicated unit की लगभग आधी हो सकती है
Apple में SVE2 नहीं है, लेकिन उसके पास proprietary AMX और SME हैं; SVE2, SME से तेज़ क्यों होगा यह स्पष्ट नहीं
एक ही core type का ज़िक्र है, लेकिन पूरे configuration की बात नहीं की गई, और DGX Spark Apple chip से कैसे compare करता है यह तो पहले से लगभग 1 साल से पता है
CPU लगभग M3 Pro स्तर का है, GPU compute bandwidth को छोड़ दें तो M4 Pro और M4 Max के बीच है, और असली फ़ायदा सिर्फ एक है कि यह CUDA चलाता है
launch तक इसके Apple से 2~3 generations और AMD से 1 generation पीछे होने की संभावना है, और DGX Spark की दूसरी बड़ी ताकत, यानी units को जोड़ने वाला NIC, यहाँ गायब है
Spark में यह M5 Max से काफ़ी तेज़ है, और same model, same quantization, same query और जितना संभव हो उतनी same vllm settings के साथ compare करें, तो बड़े prompt और कम cacheability वाले tasks में अक्सर MBP के prefill पूरा करने से पहले ही एक Spark response खत्म कर देता है
उस हिस्से में Apple को बढ़त है, लेकिन Spark की GPU compute performance M5 Max के 17 FP32 TFLOPS से काफ़ी ज़्यादा, लगभग 2 गुना है
इसमें desktop 5070 की तरह 6144 CUDA cores हैं, और धीमी memory व कम TDP की वजह से धीमा किया गया रूप होने के कारण 5070 के 31 FP32 TFLOPS की तुलना में लगभग 29.7 तक पहुँचता है
कुल मिलाकर Spark ठीक है, लेकिन महान नहीं
ऐसा लगता है जैसे उद्योग जिस chip को बहुत पहले से जानता था, उसे अब जाकर जाना हो, और competing products की भी लगभग जानकारी न होने पर “BEAST”, “GAME CHANGER” कह दिया गया हो
DGX Spark भी क्या game changer था? ज़्यादातर के लिए वह बड़ी निराशा ही रहा, और एक महंगा Nvidia laptop बाज़ी नहीं पलटेगा
Qualcomm Snapdragon X2 Elite Extreme सिंगल-कोर CPU performance में Nvidia चिप से काफी आगे है और Intel·AMD के top products को भी हरा देता है
इसमें unified memory भी है, और CPU performance तथा power efficiency दोनों में Apple M series के समान league में आने वाला यह एकमात्र CPU है
यह इस साल के अंत में नहीं बल्कि अभी laptop में खरीदा जा सकता है, लेकिन लोग Qualcomm को कम आंक रहे हैं
अगर Linux support नहीं दे सकता तो इसका लगभग कोई मतलब नहीं, और इस क्षेत्र में महत्वपूर्ण platforms Linux और Darwin ये दो ही हैं
Qualcomm दशकों तक GPU में AMD जैसा ही रहा है: घोषणाएं बहुत, web pages पढ़ने वाले internet fans भी बहुत, लेकिन वास्तव में चलाने की कोशिश करो तो वह एक nightmare है
Snapdragon X Elite Linux पर नहीं चलता, इसलिए platform के रूप में बेकार है, और उत्साही users ने M1 को इससे बेहतर चलने लायक बना दिया, इसलिए Qualcomm की जगह पुराना Mac इस्तेमाल करना पड़ता है
तुलना Mediatek Dimensity 9500 में आने वाले X930 या C1, यानी Snapdragon 8 Elite Gen 5 / X2 Elite से होनी चाहिए
Qualcomm के पास अभी भी performance lead है, लेकिन वह धीरे-धीरे घट रही है, और उससे भी महत्वपूर्ण बात यह है कि Nvidia ecosystem कहीं बेहतर बना रहा है
Nvidia के पास PC gaming GPU पर बना distribution channel और partners कहीं बेहतर हैं, और game developer relations में वह industry में unmatched है
Qualcomm ने अभी तक PC और server CPU दोनों में execution नहीं दिखाया है
अतीत में बहुत बुरे अनुभव रहे हैं, इसलिए लोगों का हिचकना स्वाभाविक है, और अभी लगता है कि वे ज्यादा कोशिश कर रहे हैं, लेकिन PC market में reputation वापस पाने में समय लगेगा
असली device की press release यहां है
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
यह थोड़ा surprising था कि बहुत कम लोगों ने इस बात की ओर इशारा किया कि Microsoft और खासकर NVIDIA मूल रूप से metered cloud AI models से टकराने वाला device ला रहे हैं
Copilot के लिए बेहतर offline BYOK, unlimited AI future जैसी दूसरी announcements और signals को देखें तो लगता है कि दोनों कंपनियां समझती हैं कि cloud-only AI न तो sustainable है और न ही मूल रूप से उनके पक्ष में
फिर भी, ऐसे products के जरिए OpenAI को कमजोर करने की मंशा साफ दिखती है
Microsoft local AI को जोरदार तरीके से push कर रहा है
जब तक कीमतें सचमुच नहीं बढ़तीं, local LLM का व्यापक adoption होगा या नहीं, इस पर मुझे संदेह है
Sonnet या Kimi जैसे सस्ते hosted small models का इस्तेमाल तर्कसंगत है, और ये devices शायद Kimi-स्तर के models नहीं चला पाएंगे, जबकि toy न होने वाले agent work के लिए वही न्यूनतम baseline है
$20 subscription से बचने के लिए $5,000 खर्च करना niche security reasons के अलावा खास समझ में नहीं आता
क्या तुमने Dungeon Crawler Carl देखा है?
लगता है ज्यादातर लोग ठीक से समझ नहीं रहे कि ऐसे laptops क्या दे सकते हैं
local AI से पहले संभवतः hybrid AI इस्तेमाल होगा
बड़े models को local पर चलाना अव्यावहारिक है, लेकिन अगर agent workflow का कुछ हिस्सा cloud पर और छोटे tasks local पर चलें, तो यह एक शानदार combination हो सकता है
बुनियादी tasks के लिए Opus/Code/DeepSeek/Kimi जैसे models की जरूरत नहीं, Gemma4:12b/Qwen-27b जैसे models local पर बहुत कम latency के साथ काम कर सकते हैं
अगर ऐसा laptop हो जो remote large model और 5 local domain-specific models को जोड़ सके, तो मैं उसे अभी इस्तेमाल करना चाहूंगा
OpenCode में यह कल्पना की जा सकती है कि एक छोटा model तय करे कि कौन-सा task local पर चलाना है, और क्या उस task के लिए कोई local model है या cloud model इस्तेमाल करना चाहिए
चिंता यह है कि क्या यह hardware fast local model switching संभालने लायक पर्याप्त शक्तिशाली है; शायद नहीं, लेकिन उम्मीद है मैं गलत साबित होऊं
frontier models भी अब सिर्फ 200,000 tokens के साथ बेहतर benchmarks दे रहे हैं, और distillation में अभी काफी गुंजाइश बाकी है
समझ नहीं आता कि यह किस मायने में “monster” है
memory bandwidth 300GB/s AMD Strix Halo के 256GB/s से बस थोड़ा ही ज्यादा है, और उसी 128GB RAM configuration में M5 Max 128GB के 614GB/s से आधे से भी कम है
लगता है ज्यादातर interested लोग AI enthusiasts होंगे, इसलिए memory bandwidth पर जोर दिया जा रहा है, और ऊपर से यह Windows है
M5 पर जहां first token तक पहुंचने में लगभग दोगुना समय लग सकता है, वहां 256k token workflow को यह realistically चला सकेगा
AMD x86 device है इसलिए सब कुछ चला सकता है, Apple पूरा MacOS stack संभालता है, लेकिन Nvidia की हालत यह है कि Jetson की हर generation पर किसी तरह एक Ubuntu release भर matching हो पाती है, जो शर्मनाक है
जो agents लगातार चर्चा में हैं, उन्हें असल में operating system support के काम में लगाया जाए तो अच्छा होगा
मुझे सच में जिज्ञासा है कि यह पहले से खरीदे जा सकने वाले और 128GB unified memory support करने वाले AMD Ryzen AI Max जैसी चीज़ों से कैसे अलग है
समझ नहीं आता कि 2026 में भी कौन अब तक “Windows PC” पर अटका हुआ होगा
यह बस एक personal computer है, और आम तौर पर इस पर कई operating systems अच्छी तरह चल सकते हैं
“Windows PC” जैसी अभिव्यक्ति या तो ऐसी लगती है जैसे Microsoft से पैसे लिए गए हों, या जैसे कोई तकनीक की बात इस तरह कर रहा हो मानो Word document में तस्वीर डालकर भेजना ही सब कुछ हो
operating system से स्वतंत्र डिवाइस की दिलचस्पी को ज़बरदस्ती एक घटिया operating system से बाँधने की ज़रूरत नहीं है
शायद यह बाकी सारे बाज़ारों को मिलाकर भी उससे ज़्यादा PC खरीदेगा
personal use में भी Windows और किसी दूसरे operating system को dual boot करने वाले लोग बहुत ही छोटा अल्पसंख्यक होंगे
“Windows PC”, “Apple ने बनाया” और “बाकियों ने बनाया” के बीच फर्क करने का काफ़ी तर्कसंगत तरीका है, और Apple द्वारा न बनाया गया लेकिन डिफ़ॉल्ट रूप से Windows न चलाने वाला PC market वास्तव में बहुत छोटा है
सच कहूँ तो इस विषय पर इतना आक्रामक रुख़ अपनाना अजीब लगता है
PC शब्द अपने मूल अर्थ में सभी personal computers के लिए भी इस्तेमाल हो सकता है, और Mac के विपरीत IBM PC परिवार के लिए भी, इसलिए यह अस्पष्ट है
“I'm a Mac, I'm a PC” विज्ञापन याद कर लें
सिर्फ़ PC कहने पर आजकल लोग सचमुच उलझ जाते हैं कि किस अर्थ में कहा गया है, और “IBM PC” पुराना लग चुका है, जबकि “IBM PC clone” तो और भी बुरा है
इसलिए “Windows PC” काफ़ी ठीक नाम है, और “Non-Mac PC” सुनने में भी खास अच्छा नहीं लगता
इसे ज़रूरी से ज़्यादा अपमानजनक ढंग से कहने की आवश्यकता नहीं है
enterprise या gaming जैसे कुछ home desktop मामलों में Windows इस्तेमाल करने की वजह अब भी hardware·software compatibility है
काम के लिए Windows programs बनाने होते हैं, इसलिए Windows इस्तेमाल होता है, और Win-for-ARM पर अब भी ऐसे drivers हैं जो उपलब्ध नहीं हैं
इसलिए ज़्यादातर लोगों के लिए “Windows PC” का मतलब अब भी x64 Windows PC ही है
अगर Windows-Arm64 compatibility पर्याप्त नहीं हुई, तो वैसे भी नए software और hardware की ज़रूरत पड़ेगी, इसलिए लोग Windows से ही दूर जा सकते हैं — यही Microsoft का जोखिम है
वह शापित Nvidia Hackintosh बहुत मज़ेदार ज़रूर होगा
आम उपयोगकर्ताओं के लिए computer operating systems तीन ही हैं: Windows, Apple, और ChromeOS; Nvidia ChromeOS की ओर नहीं जाएगा, और Apple, Nvidia को पसंद नहीं करता, इसलिए marketing के लिहाज़ से एकमात्र सामान्य operating system Windows ही है
marketing यह भी साफ़ करती है कि ये डिवाइस वे सस्ते Chromebook नहीं हैं जिन्होंने बहुत से लोगों का desktop experience खराब किया
Qualcomm ने Linux support का वादा किया था और विफल रहा, और उस वादे से जले लोग शायद फिर उस hardware को खरीदना नहीं चाहेंगे
अगर Windows PC का वादा किया जाए, तो Linux, FreeBSD, SerenityOS boot न होने की शिकायत का कारण कम हो जाता है, और Qualcomm की विफलता को देखकर लगता है कि Nvidia शायद सही चुनाव कर रहा है