CPU की वापसी: 2026 में डेटासेंटर CPU बाज़ार का परिदृश्य

(newsletter.semianalysis.com)

5 पॉइंट द्वारा GN⁺ 2026-02-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

reinforcement learning और agentic AI inference की विस्फोटक मांग के कारण डेटासेंटर में CPU की भूमिका फिर से तेज़ी से उभर रही है, जिससे GPU-केंद्रित निवेश प्रवाह में बदलाव आ रहा है
Intel ने 2025 के अंत में server CPU demand surge का अप्रत्याशित अनुभव किया और 2026 में foundry facility investment बढ़ाते हुए PC wafers को server के लिए reroute कर रही है
AMD Venice, TSMC N2 process आधारित 256-core Zen6c CCD और mesh network अपनाकर performance और power efficiency दोनों में Intel के मुकाबले अंतर और बढ़ा सकती है
NVIDIA, AWS, Microsoft, Google, ARM आदि के hyperscaler in-house ARM CPU कैंप का विस्तार तेज़ हो रहा है, और x86 के एकाधिकार वाला ढांचा तेजी से टूट रहा है
Huawei Kunpeng 950 सहित 2026 ऐसा अभूतपूर्व प्रतिस्पर्धी वर्ष होगा, जब सभी vendors next-generation CPU एक साथ लॉन्च करेंगे

डेटासेंटर CPU की बदलती भूमिका और विकास

PC युग से dot-com युग तक
- 1990 के दशक में PC processor performance में सुधार से mainframe और workstation को replace करने की मांग पैदा हुई, और Intel ने Pentium Pro (1995) तथा Xeon brand (1998) के साथ server बाज़ार में प्रवेश किया
- 2000 के दशक के इंटरनेट युग में Web 2.0, e-commerce और smartphone के प्रसार के साथ डेटासेंटर CPU अरबों डॉलर के बाज़ार में विकसित हुए
- GHz प्रतिस्पर्धा खत्म होने के बाद multi-core CPU और memory controller integration (AMD), PCIe direct connection जैसी design innovations आगे बढ़ीं
- SMT (Simultaneous Multi-Threading) को Intel और AMD दोनों ने अपनाया, जिससे parallel processing performance बेहतर हुई
virtualization·cloud computing hyperscaler युग
- 2000 के दशक के उत्तरार्ध में AWS जैसे public cloud के उभार से CapEx मॉडल से OpEx मॉडल की ओर बदलाव हुआ, और यह serverless computing (AWS Lambda आदि) तक विकसित हुआ
- CPU hardware virtualization cloud की मुख्य आधारशिला बनी, जहाँ hypervisor (VMware ESXi आदि) एक single CPU पर कई independent VM चलाते हैं
- 2018 में Spectre and Meltdown vulnerabilities के कारण SMT को disable करने की आवश्यकता सामने आई, जिससे अधिकतम 30% performance loss हुआ
  - branch prediction features का उपयोग करने वाले हमलों ने cloud security threats को वास्तविक बना दिया
AI GPU और CPU integration का युग
- ChatGPT के launch (नवंबर 2022) से पहले के 5 वर्षों में Intel ने 100 million से अधिक Xeon Scalable CPU ship किए
- AI model training और inference, GPU के large-scale vector units और Tensor Core पर 100 से 1000 गुना अधिक efficiency से चलाए जाते हैं
- GPU की तुलना में CPU की matrix computation performance बहुत कम होने के कारण उसकी भूमिका सहायक स्तर तक सीमित हो गई, और power allocation में GPU को प्राथमिकता मिली
- CPU उपयोग दो हिस्सों में बंट गया:
  - head node: GPU को data supply और management, जिसके लिए high core performance, large cache और high-bandwidth memory की जरूरत होती है (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 आदि)
  - cloud-native socket integration: power efficiency को अधिकतम करने के लिए पुराने servers को नवीनतम CPU से 10:1 से अधिक अनुपात में replace किया जा रहा है; COVID काल में खरीदे गए लाखों Intel Cascade Lake servers अब retire हो रहे हैं
reinforcement learning·agentic युग
- Microsoft के OpenAI के लिए "Fairwater" डेटासेंटर में 48MW का CPU·storage building, 295MW GPU cluster को support करता है, जहाँ petabyte-स्तरीय data processing के लिए दसियों हज़ार CPU लगाए गए हैं
- reinforcement learning (RL) environment में model द्वारा उत्पन्न actions को execute करने और rewards की गणना के लिए code compilation, verification, interpretation और tool use जैसे कामों में बड़े पैमाने पर CPU की आवश्यकता होती है
  - GPU performance improvement की गति CPU से काफी आगे है, इसलिए भविष्य में Rubin generation में CPU-to-GPU power ratio 1:6 से अधिक तक बढ़ सकता है
- RAG models और agentic models बड़े पैमाने पर API calls, internet search और database queries चला रहे हैं, जिससे general-purpose CPU की मांग तेज़ी से बढ़ रही है
- AWS और Azure अपने Graviton·Cobalt CPU और x86 servers का बड़े पैमाने पर निर्माण कर रहे हैं
- frontier AI labs, RL training के लिए CPU की कमी का सामना कर रही हैं, और general-purpose x86 servers secured karne को लेकर cloud providers से सीधे प्रतिस्पर्धा कर रही हैं
- Intel अप्रत्याशित inventory depletion के कारण Xeon price increase पर विचार कर रही है और अतिरिक्त production tools secured kar rahi hai
- AMD अपनी supply capability बढ़ा रही है और 2026 में server CPU TAM में "मजबूत double-digit" growth का अनुमान लगा रही है

मल्टीकोर CPU इंटरकनेक्ट का इतिहास

शुरुआती crossbar डिज़ाइन और उसकी सीमाएँ
- शुरुआती dual-core (Intel Pentium D, AMD Athlon 64 X2, 2005) में FSB (Front Side Bus) या on-die NoC-आधारित कनेक्शन
- crossbar तरीका core की संख्या बढ़ने पर कनेक्शनों की संख्या तेज़ी से बढ़ाता है (2 core=1, 4 core=6, 6 core=15, 8 core=28), इसलिए 4 core व्यावहारिक सीमा थी
- AMD Istanbul (2009) ने 6-way crossbar, Magny-Cours (2010) ने dual-die 12 core, और Interlagos ने 16 core तक विस्तार किया
Intel ring bus आर्किटेक्चर
- Intel Nehalem-EX (2010) में ring bus की शुरुआत हुई, जिसने 8 core को एक single die में इंटीग्रेट किया और IMC व QPI link शामिल किए
- dual counter-rotating ring ने latency और congestion को कम किया, लेकिन core-to-core access latency non-uniform (NUMA) रही
- Ivy Bridge-EX: 3 कॉलम 5 रो लेआउट में 3 "virtual rings" के साथ 15 core हासिल किए
- Haswell/Broadwell: dual independent ring bus के साथ 18~24 core, लेकिन rings के बीच buffered switch से गुजरने पर 100ns से अधिक latency होती थी
  - "Cluster on Die" configuration से 2 NUMA node अलग किए जा सकते थे
Intel mesh आर्किटेक्चर
- 2016 में Xeon Phi "Knights Landing" में mesh interconnect लाया गया, और 2017 में Skylake-X Xeon Scalable (28 core) तक इसका विस्तार हुआ
- 2D grid array में core, L3 cache slice, PCIe IO, IMC और accelerator को हर mesh stop पर रखा गया
- Sub-NUMA Clustering (SNC) mode में mesh को quadrants में बाँटकर औसत latency घटाई गई
- Skylake-X: 6x6 mesh, 2.4GHz mesh clock के साथ Broadwell dual ring जैसी औसत latency हासिल की
- Ice Lake: 10nm ट्रांज़िशन के साथ 8x7 mesh में 40 core तक स्केल किया गया (reticle limit)
EMIB के ज़रिए distributed mesh
- Sapphire Rapids: Intel 7 node पर single monolithic die में केवल 34 core तक पहुँचा जा सका, और AMX engine जुड़ने से core area बढ़ गया
  - EMIB advanced packaging से 4 die जोड़े गए, 8x12 mesh configuration के साथ 60 core हासिल किए गए (लगभग 1600mm² silicon)
  - औसत core-to-core latency 47ns (Skylake) से बढ़कर 59ns हो गई
  - हर core के private L2 cache को 2MB तक बढ़ाया गया (कुल L2 > L3: 120MB vs 112.5MB)
  - E5 stepping तक पहुँचते-पहुँचते यह कई साल देरी का शिकार हुआ; मूल रूप से 2021 के लिए तय था, लेकिन 2023 की शुरुआत में लॉन्च हुआ
- Emerald Rapids (2023 के अंत): die की संख्या घटाकर 2 की गई और core 66 (अधिकतम 64 active) हुए, L3 cache को 320MB तक लगभग 3 गुना बढ़ाया गया
Xeon 6 का heterogeneous distributed डिज़ाइन
- 2024 के Xeon 6 platform में I/O और computing को heterogeneous तरीके से अलग किया गया: I/O die Intel 7 पर, compute die Intel 3 पर
- P-core Granite Rapids और E-core Sierra Forest configurations को mix किया जा सकता है
- Granite Rapids-AP Xeon 6900P: 3 compute die के साथ 10x19 mesh, 132 core (अधिकतम 128 active)
- Sierra Forest: 4 E-core को cluster में बाँधकर 8x6 mesh पर 144 core, लेकिन hyperscalers पहले ही AMD और अपने ARM CPU अपना चुके हैं, इसलिए adoption सीमित रहा
  - dual-die 288-core Sierra Forest-AP (Xeon 6900E) केवल सीमित मात्रा में बना
Clearwater Forest की सीमाएँ
- Xeon 6+ Clearwater Forest-AP: Intel की Foveros Direct hybrid bonding के ज़रिए 18A core die को Intel 3 base die के ऊपर stack करके 288 core हासिल किए गए
- 12 अलग-अलग 24-core compute die से बना यह एक जटिल डिज़ाइन है
- Foveros Direct integration समस्याओं के कारण H2 2025 से H1 2026 तक देरी हुई
- हर 4-core cluster के लिए base die L3 और mesh access bandwidth सिर्फ 35GB/s है
- 2 साल के अंतर के बावजूद, Sierra Forest के मुकाबले समान core count पर सिर्फ 17% performance improvement मिला
- Intel ने Q4 2025 earnings announcement में Clearwater Forest का लगभग ज़िक्र ही नहीं किया, और संभावना है कि इसे high-volume production के बजाय Foveros Direct yield learning vehicle के रूप में इस्तेमाल किया जाए

AMD Zen इंटरकनेक्ट आर्किटेक्चर

EPYC Naples (2017)
- AMD की datacenter में वापसी इसी से हुई, जहाँ 4 "Zeppelin" die को MCM के रूप में जोड़कर 32 core हासिल किए गए
- हर die में 2 CCX (4 core + 8MB L3, crossbar connection) और dies के बीच Infinity Fabric on Package (IFOP) link था
- unified L3 cache की कमी और कई NUMA domains (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) के कारण latency variation बहुत अधिक था
- Intel ने इसका मज़ाक उड़ाते हुए इसे "4 desktop dies को चिपकाया गया" कहा, लेकिन यह छोटी टीम का resource-efficient डिज़ाइन था
EPYC Rome (2019) और बाद की पीढ़ियों का विकास
- Rome: केंद्रीय I/O die के चारों ओर 8 8-core CCD लगाए गए; CCD, TSMC N7 पर और I/O die, GlobalFoundries 12nm पर बना
  - सभी CCX के बीच communication, I/O die के रास्ते जाने वाले GMI link तरीके से होता था, जिससे यह functional रूप से 16 अलग 4-core NUMA node जैसा बनता था
- Milan (2021): CCX का आकार 8 core तक बढ़ाया गया और ring bus अपनाई गई, जबकि Rome का I/O die दोबारा इस्तेमाल हुआ
- Genoa (2022): 12 CCD, Turin (2024): अधिकतम 16 CCD के साथ 128 core (EPYC 9755), साथ में DDR5 और PCIe5 में अपग्रेड
- chiplet डिज़ाइन का मुख्य फायदा: एक ही CCD tapeout से पूरी core count lineup तैयार की जा सकती है, और छोटे die के कारण yield व launch speed बेहतर रहती है
- compact Zen 4c/Zen 5c core variants के साथ Bergamo (Zen 4c) और Turin-Dense (192 core) भी उसी platform पर उपलब्ध हैं

Intel Diamond Rapids आर्किटेक्चर

4 CBB (Core Building Block) die, 2 IMH (I/O and Memory Hub) die को घेरे रहते हैं; बाहरी रूप से यह AMD के डिज़ाइन जैसा दिखता है
हर CBB के भीतर 32 dual-core module (DCM) Intel 18A-P पर बने हैं और Intel 3-PT base die से hybrid bonding के ज़रिए जुड़े हैं
- 2 core एक common L2 cache साझा करते हैं; यह 2008 की Dunnington generation की याद दिलाने वाला डिज़ाइन है
कुल 256 core हैं, लेकिन mainstream SKU में अधिकतम 192 core active रहने की उम्मीद है
IMH die: 16-channel DDR5, PCIe6 (CXL3 support), Intel data path accelerators (QAT, DLB, IAA, DSA)
EMIB की जगह package substrate पर long-distance traces से dies के बीच कनेक्शन होगा, जिससे हर CBB दोनों IMH तक सीधे पहुँच सकेगा
- लेकिन cross-CBB latency के काफ़ी बिगड़ने की आशंका है
SMT हटाने की समस्या
- Spectre/Meltdown के बाद Intel ने P-core से SMT हटा दिया, और 2024 के client Lion Cove से इसे लागू किया
- datacenter में अधिकतम throughput अहम होता है, इसलिए Diamond Rapids के लिए यह गंभीर कमजोरी है
- मौजूदा Granite Rapids के 128 core/256 thread की तुलना में, 192 core/192 thread वाला Diamond Rapids लगभग सिर्फ 40% performance uplift दे सकता है
- mainstream 8-channel Diamond Rapids-SP platform को पूरी तरह रद्द कर दिया गया, जिससे कम-से-कम 2028 तक उस बाज़ार में नई पीढ़ी का अभाव रहेगा
  - नतीजतन AI tools के उपयोग और context storage के लिए ज़रूरी general-purpose computing CPU बाज़ार हाथ से निकल सकता है

AMD Venice आर्किटेक्चर

AMD ने पहली बार advanced packaging तकनीक अपनाई, जिसमें CCD और I/O die को high-speed short-range link से जोड़ा गया
CCD link के लिए अतिरिक्त shoreline के कारण केंद्रीय I/O hub 2 dies में विभाजित हो गया, जिससे chip के दोनों ओर अतिरिक्त NUMA domain बनते हैं
16 memory channels (Genoa के 12 channels से अधिक), MRDIMM-12800 multiplexed memory के साथ 1.64TB/s bandwidth (Turin की तुलना में 2.67 गुना)
CCD के भीतर mesh network जोड़ा गया: 32 Zen6c cores को 4x8 grid में रखा गया, TSMC N2 process
8 CCD के साथ कुल 256 cores, जो Turin-Dense के 192 cores की तुलना में 1/3 अधिक है
Zen6c में प्रति core 4MB L3 cache पूरा आवंटित किया गया (पहले Zen5c में इसका आधा था), यानी प्रति CCD 128MB cache area
AI head node के लिए low-core, high-clock "-F" SKU: desktop/mobile के 12-core Zen6 CCD का उपयोग, अधिकतम 96 cores
I/O die के बगल में DDR5 interface के पास 8 छोटे IPD (Integrated Passive Device) के जरिए power delivery को स्थिर किया गया
Venice प्रदर्शन और नए निर्देश
- 256-core top model, 192-core Turin की तुलना में SPECrate®2017_int_base में प्रति watt 1.7x से अधिक प्रदर्शन देता है
- Zen 6 microarchitecture में IPC (Instructions per Clock) में बड़ा सुधार
- नए AI datatype instructions: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (bit matrix multiplication)
  - BMM: FPU register में 16x16 binary matrix स्टोर की जाती है, और OR·XOR operations से BMM accumulation किया जाता है
  - Verilog simulation आदि में यह प्रभावी है, लेकिन LLM में precision कम होने के कारण अपनाने की संभावना सीमित है
- जहाँ AMD का 96-core Turin, Intel के 128-core Granite Rapids के बराबर है, वहीं Venice और Diamond Rapids के बीच प्रदर्शन अंतर और बढ़ने की उम्मीद है
- Intel ने 8-channel processor रद्द कर दिया, जबकि AMD ने नया 8-channel Venice SP8 platform पेश किया, जो EPYC 8004 Siena का successor है और अधिकतम 128-core Zen 6c देता है
  - Intel के पारंपरिक मजबूत क्षेत्र enterprise market में AMD की हिस्सेदारी बढ़ने की उम्मीद है

NVIDIA Grace और Vera

Grace CPU
- GPU head node और expanded GPU memory के लिए डिज़ाइन, NVLink-C2C (bidirectional 900GB/s) के जरिए GPU, CPU memory को full bandwidth पर access कर सकता है
- mobile-grade LPDDR5X memory का उपयोग, 512-bit memory bus पर 500GB/s bandwidth, प्रति CPU अधिकतम 480GB
- ARM Neoverse V2 के 72 cores (76 में से active), 6x7 mesh, 117MB L3 cache
- mesh network की bidirectional bisection bandwidth 3.2TB/s है, जो data flow के लिए optimized है
- microarchitectural bottleneck: Branch Target Buffer में 24 regions से अधिक होने पर प्रदर्शन तेज़ी से गिरता है, और 32 regions से अधिक पर पूरा 64MB buffer flush हो जाता है
  - unoptimized HPC code में 50% तक प्रदर्शन गिरावट, और GB200/GB300 के AI workloads पर भी असर
Vera CPU (2026)
- Rubin platform के लिए C2C bandwidth 1.8TB/s तक, यानी 2x वृद्धि
- 8 128-bit SOCAMM modules के साथ 1.5TB memory, 1.2TB/s bandwidth
- 7x13 mesh में 91 cores (88 active), L3 cache 162MB
- CoWoS-R packaging: 1 3nm reticle-size compute die + 4 LPDDR5 memory dies + 1 PCIe6/CXL3 IO die (कुल 6 dies)
- Neoverse core के performance bottleneck से हटकर स्वयं के डिज़ाइन वाले Olympus core पर वापसी
  - 88 cores/176 threads (SMT support), ARMv9.2, FPU 6x 128b ports (Neoverse V2 के 4 ports से अधिक)
  - ARM SVE2 FP8 operations support, प्रति core 2MB L2 cache (Grace से 2x)
  - कुल मिलाकर 2x प्रदर्शन सुधार

AWS Graviton5

AWS पहला hyperscaler है जिसने अपने CPU को cloud में सफलतापूर्वक deploy किया, Annapurna Labs acquisition और ARM Neoverse CSS का उपयोग किया
Graviton2: COVID boom के दौरान भारी discount देकर ARM migration को बढ़ावा दिया, 64 Neoverse N1 cores
Graviton3: Neoverse V1 के साथ प्रति core floating-point performance 2x, EMIB chiplet design, DDR5 और PCIe5 को AMD और Intel से 1 साल पहले अपनाया
Graviton4: 96 Neoverse V2 cores, 12-channel memory, PCIe5 96 lanes, dual-socket support
Graviton5 (दिसंबर 2025 preview): 192 Neoverse V3 cores, TSMC 3nm, 172 billion transistors
- L3 cache 192MB (Graviton4 के 36MB से बहुत अधिक), 12-channel DDR5-8800
- PCIe6 upgrade, लेकिन lanes 96 से घटकर 64 हो गईं (unused lanes की cost optimization)
- 8x12 mesh, 2 cores एक mesh stop share करते हैं, multiple compute dies में विभाजन और नई packaging strategy अपनाई गई
AWS आंतरिक रूप से हज़ारों Graviton CPUs को CI/CD और EDA में इस्तेमाल करता है, ताकि अगली पीढ़ी के Graviton, Trainium और Nitro डिज़ाइन में उनका उपयोग हो सके (self-dogfooding)
Trainium3 accelerator, Graviton CPU को head node के रूप में उपयोग करता है (1 CPU : 4 XPU)

Microsoft Cobalt 200

Cobalt 100 (2023, 128 Neoverse N2 cores) के बाद 2025 के अंत में आने वाला successor
132 Neoverse V3 cores, प्रति core 3MB L2 cache, TSMC 3nm के 2 compute dies
प्रति die 8x8 mesh, 72 cores printed/66 active, 192MB L3 cache, 6-channel DDR5, 64-lane PCIe6
Cobalt 100 की तुलना में 50% प्रदर्शन सुधार
Azure की general-purpose CPU computing service के लिए समर्पित, AI head node में उपयोग नहीं (Microsoft Maia 200 में Intel Granite Rapids अपनाया गया है)

Google Axion C4A, N4A

2024 में घोषणा, 2025 में GA, Google का GCP custom silicon CPU बाज़ार में प्रवेश
Axion C4A: अधिकतम 72 Neoverse V2 cores, 8-channel DDR5, PCIe5, monolithic 5nm die (81 cores printed, 9x9 mesh)
- 2025 के अंत में preview किए गए 96-core bare-metal instance के लिए नए 3nm die डिज़ाइन का अनुमान
Axion N4A: cost-efficient scale-out के लिए, 64 Neoverse N3 cores, TSMC 3nm full-custom design
Google अपनी internal infrastructure (Gmail, YouTube, Google Play आदि) को ARM पर migrate कर रहा है, और भविष्य में TPU cluster head node में भी Axion लगाने की योजना है

Ampere Computing और SoftBank अधिग्रहण

merchant ARM silicon के pioneer के रूप में Oracle के साथ partnership, Altra (80 cores) और Altra Max (128 cores) के जरिए x86 monopoly को चुनौती
- Neoverse N1 cores, proprietary mesh interconnect (4-core cluster), 8-channel DDR4, 128 PCIe4 lanes, TSMC 7nm single die
AmpereOne: 5nm process, 192 cores, अलग I/O chiplet (DDR5·PCIe), interposer के बिना MCM design
- custom ARM cores (core density optimized) + 2MB L2 cache (noisy neighbor समस्या कम करने के लिए)
- chiplet reuse के जरिए 12-channel AmpereOne-M, 3nm 256-core AmpereOne-MX जैसी variants की योजना
2025 में SoftBank ने 6.5 billion dollar में अधिग्रहण किया, उद्देश्य Stargate venture के लिए CPU design talent सुरक्षित करना
Ampere की विफलता के कारण:
- Altra generation उस समय बहुत जल्दी आई जब ARM-native software ecosystem अभी परिपक्व नहीं था
- AmpereOne कई delays के बाद 2024 की दूसरी छमाही में उपलब्ध हुआ, तब तक hyperscaler ARM CPUs तेज़ी से आगे बढ़ चुके थे और AMD प्रति core 3~4x अधिक प्रदर्शन के साथ 192 cores दे रहा था
- Oracle की Ampere CPU खरीद: FY2023 48 million dollar → FY2024 3 million dollar → FY2025 3.7 million dollar, यानी तेज़ गिरावट

ARM Phoenix

ARM 2026 में पूर्ण डेटासेंटर CPU डिज़ाइन और बिक्री व्यवसाय में प्रवेश करेगा और अपने मौजूदा Neoverse CSS लाइसेंसी ग्राहकों से सीधे प्रतिस्पर्धा करेगा
अब तक डेटासेंटर CPU और DPU में 1 अरब से अधिक Neoverse cores तैनात, 12 कंपनियों को 21 CSS लाइसेंस
डेटासेंटर royalty revenue में पिछले वर्ष की तुलना में 2 गुना से अधिक वृद्धि, और आने वाले कुछ वर्षों में CSS के royalty revenue का 50% से अधिक हिस्सा बनने की संभावना
Phoenix: 128 Neoverse V3 cores, ARM CMN mesh, TSMC 3nm half-reticle के 2 dies
- 12-channel DDR5(8400MT/s), 96-lane PCIe Gen 6, TDP 250~350W तक कॉन्फ़िगर किया जा सकता है
- पहला ग्राहक Meta है, और OpenAI(Stargate/SoftBank venture) तथा Cloudflare भी संभावित ग्राहक हैं
- PCIe6-आधारित Accelerator Enablement Kit के ज़रिये XPU को coherent shared memory से जोड़ा जा सकता है

Huawei Kunpeng

Kunpeng 920 और 920B
- शुरुआती पीढ़ी(Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920(2019): 64-core custom TaiShan V110, TSMC 7nm के 2 compute dies, CoWoS-S packaging(पहली बार CPU में CoWoS-S का उपयोग)
  - 8-channel DDR4, 40 PCIe4 lanes, dual 100GbE integrated
  - अमेरिकी प्रतिबंधों के कारण TSMC आपूर्ति बंद, अगली पीढ़ी का Kunpeng 930 जारी नहीं हुआ
- Kunpeng 920B(2024): TaiShan V120 core में SMT समर्थन, प्रत्येक die पर 10 4-core clusters(कुल 80 cores/160 threads)
  - 8-channel DDR5, अलग I/O die placement, SMIC N+2 process पर पुनः डिज़ाइन(5 साल के अंतराल के बाद)
Kunpeng 950 (2026)
- 192-core नया LinxiCore(SMT समर्थन), 96-core का छोटा संस्करण भी उत्पादन में
- TaiShan 950 SuperPoD rack configuration: 16 dual-socket servers, अधिकतम 48TB DDR5(12-channel अनुमानित)
- Kunpeng 920B की तुलना में OLTP database performance में 2.9 गुना सुधार(GaussDB Multi-Write आधारित)
- चीन के वित्तीय क्षेत्र में Oracle Exadata database server को अपनाने की योजना
- अनुमान है कि इसका उत्पादन SMIC N+3 process पर होगा
Kunpeng 960 (2028 roadmap)
- high-performance version: 96 cores/192 threads, AI head node और database के लिए, प्रति core performance में 50% से अधिक सुधार
- high-density version: virtualization और cloud के लिए 256 cores से अधिक
- चीन के hyperscaler CPU बाज़ार में महत्वपूर्ण हिस्सेदारी हासिल करने की संभावना

CPU की वापसी: 2026 में डेटासेंटर CPU बाज़ार का परिदृश्य

डेटासेंटर CPU की बदलती भूमिका और विकास

PC युग से dot-com युग तक

virtualization·cloud computing hyperscaler युग

AI GPU और CPU integration का युग

reinforcement learning·agentic युग

मल्टीकोर CPU इंटरकनेक्ट का इतिहास

शुरुआती crossbar डिज़ाइन और उसकी सीमाएँ

Intel ring bus आर्किटेक्चर

Intel mesh आर्किटेक्चर

EMIB के ज़रिए distributed mesh

Xeon 6 का heterogeneous distributed डिज़ाइन

Clearwater Forest की सीमाएँ

AMD Zen इंटरकनेक्ट आर्किटेक्चर

EPYC Naples (2017)

EPYC Rome (2019) और बाद की पीढ़ियों का विकास

Intel Diamond Rapids आर्किटेक्चर

SMT हटाने की समस्या

AMD Venice आर्किटेक्चर

Venice प्रदर्शन और नए निर्देश

NVIDIA Grace और Vera

Grace CPU

Vera CPU (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing और SoftBank अधिग्रहण

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 और 920B

Kunpeng 950 (2026)

Kunpeng 960 (2028 roadmap)

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.