डीप लर्निंग एक्सेलरेटर द्वारा संचालित सेमीकंडक्टर बाज़ार का भविष्य

(facebook.com)

13 पॉइंट द्वारा xguru 2021-10-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

अगर पिछले 10 वर्षों में दुनिया भर में सबसे ज़्यादा शेयर मूल्य बढ़ाने वाली IT कंपनियों की बात की जाए, तो Apple और Nvidia का नाम लिया जा सकता है। Apple ने iPhone के आगमन के साथ प्रीमियम स्मार्टफोन बाज़ार पर सचमुच 10 साल से भी अधिक समय तक दबदबा बनाए रखा है, और Nvidia के शेयर उच्च-प्रदर्शन gaming GPU के साथ-साथ 2010 के दशक के मध्य के बाद deep learning और coin mining accelerator बाज़ार के विस्फोटक विस्तार से तेज़ी से बढ़े हैं।

Nvidia वह कंपनी है जिसने 1999 में वास्तविक अर्थों में पहला GPU (ब्रांड नाम GeForce) दुनिया के सामने पेश किया। बेशक, 1990 के दशक के उत्तरार्ध से 2000 के दशक के उत्तरार्ध तक Nvidia का मुख्य फोकस high-performance gaming GPU बिज़नेस ही था। लेकिन Nvidia ने मानो AI युग के आगमन का पहले ही अनुमान लगा लिया था और 2007 में GUGPU (or GPGPU) को दुनिया से परिचित कराया। Nvidia जिस नए बाज़ार का निर्माण करना चाहती थी, वह सिर्फ़ gaming के लिए high-performance graphics card का बाज़ार नहीं था, बल्कि general purpose accelerator बाज़ार था। बाज़ार को बढ़ाने के लिए Nvidia ने CUDA नाम का SDK भी जारी किया, ताकि दुनिया भर के chip design developers उसके GUGPU का उपयोग कर सकें; यही उसका दांव था, और वह सफल रहा। इसके साथ openCL भी समानांतर रूप से आगे बढ़ा, और GPU सचमुच GUGPU के युग में प्रवेश कर गया। Nvidia भी धीरे-धीरे gaming graphics card बाज़ार की सीमाओं से बाहर निकलकर पूरी तरह accelerator बाज़ार में उतर गई।

जैसा कि अच्छी तरह जाना जाता है, CPU और GPU के बीच सबसे बड़ा अंतर serial vs parallel का है। GPU में, केवल unit count के हिसाब से देखें तो CPU की तुलना में कहीं अधिक core एकीकृत होते हैं। और multiplication, addition जैसी parallel processing वाली गणनाओं को अलग-अलग core में बाँटकर वे उन्हें ‘पल भर में’ पूरा कर देते हैं। इसके विपरीत CPU अपनी architecture के कारण serial तरीके से data लेकर परिणाम तैयार करता है, इसलिए उसकी गणना गति स्वाभाविक रूप से GPU की parallel processing की बराबरी नहीं कर सकती। यहाँ एक बात को लेकर भ्रम नहीं होना चाहिए। कोई पूछ सकता है, ‘तो फिर CPU पर इतना पैसा ख़र्च करके अलग से क्यों खरीदें? सब कुछ GPU से ही क्यों न कर लें?’ दरअसल इसे एक कारीगर की मूर्तिकला से तुलना करके समझा जा सकता है। यदि एक कारीगर अकेले एक महीने तक लकड़ी काटने, रंग करने और तराशने की पूरी प्रक्रिया करके एक कलाकृति बनाता है, तो वह CPU जैसा है। वहीं अगर वही कारीगर अपने 10 शिष्यों में अलग-अलग काम बाँटकर एक महीने में 10 कलाकृतियाँ बनवाता है, तो उसे GPU से तुलना की जा सकती है। इसे एक तरह से घरेलू हस्तकला और division of labor के अंतर के रूप में देखा जा सकता है। अब थोड़ा और सटीक तुलना करें। वास्तव में 2000 के दशक के मध्य और उत्तरार्ध के बाद GPU अपनी parallel computing performance के लिए इसलिए चर्चित हुआ, क्योंकि chip design ऐसा था कि GPU में बँटे हुए हर core पर एक जैसे calculation एक साथ हो सकते थे, और फिर उन्हें एक साथ इकट्ठा करके output दिया जा सकता था। उदाहरण के लिए B = [55] matrix और C = [51] matrix के गुणन की गणना को सोचें। इस operation को CPU पर करना हो तो

for ii=1:पंक्तियों की संख्या

for jj=1:स्तंभों की संख्या

A = B(ii,jj)*C(jj);

A(ii) = A(ii) + A;

end

की तरह दो बार for loop चलाना पड़ेगा। लेकिन GPU पर इस operation को करने के लिए B matrix के हर component और C matrix के हर component के index को GPU core में अलग-अलग बाँट देना ही काफ़ी है। उदाहरण के लिए BC matrix multiplication में हर component के लिए 55 = 25 बार गुणा करने की आवश्यकता होती है, तो B(i,j) component और C(k) component को GPU core में [पंक्तियों की संख्या*(i-1) + j]वें core को पहले से assign कर देना पर्याप्त है। फिर हर core सिर्फ़ उसे सौंपा गया multiplication करेगा, और उसके परिणामों को memory में इकट्ठा करके केवल addition operation अतिरिक्त रूप से करना होगा। यानी पहले से यह ठीक से तय कर लिया जाए कि किस तरह distribute और collect करना है, तो simple multiplication/addition की repeated operations में GPU कहीं अधिक तेज़ होगा। CPU में GPU की तुलना में इस तरह की parallel operation लगभग असंभव है, लेकिन उसके बदले वह अधिक floating-point precision रख सकता है। यानी वह individual GPU core की तुलना में अधिक सूक्ष्म और सटीक गणना कर सकता है, इसलिए precision की आवश्यकता वाले ALU calculation में CPU स्वाभाविक रूप से GPU से कहीं बेहतर है। हालाँकि repeated calculation में अधिकांश समय इतनी अधिक precision की ज़रूरत नहीं होती, इसलिए GPU की parallel calculation कहीं अधिक लाभकारी रहती है।

ऐसा parallelization के लिए optimized GPGPU 2010 के दशक के मध्य के बाद, AI, खासकर deep learning युग के गंभीर रूप से शुरू होने के बाद, और अधिक महत्व पाने लगा—ऐसा क्यों हुआ? अगर शुरुआत से समझें कि deep learning किस तरह काम करती है, तो यह समझना आसान हो जाता है। Deep learning सीखते समय शुरुआती बुनियादी operations में से एक है convolution। Convolution एक matrix operation है, जिसमें दिए गए matrix-आधारित input data पर एक दूसरे matrix यानी kernel को अलग-अलग positions पर खिसकाते हुए operation किया जाता है। लेकिन ध्यान से देखें तो यह अंततः matrix के elements को गुणा और जोड़ने की repeated operation भर है। बेशक, किस kernel का उपयोग किया जाता है, उसके अनुसार input matrix का परिणाम बदलता है। उदाहरण के लिए, जैसा image processing lectures में भी आता है, अगर Laplacian kernel का उपयोग किया जाए तो image की boundary, edge gradient या pattern distinction को पहचानने की क्षमता मिलती है। लेकिन kernel किसी भी प्रकार का हो, convolution की इस प्रक्रिया में अंततः simple multiplication/addition बार-बार दोहराए जाते हैं, इसलिए स्वाभाविक रूप से उस तरह की design पर विशेषीकृत GUGPU कहीं अधिक लाभ की स्थिति में होता है। साथ ही, अगर यह सोचें कि deep learning में training और inference कैसे होते हैं, तो यह भी समझ में आता है कि मूलतः CPU-आधारित deep learning लगभग असंभव के करीब क्यों है। जैसा पहले भी कहा गया, GPU से CPU जैसी precision की अपेक्षा नहीं की जाती और न ही उसे वैसे design किया गया है। Deep learning में training data को सीखने की प्रक्रिया कुछ वैसी है जैसे किसी व्यक्ति की आँखों पर पट्टी बाँध दी जाए और वह हाथ-पैरों का इस्तेमाल करके रास्ता ढूँढ़ने की कोशिश करे। अगर किस्मत अच्छी हो तो हाथ बढ़ाने पर कोई ऐसी चीज़ मिल सकती है जो संकेतक बन जाए, लेकिन किस्मत खराब हो तो पैर बढ़ाने पर जाल भी मिल सकता है। यानी हर trial में error आना तय है, और शुरू से ही उस error की exactness या precision बहुत महत्वपूर्ण नहीं होती। उलटे अगर केवल उसी error की precision पर ध्यान दिया जाए, तो learning speed धीमी पड़ जाएगी। इससे उत्तर साफ़ हो जाता है कि रास्ता कौन जल्दी ढूँढ़ेगा—वह व्यक्ति जो प्रति सेकंड 100 बार trial-and-error करता है, या वह जो प्रति सेकंड केवल 1 बार बहुत सावधानी से successful trial करता है। Deep learning की यही learning method GPU की design architecture के साथ बिल्कुल मेल खाती है, और इसी कारण अब GPU को high-performance gaming के लिए नहीं, बल्कि deep learning accelerator machine के रूप में पहचाना जाने लगा है।

यहां एक बात नज़रअंदाज़ नहीं करनी चाहिए कि GUGPU अब भी गेमिंग performance बढ़ाने के लिए बेहद optimized है। मूल रूप से GPU matrix processing में specialized performance रखता है, यह सोचें तो यह बिल्कुल स्वाभाविक है। 90 के दशक की शुरुआत से पहले के गेम्स में वास्तव में 3D image की अवधारणा लगभग नहीं थी, और अगर थी भी तो किसी खास दिशा में 2D projection को लगातार दिखाने जैसी थी। व्यावहारिक रूप से इसे 2D only कहना गलत नहीं होगा। matrix से जुड़ी linear algebra operations में 2D matrix अपेक्षाकृत आसान गणना मानी जाती है। लेकिन असली समस्या 3D matrix operation है। जिस दुनिया में हम रहते हैं वह 3D है, और जो कुछ भी हम देखते, सुनते और महसूस करते हैं, वे सभी भौतिक घटनाएं 3D space + 1D time में घटित होती हैं। हर सेकंड 3D space में होने वाली घटनाएं लगातार बदलती रहती हैं, लेकिन हमारी आंखों को उस जानकारी को मजबूरन 2D में map करके पहचानना पड़ता है। मानव मस्तिष्क visual information को process करने में बहुत अधिक resources इस्तेमाल करता है, इसकी वजह भी यही है। यही बात computation पर भी लागू होती है। ज़रा उस काम के बारे में सोचिए जिसमें किसी 3D वस्तु की image को उस 2D space में दिखाना हो जिसे हम पहचानते हैं, यानी monitor पर। उदाहरण के लिए, 3D polygon से बनी किसी आकृति को किसी विशेष angle से देखने वाली image को 2D monitor पर दिखाना है। इसके लिए matrix transformation operation की जरूरत पड़ती है। rotation transformation, stretching, vanishing point processing जैसी गणनाएं करनी होती हैं। और अगर थोड़ा आगे बढ़ें तो ray tracing भी करनी पड़ती है। यानी प्रकाश और shadow effects को भी साथ में देखना होता है, और यह गणना तो और भी अधिक computation मांगती है। क्योंकि geometric optics की गणनाएं सभी polygons के हर particle point पर साथ-साथ लागू करनी पड़ती हैं। और यह विशाल गणना हर सेकंड सिर्फ एक बार नहीं, बल्कि कम से कम 30 से 60 बार करनी होती है, तभी मानव आंख इसे real-time में स्वाभाविक रूप से घटित होती हुई मानती है। कंप्यूटर इंजीनियरों के लिए यह सचमुच किसी दुःस्वप्न जैसा काम रहा होगा। अगर 90 के दशक की शुरुआत में CPU से यह काम किया जाता, तो शायद एक मिनट में मुश्किल से एक scene दिखाया जा सकता था। अधीर gamers के लिए यह असहनीय lag बन जाता। लेकिन GPU इन दोहराए जाने वाले operations को matrix-based parallel processing से संभाल सकता है, इसलिए अब CPU को अकेले यह सारा बोझ उठाने की जरूरत नहीं है। तरह-तरह की matrix transformation operations और ray tracing geometric optics calculations का अधिकांश भाग GPU संभालता है, और CPU केवल उनके बाद की processing करता है। यानी gamer के नज़रिए से अब यह computation मानो 'accelerate' हो गया है। इसी वजह से इसे accelerator भी कहा जाने लगा।

अगर कोई data matrix-based रूप में व्यक्त किया जा सकता है, चाहे वह gaming के लिए high-resolution 3D image हो, medical 3D voxel data हो, या deep learning training के लिए multi-feature tensor data, यह कहना अतिशयोक्ति नहीं होगी कि GUGPU का स्वर्णकाल अपने peak पर पहुंच चुका है। लेकिन समस्या यह है कि GUGPU की ताकत ही उसकी कमजोरी भी है। parallel processing की speed सुधारने का तरीका है cores की संख्या बढ़ाना, या cores के बीच information I/O speed को और तेज करना। इसके लिए memory को हर core के साथ integrate किया जा सकता है, या bandwidth बढ़ाई जा सकती है। लेकिन एक कीमत ऐसी है जो नहीं बदलती: power consumption उतना ही बढ़ता है। core खुद जितनी बिजली खाता है, उसके अलावा core में खर्च हुई बिजली जब heat में बदलती है तो उसे ठंडा करने के लिए cooling की power consumption भी बढ़ती है। साथ ही बार-बार heating-cooling की प्रक्रिया chip की lifespan पर भी असर डालती है। GPU भी silicon-based semiconductor chip ही है, इसलिए अंततः concentrated power usage और computation उसके cores को बनाने वाले materials और components की उम्र घटा देते हैं। mechanical failure, thermal failure, electrical failure हो सकते हैं। वास्तव में blockchain mining के लिए लगभग factory-style में चलाए जाने वाले mining farms में इस्तेमाल किए गए GUGPU की lifespan 6 महीने भी नहीं टिकती, ऐसी बातें यूं ही नहीं कही जातीं; और सामान्य PC bang में इस्तेमाल होने वाले high performance GPU की उम्र भी आमतौर पर 2 साल, और बहुत लंबा मानें तो 3-4 साल ही होती है। बेशक अगली पीढ़ी के GPU इतने जल्दी आ जाते हैं कि lifespan का मुद्दा ढक जाता है, लेकिन lifespan का CPU से कम होना एक ऐसी कमी है जिसे स्वीकार करना पड़ता है।

फिर भी AI युग अभी बस बढ़ना और खिलना शुरू ही कर रहा है, और GPU जैसे accelerator के बिना इन असंख्य calculations को संभालने का कोई तरीका नहीं है। लेकिन अगर केवल GPU पर निर्भर रहें, तो training के लिए GPU की power consumption आसमान छूने लगेगी। इसलिए इसका विकल्प स्वाभाविक रूप से जरूरी था, और 2010 के दशक के उत्तरार्ध से 2020 के दशक में आते-आते सामने आए समाधानों में FPGA और NPU शामिल हैं। 2019 में, Intel के साथ CPU manufacturing की दो बड़ी कंपनियों में शामिल AMD ने दुनिया की नंबर 1 FPGA कंपनी Xilinx का अचानक अधिग्रहण कर लिया। उद्योग की प्रतिक्रिया थी कि जो होना था, वह हो गया, और वजह भी साफ थी: प्रतिद्वंद्वी Intel पहले ही FPGA बाज़ार की नंबर 2 कंपनी Altera को 2015 में 16.7 billion dollar में खरीद चुका था। पारंपरिक CPU manufacturing दिग्गजों ने CPU से स्वभाव में अलग FPGA को प्रतिस्पर्धा के साथ क्यों खरीदा? FPGA का अर्थ ही है ऐसा computation chip जिसे उपयोगकर्ता जरूरत के अनुसार बार-बार reprogram कर सके। उपयोगकर्ता reprogram कर सकता है, यानी chip में काम करने के लिए जरूरी न्यूनतम functions को छोड़कर बाकी units की arrangement या design उपयोगकर्ता बदल सकता है। ऐसे में स्वाभाविक रूप से यह CPU या DRAM जैसे standardized process में बने semiconductor chips की तुलना में महंगा होगा। क्योंकि इसमें degree of freedom अधिक रखनी पड़ती है। deep learning युग से पहले इन्हीं कारणों से FPGA-based chips का उपयोग मुख्यतः विशेष उद्देश्यों के लिए होता था, जैसे nuclear power plants या space probes जैसी खास जरूरतें; इनका general-purpose उपयोग लगभग नहीं के बराबर था।

लेकिन deep learning युग के गंभीर रूप से शुरू होते ही, वह बाज़ार जिसे GPU के पूरी तरह हावी रहने वाला माना जा रहा था, धीरे-धीरे विविध होने लगा। GPU के लिए यह रुझान हर मायने में अच्छी खबर नहीं था। उदाहरण के लिए, अगर deep learning केवल convolution calculation को दोहराने वाले operations का समूह भर होता, तो कोई समस्या नहीं होती। लेकिन जैसे-जैसे deep learning के उपयोग के क्षेत्र बढ़े, वैसे-वैसे deep learning engine को जिस data पर train होना था, उसका पैमाना और उसकी विशेषताएं भी अधिक विविध होती गईं। सिर्फ image में अंक पहचानना या कुत्ते-बिल्ली अलग करना जैसे कामों से application scope सीमित हो जाता है; इसलिए natural language processing करना, 1,000 से अधिक features वाले जटिल chemical process data में errors detect करना, IoT sensors के networks design करना, CFD से कवर न हो पाने वाले porous media के भीतर जटिल fluid flow का अनुमान लगाकर simulation करना, या real-time autonomous driving engine बनाना जैसी विविध उपयोगिता और specs वाला बाज़ार खुलने लगा। deep learning को उद्योग में लागू करना चाहने वालों के लिए यह diversification स्वागतयोग्य था, लेकिन general-purpose GPU से सब कुछ कवर करना चाहने वालों के लिए यह चिंता का विषय बन गया। हर application में discrimination महत्वपूर्ण है, inference महत्वपूर्ण है, prediction महत्वपूर्ण है या detection महत्वपूर्ण है—इनकी प्राथमिकताएं अलग-अलग होती हैं, इसलिए एक ही ढर्रे वाले neural network algorithm के लिए optimized computation structure को लगातार बनाए रखना कठिन होने लगा। deep learning के शुरुआती दौर में उपलब्ध hardware लगभग केवल GUGPU ही था, इसलिए deep learning algorithm developers को उपलब्ध GUGPU specs के आधार पर ही algorithm बनाना पड़ता था। लेकिन deep learning द्वारा संभाले जाने वाले data के प्रकार और मात्रा के घातांकीय रूप से बढ़ने के साथ अब स्थिति उलट रही है, और deep learning algorithms का GPU architecture design पर असर पड़ने की आवृत्ति बढ़ती जा रही है। जैसे GPU के individual cores की precision को FP16 पर fix करना, या variable precision की अनुमति देने वाले multi-precision cores design करना—ये उसी के उदाहरण हैं। लेकिन ऐसी deep learning-driven GPU design की भी सीमाएं स्पष्ट हैं। GPU भी एक बार बन जाने के बाद उसकी संरचना बदलना लगभग असंभव होता है, और उसमें reprogramming की गुंजाइश नहीं के बराबर होती है। कुल्हाड़ी से दाढ़ी तो बनाई जा सकती है, लेकिन हाथ में जमी हुई razor की कमी महसूस होना स्वाभाविक है।

इसके विपरीत, बाज़ार में यह स्वीकार्यता बढ़ती जा रही है कि FPGA इस उद्देश्य के लिए अधिक उपयुक्त हो सकता है। जैसा पहले बताया गया, FPGA को ग्राहकों तक तब भी पहुंचा दिया जाता है जब उसकी logic design पूरी तरह अंतिम रूप में नहीं होती। हालांकि, उसके ऊपर ग्राहकों को अपनी ज़रूरत के अनुसार प्रोग्राम करने के लिए एक तरह का SDK दिया जाता है। यानी ग्राहक अपने उद्देश्य के हिसाब से, उदाहरण के लिए, fluid dynamics simulation के लिए समर्पित deep learning chip भी बना सकते हैं। भले ही शुरुआती चरण में design में कोई गलती रह जाए और वह ठीक से काम न करे, फिर भी reprogramming संभव होने के कारण उसे आसानी से सुधारा जा सकता है, और इस तरह शुरुआती test process में लागत का नुकसान कम किया जा सकता है। यह GPU में हार्डवेयर स्तर पर मिलने वाली parallel processing performance की बराबरी तो नहीं कर सकता, लेकिन FPGA भी parallel processing कर सकता है, और यह भी उसकी अपनी विशेषता से आता है। FPGA में software level पर parallel processing को implement किया जा सकता है, जहां single core पर multiple instruction लेकर multiple output देने वाला algorithm design संभव है। इस तरीके को Multiple instruction multiple data (MIMD) कहा जाता है। दूसरी ओर, GPU के individual core में repeated work के जरिए parallel processing के लिए optimal condition बनाने हेतु data flow मूल रूप से single instruction multiple data (SIMD) के रूप में बना होता है। यदि instruction set अच्छी तरह तैयार हो और data format सुव्यवस्थित हो, तो GPU हार्डवेयर स्तर पर लगभग असाधारण parallel processing दे सकता है। लेकिन data format बदल जाए या ऐसे operation आ जाएं जिन्हें दिए गए instruction set से कवर करना मुश्किल हो, तो उसका धीमा पड़ना तय है। इसके मुकाबले FPGA में हार्डवेयर स्तर की parallel processing कठिन है, लेकिन उसका सबसे बड़ा लाभ है कि वह flexible है। data format (width) बदल जाए तो भी पहले से define किए गए instruction set से बंधे रहने की जरूरत नहीं होती, क्योंकि multiple instruction set का उपयोग किया जा सकता है। यह flexibility आज के deep learning युग में, जहां विविध datasets और edge applications पर जोर बढ़ रहा है, इस बात का संकेत है कि FPGA की बाज़ार क्षमता बढ़ेगी.

इसके अलावा, FPGA को मूल रूप से हजारों cores एक साथ चलाने की जरूरत नहीं होती, इसलिए (भले प्रदर्शन कुछ कम हो) GPU की तुलना में इसकी बिजली खपत बहुत, बहुत कम होती है (संलग्न तालिका 1 देखें)। अतिरिक्त रूप से, जैसे-जैसे बाज़ार के deep learning algorithm बेहतर होते जाते हैं, FPGA में power consumption के तरीके भी बदले जा सकते हैं, इसलिए energy efficiency को कभी भी optimize किया जा सकता है। कारण यह है कि गैर-ज़रूरी switches बंद किए जा सकते हैं और केवल ज़रूरी switches ही चालू रखने होते हैं। इसी वजह से, deep learning युग के पूरी तरह शुरू होने से पहले GPU से खास लाभ न उठा पाने वाली Intel और AMD ने जल्दबाज़ी में उद्योग की नंबर 1 और 2 FPGA कंपनियों का बड़े धन से अधिग्रहण किया, ऐसा समझा जा सकता है। बेशक, पारंपरिक GPU दिग्गज Nvidia भी चुप नहीं बैठा। FPGA के जितने भी फायदे हों, deep learning में GPU की तुलना में उसकी एक गंभीर कमजोरी अभी भी है। वह है training speed का GPU से धीमा होना। यह एक अपरिहार्य कमी है, क्योंकि उसकी संरचना शुरुआत से ही हार्डवेयर स्तर पर उपलब्ध cores को मनमाने ढंग से बढ़ाकर built-in करने वाली नहीं है। Intel और AMD ने FPGA के जरिए GPU के प्रभुत्व वाले AI accelerator बाज़ार में हिस्सा लेने की रणनीति बनाई। Intel ने Agilex और PAC (programmable acceleration card) लॉन्च किए, और AMD (Xilinx) ने भी accelerator card Alveo लॉन्च कर दांव खेला। खासकर Xilinx ने HBM (high-bandwidth memory) को सीधे FPGA के साथ जोड़ने वाले Versal जैसे उत्पादों की ओर रुख किया, और यह 10 नैनोमीटर से नीचे के semiconductor ultra-fine patterning technology के परिपक्व होने से संभव हुआ (Versal के मामले में 7 नैनो process पर निर्माण)। Intel द्वारा Altera के अधिग्रहण के बाद Intel की FPGA-आधारित accelerator revenue में बड़ी वृद्धि नहीं दिखी, जबकि Xilinx की revenue लगातार तेज़ी से बढ़ी है। इससे यह भी पता चलता है कि Xilinx की FPGA + HBM संरचना deep learning accelerator performance gap को धीरे-धीरे कम कर रही है। इसके अलावा, Xilinx ने deep neural network के लिए optimized xDNN processor के साथ development का विस्तार किया है और flexible deep learning accelerator बाज़ार को निशाना बना रहा है.

वास्तव में deep learning training process में matrix operation जितना महत्वपूर्ण है, उतना ही बड़े पैमाने के data के training result को integrate करने की प्रक्रिया भी है। इसके लिए, जब data लंबी कतार में हो, तो latency कम करने की प्रक्रिया आवश्यक होती है। यानी data latency को कम करना energy consumption और training speed दोनों के लिहाज से लगातार अधिक महत्वपूर्ण होता जा रहा है। Nvidia ने FPGA खेमे के खिलाफ जो कार्ड खेला, वह भी इसी data latency को कम करने वाली तकनीक InfiniBand है। इसके लिए Nvidia ने Intel और AMD के साथ अधिग्रहण प्रतिस्पर्धा में जीतकर 2019 में NIC (network-interface card) और InfiniBand क्षेत्र की वैश्विक दिग्गज Mellanox को 6.9 अरब डॉलर में खरीद लिया, और अपनी NPU optimization technology को मजबूत किया। Nvidia, GPU के अलावा, deep learning और आगे चलकर पूरे AI accelerator बाज़ार को जिस तकनीक से लक्ष्य बना रहा है, वह है general-purpose deep learning accelerator Xavier SoC, जिसे खास तौर पर autonomous vehicle बाज़ार में, जहां AI accelerator की मांग विस्फोटक रूप से बढ़ रही है, मुख्य उत्पाद के रूप में position किया गया है। Nvidia का CUDA भी deep learning के लिए विशेष cuDNN प्रदान करता है, जिसमें dataset या scale की परवाह किए बिना लगभग हर deep neural network को आवश्यक units पहले से implement किए गए हैं। इसलिए यह कहा जा सकता है कि उसने भविष्य के NPU (Neural processing unit) बाज़ार में प्रवेश के लिए भी आधार तैयार कर लिया है। खासकर NPU ऐसे chips होते हैं जिनमें किसी specific dataset के लिए DNN को पहले से हार्डवेयर स्तर पर implement किया जाता है (अर्थात deep learning network की हर layer को silicon chip आधारित logic unit के साथ 1:1 mapping करके बनाया गया chip। यानी इसे hardware level पर सीधे neuron को implement करने जैसा समझा जा सकता है)। इस कारण, उनकी प्रकृति के हिसाब से वे mobile AP में integrate होने के लिए उपयुक्त हैं, और इसलिए भविष्य में भी तेज़ी से बढ़ते AP बाज़ार में उनकी पकड़ बने रहने की संभावना अधिक है। NPU को ऐसे chip के रूप में देखा जा सकता है जिसमें 'inference' को GPU पर नहीं, बल्कि edge device (जैसे smartphone) पर करने लायक रूप में function fixed कर दिया गया है। GPU का आकार अब इतना बड़ा हो चुका है कि उसे smartphone में नहीं डाला जा सकता, इसलिए पहले से trained structure को built-in करने के तरीके से NPU बनाया जाता है। यदि model training खुद GPU server संभाले और NPU केवल trained model के आधार पर input data से features infer करने की भूमिका निभाए, तो अब बहुत अधिक बिजली खर्च करने की जरूरत नहीं रहती, और आकार भी बड़ा होने की आवश्यकता नहीं होती। इसलिए इसे smartphone या automotive semiconductor chip आदि में customized रूप से integrate किया जा सकता है। इसे FPGA द्वारा लंबे समय से अपनाई जा रही flexibility को बायपास करने वाली रणनीति के रूप में भी देखा जा सकता है। Nvidia ने इसी NPU बाज़ार को लक्ष्य बनाकर Xavier के बाद Jetson series पेश की और कीमत भी और कम कर दी.

NPU बाज़ार में प्रतिस्पर्धी शायद Google होगा। Google ने अपनी डिजाइन की हुई chip TPU (tensor processing unit) series Coral पेश की है और इसकी कीमत Nvidia के Jetson की तुलना में 1/5 से भी कम रखकर cost competition की कोशिश की है। बेशक, performance और price आम तौर पर साथ चलते हैं, और Coral की performance Xavier या Jetson की 1/5 से 1/3 के स्तर की मानी जाती है। हालांकि, यह अनुमान लगाया जाता है कि Google आगे जो TPU लॉन्च करेगा, वे बाज़ार से मिलने वाले feedback के आधार पर कहीं अधिक व्यापक क्षेत्रों में उपयोग किए जाएंगे, और इसकी नींव Google द्वारा सोचे गए GPU cloud server के माध्यम से training model update speed में प्रतिस्पर्धात्मक बढ़त पर है। Samsung और Qualcomm जैसे पारंपरिक mobile AP निर्माता भी, ultra-fine patterning की सीमाओं के कारण AP chip की performance में सुधार की गुंजाइश घटती जाने पर, NPU को ठूंसने की रणनीति अपना रहे हैं। Qualcomm ने अपने Snapdragon series 845 के बाद से NPU जोड़ना शुरू किया, और Samsung ने अपने Exynos series 9 के बाद से NPU जोड़ना शुरू किया। NPU को integrate या parallel रूप से अपनाने वाली कंपनियां स्वाभाविक रूप से mobile chip में मौजूद data के आधार पर धीरे-धीरे इसके उपयोग का दायरा बढ़ाएंगी, और अगला बाज़ार संभवतः automotive semiconductor (autonomous vehicle chip या automotive electronics semiconductor chip), IoT signal processing chip, और military composite radar chip जैसे क्षेत्रों तक फैलता जाएगा.

लेकिन विडंबना यह है कि FPGA और NPU/TPU/cuDNN बाज़ार की प्रतिस्पर्धा हार्डवेयर पर नहीं, बल्कि सॉफ़्टवेयर पर, खासकर इस बात पर निर्भर करती है कि डीप लर्निंग एल्गोरिद्म के बदलाव का रुझान किस दिशा में जाएगा। अभी भी डीप लर्निंग एल्गोरिद्म का क्षेत्र दिन-ब-दिन नए मेथडोलॉजी, नए सिद्धांत और नए मॉडल से भर रहा है, और हर साल AI की चार प्रमुख अकादमिक कॉन्फ्रेंसों में पेपर accept करवाना लगातार कठिन होता जा रहा है। लेकिन जैसा अन्य क्षेत्रों की तकनीक के साथ होता है, वैसे ही डीप लर्निंग भी अब धीरे-धीरे maturity phase में प्रवेश कर रही है, और जब एल्गोरिद्मिक innovation की गति धीमी पड़ने लगेगी, तब FPGA की अपनी flexibility का लाभ भी धीरे-धीरे कम हो जाएगा। अगर कोई तेज़ और अधिक efficient एल्गोरिद्म आता है तो उसके अनुसार reprogramming कर पाने का जो लाभ था, वही तब खास लाभ नहीं रह जाएगा यदि एल्गोरिद्म बदलने का चक्र धीरे-धीरे लंबा होने लगे। उदाहरण के लिए, अब image recognition जैसी क्षमता में सुधार की गुंजाइश लगभग नहीं के बराबर रह गई है (मानव recognition rate को पार किए हुए काफ़ी समय हो चुका है, और अब अधिकांश एल्गोरिद्म image recognition rate में 95% से ऊपर पहुँच चुके हैं)। इस लिहाज़ से कहा जा सकता है कि एल्गोरिद्म saturated state तक पहुँच चुके हैं। उलटे, आगे चलकर सामान्य-purpose DNN को लगातार बेहतर बनाते हुए हार्डवेयर और नवीनतम एल्गोरिद्म के बीच के अंतर को कम करने का तरीका अधिक फ़ायदेमंद हो सकता है.

डीप लर्निंग एक्सेलरेटर बाज़ार आगे भी बढ़ता रहेगा, और संभवतः 2030 के बाद भी इसकी मांग बढ़ती रहेगी, लेकिन बाज़ार पर किस तरह का दृष्टिकोण हावी होगा, यह अभी देखना बाकी है। डीप लर्निंग एल्गोरिद्म की maturity कब आएगी, यह कोई नहीं बता सकता, लेकिन अंततः वह समय आएगा, और उस बिंदु पर कौन-सी तकनीक अधिक optimized स्थिति में होगी, इसका अनुमान लगाना कठिन है। FPGA में भी innovation की पूरी गुंजाइश है। इस साल जून में Nature में प्रकाशित Google का reinforcement learning-आधारित chip design research* (*https://www.nature.com/articles/s41586-021-03544-w) इस तरह की innovation संभावना का एक अच्छा उदाहरण है। सीमित chip die area पर लाखों-करोड़ों units को व्यवस्थित करना, और units के बीच data input और output के delay को न्यूनतम रखते हुए energy consumption घटाना, सेमीकंडक्टर chip design के सबसे कठिन हिस्सों में से एक रहा है। Fabless कंपनियाँ अब तक अपने संचित know-how के आधार पर इस तरह की optimization करती आई हैं, लेकिन Google द्वारा प्रकाशित परिणाम इतने प्रभावशाली थे कि उन्होंने पुराने know-how को लगभग फीका कर देने लायक सुधार दिखाया। यह कुछ वैसा है जैसे किसी जटिल apartment layout में तरह-तरह के फ़र्नीचर और घरेलू उपकरण इस तरह रखना कि शरीर की हलचल कम से कम हो और ऊर्जा भी न्यूनतम लगे। Google ने Go के state space (~10^360) से भी कहीं बड़े unit placement state space (~10^2500) के लिए AlphaGo की पद्धति को कहीं अधिक उन्नत रूप में आगे बढ़ाते हुए optimized design हासिल की। इस तरह की design method को स्वाभाविक रूप से FPGA optimization पर भी सीधे लागू किया जा सकता है, क्योंकि दिए गए instruction set की degree of freedom को ध्यान में रखते हुए वांछित performance को optimize करना इसी संदर्भ का हासिल किया जा सकने वाला कार्य है.

क्या NVIDIA, Google, Intel, AMD, Qualcomm आदि द्वारा अपनाए जा रहे मौजूदा तरीकों से बिल्कुल अलग दिशा की तकनीक भी आ सकती है? निश्चित रूप से इसकी संभावना है। neural net नाम के अनुरूप, अब केवल मानव मस्तिष्क के neural network की नकल करने के बजाय, उसे लगभग copy & phaste करने के अंदाज़ में सेमीकंडक्टर chip से जोड़ने वाली तकनीक की कल्पना की जा सकती है। हाल में Samsung और Harvard University के कोरियाई वैज्ञानिकों द्वारा प्रकाशित perspective इसी का उदाहरण है** (**https://www.nature.com/articles/s41928-021-00646-1...). इस पेपर में जिस वैकल्पिक तकनीक की संभावना जताई गई है, वह है neuromorphic chip। हालाँकि neuromorphic chip कोई नया विचार नहीं है, लेकिन यह फिर से चर्चा में इसलिए आया क्योंकि मानव मस्तिष्क के neural network में आदान-प्रदान होने वाले electrical signals को nano electrodes से जोड़कर सीधे copy करना और उन्हें नीचे जुड़े memory में phaste करना संभव हो सकता है—यह बात वास्तविक तकनीकी स्तर पर दिखाई गई। इसका अर्थ यह है कि मस्तिष्क नामक soft tissue को छोड़कर उसकी शेष लगभग सभी कार्यक्षमताओं को सेमीकंडक्टर chip पर स्थानांतरित किया जा सकता है। neuromorphic chip को लागू करने के लिए ज़रूरी memory semiconductor तकनीकें जैसे SRAM, RRAM, MRAM, memristor आदि पहले से मौजूद हैं या व्यावहारिक उपयोग में हैं, इसलिए मुख्य प्रश्न बस इतना रह जाता है कि खरबों neurons से उत्पन्न signals को real time में न्यूनतम latency के साथ memory तक कैसे पहुँचाया जाए; copy & phaste शैली का यह कनेक्शन अब तकनीकी रूप से असंभव नहीं दिखता।

आगे भी डीप लर्निंग एक्सेलरेटर द्वारा संचालित सेमीकंडक्टर बाज़ार कई दिशाओं में और अधिक शक्तिशाली रूप से बढ़ेगा। डीप लर्निंग-आधारित data processing कितने अधिक विविध बाज़ारों में प्रवेश कर पाती है, और कितने बड़े unstructured data को संभाल पाती है, इसी पर इस बाज़ार का आकार और उस पर हावी तकनीक तय होगी। यहाँ ध्यान देने की बात केवल मौजूदा key player तकनीकों की प्रगति नहीं, बल्कि ऐसी नई अवधारणा वाली तकनीकें भी होंगी जो इन्हें पूरी तरह अलग दिशा से replace कर सकें। neuromorphic के अलावा, photonics-आधारित neural network भी संभव है, और इसका मतलब होगा कि latency स्वयं प्रकाश की गति तक घट सकती है, जो और अधिक शक्तिशाली NPU के आगमन का संकेत हो सकता है। spintronics के मामले में parallel processing performance को और ऊपर ले जाया जा सकता है, जबकि Google द्वारा जारी TFQ जैसे quantum computing-विशेष डीप लर्निंग एल्गोरिद्म अब तक के तरीकों से बिल्कुल भिन्न रूप में 'inference' को पुनर्परिभाषित करने की संभावना रखते हैं। आगे का सेमीकंडक्टर बाज़ार भी अंततः डीप लर्निंग-चालित AI एक्सेलरेटर और उसके अनुरूप एल्गोरिद्मिक innovation से ही प्रमुख momentum हासिल करेगा, और जब विभिन्न architecture लेकर बड़ी संख्या में fabless कंपनियाँ तेज़ी से उभरेंगी, तब इनके बीच असली क्षमता को परखना और तकनीकी implementation की सीमा तय कर सकने वाली process technology पर पकड़ ही अंततः आने वाले बाज़ार में प्रभुत्व का निर्धारण करेगी.

यह Sungkyunkwan University के प्रोफेसर Kwon Seok-jun की Facebook पोस्ट है; उन्होंने अब तक के CPU/GPU विकास को बहुत दिलचस्प ढंग से समझाया है, इसलिए इसे यहाँ लिया गया है.

1 टिप्पणियां

xguru 2021-10-02

जिन लोगों के पास Facebook अकाउंट नहीं है, उनके लिए मैं पूरा लेख यहां ला रहा हूं। Facebook टिप्पणियों में भी देखने लायक संदर्भ सामग्री है, इसलिए वहां जाकर देखना भी मैं सुझाऊंगा।

डीप लर्निंग एक्सेलरेटर द्वारा संचालित सेमीकंडक्टर बाज़ार का भविष्य

संबंधित पढ़ाई

1 टिप्पणियां