Transformer बनाने वाले Google कर्मचारी

(wired.com)

2 पॉइंट द्वारा GN⁺ 2024-03-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

2017 में Google के 8 शोधकर्ताओं का “Attention Is All You Need” भाषा प्रोसेसिंग को sequential models के केंद्र से transformer architecture की ओर ले गया और generative AI की नींव बना
Jakob Uszkoreit ने माना कि LSTM लंबे text के बाद के हिस्सों में context clues चूक सकता है, इसलिए उन्होंने पूरे वाक्य को साथ में संदर्भित करने वाले self-attention को विकल्प के रूप में आगे बढ़ाया
Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez और Noam Shazeer के जुड़ने से translation experiments बड़े हुए, और Shazeer के implementation के बाद Big model ने English-to-German translation का record तोड़ दिया
paper 19 मई 2017 को NeurIPS deadline से ठीक पहले submit हुआ; मिले-जुले reviews के बाद दिसंबर के poster session में इसने काफी ध्यान खींचा, और Google ने defensive उद्देश्य से provisional patent file किया
सभी 8 authors Google छोड़ चुके हैं, और Near को छोड़कर Character AI, Sakana AI, Essential AI, Cohere, Inceptive जैसी कंपनियां transformer technology के आधार पर बढ़ीं

“Attention Is All You Need” से आया बदलाव

“Attention Is All You Need” 2017 की spring में Google researchers द्वारा लिखा गया paper था
- 8 authors ने contribution order तय न करने के लिए हर नाम पर star लगाया और “Equal contributor”, “Listing order is random” जैसी footnotes जोड़ीं
इस paper ने neural network आधारित AI को transformer architecture तक विस्तार दिया, और transformer ChatGPT, Dall-E, Midjourney जैसे generative AI products की core architecture बन गया
Geoffrey Hinton ने आकलन किया कि transformer के बिना हम आज की स्थिति तक नहीं पहुंच पाते
- उनका इशारा OpenAI और दूसरी कंपनियों द्वारा ऐसे systems बनाने की दिशा से था जो इंसानी output का मुकाबला करते हैं या कुछ मामलों में उससे आगे निकल जाते हैं
paper के सभी 8 authors Google छोड़ चुके हैं, और हर कोई 2017 में बनाई गई architecture से चलने वाले systems से जुड़े काम में लगा है

self-attention idea की शुरुआत

transformer की शुरुआत Jakob Uszkoreit के self-attention concept से हुई
- वे Google Translate group में काम करते थे, फिर 2012 में Google search page पर user के सवालों का सीधे जवाब देने वाला system बनाने वाली team में शामिल हुए
- उस समय Google को लगा कि Apple Siri search traffic के लिए खतरा बन सकता है, इसलिए उसने इस क्षेत्र पर ज्यादा ध्यान दिया
उस समय language models recurrent neural network और LSTM पर निर्भर थे, लेकिन लंबे text को process करने में सीमाएं थीं
- example sentence Joe is a baseball player... got two hits में “two hits” समझने के लिए पहले की baseball जानकारी याद रखनी पड़ती है
- LSTM ने बड़े और complex text sequences process करना संभव बनाया, लेकिन फिर भी शब्दों को sequentially process करने की वजह से बाद के context clues छूट सकते थे
Uszkoreit ने लगभग 2014 में self-attention का concept सोचा
- self-attention किसी शब्द का translation करते समय sentence के भीतर बाकी सभी positions को reference कर सकता है
- यह शब्दों को sequentially देखने का तरीका नहीं, बल्कि कई inputs को साथ देखने वाला parallel तरीका था, इसलिए machine learning boom के दौरान बड़े पैमाने पर बन रहे parallel processing chips के साथ अच्छी तरह मेल खाता था
existing neural architecture को छोड़ने वाला approach होने के कारण प्रतिक्रिया skeptical थी
- Uszkoreit के पिता Hans Uszkoreit ने भी dinner table बातचीत में यही विचार साझा नहीं किया
- Uszkoreit ने colleagues के साथ छोटे text experiments किए और 2016 में paper निकाला, लेकिन existing collaborators इसे Google search और ads वगैरह में लागू करने में ज्यादा रुचि रखते थे

अचानक जुड़ना और “transformer” team का बनना

2016 में Uszkoreit ने Google cafe में Illia Polosukhin के साथ lunch करते हुए self-attention का सुझाव दिया
- Polosukhin का मानना था कि Google.com पर सीधे जवाब देने के लिए millisecond स्तर पर response देने वाला सस्ता और high-performance system चाहिए
- उन्होंने Ashish Vaswani के साथ collaboration किया, और Vaswani Google Brain में किसी बड़े project की तलाश में थे, तभी self-attention idea से जुड़ गए
तीनों ने “Transformers: Iterative Self-Attention and Processing for Various Tasks” नाम का design document बनाया
- “transformers” नाम शुरू से इस्तेमाल हुआ, और इसका अर्थ input information को transform कर इंसान जैसी समझ निकालने या ऐसा impression देने वाले mechanism से था
- Uszkoreit ने बचपन में Hasbro Transformer toys से खेलने की याद को भी नाम से जोड़ा
इसके बाद Niki Parmar और Llion Jones जुड़े
- Parmar USC से master's degree लेने के बाद Google में आईं और Uszkoreit के साथ Google Search सुधारने के लिए model variants पर काम किया
- Jones Google Research में Polosukhin के manager के अधीन थे, और colleague Mat Kelcey से self-attention concept सुनने के बाद transformer team में शामिल हुए
Google Brain के Łukasz Kaiser और intern Aidan Gomez भी साथ आए
- Gomez University of Toronto में Geoffrey Hinton की lab वाले machine learning group में शामिल हुए, और Kaiser को संबंधित paper extend करने का idea भेजकर internship opportunity पाई
- Kaiser और Gomez ने अपने project और self-attention project को मिलाने के सवाल पर चर्चा की और फिर उन्हें merge करने का फैसला किया

record तोड़ने वाला experiment और deadline से ठीक पहले submission

team ने self-attention model से machine translation किया और BLEU benchmark से performance measure की
- शुरुआती model LSTM alternatives के आसपास के स्तर पर था, लेकिन बेहतर नहीं था
- Noam Shazeer ने संयोग से project के बारे में सुना और जुड़ गए, जिससे implementation quality काफी बढ़ गई
Shazeer ने transformer team का code खुद फिर से implement किया
- वे existing recurrent neural network को असुविधाजनक मानते थे और उसे replace करने के विचार से शामिल हुए
- team members ने उनके implementation को “magic”, “alchemy”, “bells and whistles” जैसे शब्दों से describe किया, और Uszkoreit का मानना था कि self-attention जैसे intuitive mechanism को सचमुच चलाने के लिए कुछ experienced implementers की जरूरत होती है
2017 की NeurIPS submission deadline 19 मई से पहले experiments की रफ्तार तेज हो गई
- team ने 12 घंटे trained basic transformer model और 3.5 दिन trained ज्यादा powerful Big model test किया
- English-to-German translation में basic model ने सभी competing models को पीछे छोड़ा, और Big ने BLEU score में पुराने record को साफ तौर पर तोड़ा, जबकि computational efficiency भी बेहतर थी
deadline से ठीक पहले के 2 हफ्तों में team ने Building 1965 में focused तरीके से काम किया
- ablation के जरिए modules और techniques को remove/replace करके जांचा गया कि वास्तव में क्या जरूरी है
- masking सही न करने से पैदा हुए bugs जैसे issues ठीक करते हुए transformer के मौजूदा components तेज iterative experiments के दौरान व्यवस्थित हुए
title Llion Jones ने Beatles के “All You Need Is Love” को याद करते हुए “Attention Is All You Need” सुझाया
- English-French results submission से 5 मिनट पहले आए, और paper deadline से 2 मिनट पहले submit हुआ
- Google ने defensive उद्देश्य वाले patent portfolio के लिए तेजी से provisional patent file किया

Google, OpenAI, और 8 लोगों की आगे की राह

NeurIPS reviews मिले-जुले थे: एक positive, एक very positive, और एक “ठीक है” स्तर का; paper evening poster session के लिए accept हुआ
- 6 दिसंबर 2017 का 4 घंटे का session और जानना चाहने वाले scientists से भरा रहा
- session खत्म होने का समय रात 10:30 बजे था, फिर भी लोग रुके रहे और security staff को उन्हें जाने के लिए कहना पड़ा
- LSTM के co-inventor Sepp Hochreiter का आकर काम की तारीफ करना Uszkoreit के लिए संतोषजनक पल था
transformer ने Google के भीतर और दुनिया में तुरंत dominance नहीं बना लिया
- Shazeer ने paper publication के आसपास Google management को सुझाव दिया कि पूरा search index छोड़कर transformer-based giant network train किया जाए
- Kaiser तक ने उस समय इस suggestion को absurd माना
- OpenAI ज्यादा तेजी से आगे बढ़ा, और Ilya Sutskever ने Alec Radford को इस idea पर काम करने का सुझाव दिया, जिसके बाद पहला GPT product आया
Google ने 2018 से products में transformer integrate करना शुरू किया
- पहला application translation tool था
- उसी साल transformer-based language model BERT जारी किया, और अगले साल इसे search में लागू करना शुरू किया
- Sundar Pichai ने ChatGPT जैसे large language model पहले न लाने के कारण पर कहा कि जब दूसरों ने दिखा दिया कि यह कैसे काम करता है, तब Google और ज्यादा काम कर सका
paper के सभी 8 authors Google छोड़ चुके हैं
- Noam Shazeer ने Character AI co-found किया, जिसकी estimated valuation 5 अरब डॉलर है
- Llion Jones ने Tokyo-based Sakana AI co-found किया, जिसकी valuation 20 करोड़ डॉलर है
- Jakob Uszkoreit की Inceptive 30 करोड़ डॉलर valuation वाली biotech company है
- Illia Polosukhin का Near लगभग 4 अरब डॉलर market cap वाले token के साथ blockchain बनाता है
- Niki Parmar और Ashish Vaswani ने 2021 में Adept शुरू किया, फिर Essential AI की स्थापना की, और Essential AI ने 80 लाख डॉलर funding जुटाई
- Aidan Gomez ने 2019 में Toronto में Cohere co-found किया, जिसकी estimated valuation 2.2 अरब डॉलर है
- Łukasz Kaiser ने company start नहीं की और OpenAI में शामिल हुए; वे Q* नाम की नई technology के inventors में से एक हैं
Near को छोड़कर इनकी companies transformer technology पर आधारित हैं
- Google ने non-traditional ideas pursue करने का environment बनाया, और सभी authors एक ही office में काम करते थे
- hallway में मुलाकातें और lunch conversations अहम trigger बने
- 8 में से 6 लोग अमेरिका के बाहर पैदा हुए थे, और बाकी 2 में से एक का जन्म तब हुआ जब उनके German parents कुछ समय के लिए California में थे, जबकि दूसरा persecution से बचकर आए परिवार वाला first-generation American है
- Uszkoreit का मानना है कि innovation तब होता है जब सही conditions, सही समय पर सही लोग, fun, सही problem और luck साथ आते हैं

1 टिप्पणियां

GN⁺ 2024-03-21

Hacker News की राय

इसे attention model कहना शायद सही नहीं होगा; attention उन शोधपत्रों से पहले भी मौजूद था
उन्होंने जो किया, वह ज़्यादा इस बात को दिखाने जैसा था कि किसी खास संदर्भ में अगले शब्दों की sequence का अनुमान लगाने के लिए सिर्फ वही काफ़ी है। 2018 में जब मैंने एक मिलता-जुलता framework इस्तेमाल किया था, तो बहुत अजीब लेकिन दिलचस्प behavior मिला था, और मैंने उसे ठीक करने की कोशिश की, लेकिन दूसरे groups की तरह यह नहीं समझ पाया कि साधारण algorithm के साथ compute scale बढ़ाना बेहतर होगा। यह कहना कि एक group ने AI खोज लिया और बदल दिया, और बाकी groups को नज़रअंदाज़ करना, परेशान करने वाला है। ये researchers प्रशंसा के हकदार हैं, लेकिन उन्होंने modern AI का आविष्कार नहीं किया, बल्कि उसे एक दिलचस्प तरीके से आगे बढ़ाया। आज भी ज़्यादा deterministic approaches, world models, memory, graphs, और energy minimization की ओर लौटने का रुझान है, और generative AI मज़ेदार रही है और उससे बहुत कुछ सीखा गया है, लेकिन सिर्फ chips जोड़ते जाने भर से AGI/SGI हल हो जाएगा, यह अभी तक किसी paper में साबित नहीं हुआ है
- यह बहुत ही कठोर और अजीब तरह से कमतर आँकने वाली व्याख्या है। इसलिए शायद HN के लिए बिल्कुल फिट बैठती है
  आज की चौंका देने वाली state of the art, Transformer architecture के बिना मौजूद ही नहीं होती। अगर Transformer सिर्फ compute scale का फ़ायदा उठाने वाला एक lucky passenger होता, तो दुनिया हिला देने वाला app ChatGPT नहीं बल्कि ChatMLP या ChatCNN होता। लेकिन ऐसा नहीं है, और 2024 में भी natural language processing में कोई प्रतिस्पर्धी architecture नहीं है। Transformer एक बेहद गहरा और आश्चर्यजनक विचार है, जिसमें training parallelism जैसी शानदार खूबियाँ हैं। बाद में देखकर GPT को ज़्यादातर derived idea की तरह कमतर दिखाना आसान है, और कभी न कभी Transformer को replace करने वाले state space models के साथ भी यही revisionism लागू किया जाएगा। यह साफ़ है कि GPT पहले के research पर बना था और दूसरे approaches को भी श्रेय मिलना चाहिए। यही science है। लेकिन Transformer बनाने वाले लोग इस लेख की तरह प्रशंसा के पात्र हैं, और इससे बाकी सबको कमतर नहीं किया जाता। इन 8 लोगों ने दुनिया बदल दी, और वे सचमुच प्यार और सम्मान के हकदार हैं
- “साधारण algorithm के साथ compute scale बढ़ाना बेहतर है” वाला कड़वा सबक एक बार फिर काम करता दिखा
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- मैं यह ज़रूर मानता हूँ कि उन्होंने AI को बदल दिया, लेकिन यह नहीं कहूँगा कि उन्होंने modern AI का आविष्कार किया
  व्यक्तिगत रूप से मुझे लगता है कि AGI के करीब पहुँचने के लिए compute power और neural network architecture, दोनों की ज़रूरत होगी
- मैं neuroscience पढ़ रहा हूँ, लेकिन AI कैसे काम करता है इसमें भी मेरी रुचि है
  पुराने तरीकों के बारे में पढ़ चुका हूँ, लेकिन memory graphs और energy minimization जैसे शब्द मेरे लिए नए हैं। जो लोग और सीखना चाहते हैं, उनके लिए कोई हालिया paper या लेख सुझाना चाहूँगा
- अगर यह “Google engineers जिन्होंने AI को धीरे-धीरे आगे बढ़ाया” के बारे में लेख होता, तो शायद इतने ads नहीं बिकते
2014 के आसपास, जब Google अपने चरम पर था, मैंने Uszkoreit से उसकी उस समय की natural language processing team की भूमिका के बारे में बात की थी
मैंने पूछा, “अगर budget unlimited हो तो आप क्या करेंगे?”, और उसने बस जवाब दिया, “वह पहले से ही है”
- जब मैं PhD intern था, तब मैंने Uszkoreit के साथ एक ही office शेयर किया था, और मुझे हमेशा यह बात बहुत cool लगी कि उसने PhD बीच में छोड़ दी थी
- अच्छी कहानी है, लेकिन Google का असली स्वर्णकाल शायद उससे लगभग 10 साल पहले था। 2014 तक गिरावट शुरू हो चुकी थी
- मैंने Borg पर काम किया है
  quota system जैसे ही limit तक पहुँचता है, उसी पल काम कर सकता है, और GPUs कई Borg cells में बिखरे रहते हैं, इसलिए ceiling सीमित हो जाती है। इसी वजह से XBorg बनाया गया, ताकि researchers सभी Borg cells में global search कर सकें। data center capex हर साल लगभग 5 billion dollar है, और Google हर साल hundreds of billions of dollars का revenue कमाता है। unlimited budget जैसी असंभव स्थिति के बारे में पूछना कुछ-कुछ यह पूछने जैसा है कि “मरने के बाद क्या करोगे?” मरने के बाद आप सचमुच कुछ नहीं कर सकते। उस सवाल के संदर्भ में “वह पहले से ही है” का मतलब क्या था, यह समझना भी मुश्किल था, और unlimited budget मान लेने वाली बात पर सीधी प्रतिक्रिया कुछ ऐसी थी
- वह दिलचस्प दौर था। इतने समय बाद इसे फिर देखना अच्छा लग रहा है, और यह सोचकर हैरानी होती है कि तब हम जो काम कर रहे थे, तकनीक वहाँ से यहाँ तक पहुँच गई
“वास्तविक रूप से, 2019 में, शायद 2020 में, GPT-3 या GPT-3.5 तक आ सकता था। बड़ा सवाल यह नहीं है कि उन्होंने उसे देखा या नहीं, बल्कि यह है कि हमने उसे देखकर भी कुछ किया क्यों नहीं। जवाब पेचीदा है”
जवाब है कि monopoly कंपनियाँ तकनीकी innovation को दबाती हैं। पहले से स्थापित ad-driven search business, उभरते chatbot की वजह से search ad revenue खो सकता था। यह कुछ वैसा है जैसे power companies, gas plants, और shale gas producers investor-owned consortium में बंधे हों। क्या power company division बड़े पैमाने पर solar panels लगाकर utilities को बेचे जाने वाले natural gas revenue को खत्म करना चाहेगा? बिल्कुल नहीं। यह Alphabet पर Ma Bell-style antitrust breakup लागू करने के पक्ष में अच्छा तर्क है
- इससे भी बेहतर उदाहरण Kodak है, जिसने 1975 में पहला digital camera बनाया था, लेकिन chemical film business को खतरा मानकर उस project को खत्म कर दिया
- मुझे इस मामले की बारीकियाँ पता थीं। Sundar ने NEMA team को, जिसने GPT-3 स्तर का product character form में बनाया था, I/O में पेश करने से रोक दिया
  Sundar उस technology और जनता की प्रतिक्रिया, दोनों से डरता था, और उसे दबाकर रखना चाहता था
- दूसरी ओर, Alphabet का GPT-3 या GPT-3.5 जारी न कर पाना शायद खुद उसके disrupt होने की संभावना बढ़ाता है, इसलिए संभव है antitrust action की ज़रूरत ही न पड़े
- सच कहूँ तो, यही उन वजहों में से एक है जिनसे मुझे लगता है कि 10 साल बाद Google dominant company नहीं रहेगा
  वेब पर जानकारी खोजने से बहुत-से उपयोगी काम हल होते थे, लेकिन अब उनमें से ज़्यादातर ChatGPT, Claude वगैरह बेहतर करते हैं। Gemini है, लेकिन क्या Google कभी अपने मौजूदा products के search ad revenue loss को स्वीकार करते हुए Gemini search से कमाई कर पाएगा? large language model interface में ads कैसे डाले जाएँ, यह अब भी अनसुलझा है। Google कभी-कभी internet युग के पुराने newspaper की तरह महसूस होता है। web advertising model को भी जमने में समय लगा था
यह काफ़ी अजीब है कि आज Google, OpenAI जैसा नहीं है। शुरुआती दौर में उसके पास DeepMind और PhD टैलेंट की पूरी फ़ौज थी, फिर भी ऐसा नहीं हुआ
- बड़े language models के साथ chat करने का तरीका Google के business model को बहुत बुरी तरह बाधित करता है, और उसके golden goose को मारे बिना इसे product बनाना मुश्किल है
- आखिरकार यह इस बात का सबूत लगता है कि timing ही सब कुछ है
  2010s में deep learning अभी इस चरण में थी कि GPU का सही इस्तेमाल कैसे किया जाए, यह समझा जा रहा था। GPT-2 के बाद जिस स्तर की compute की ज़रूरत पड़ी, वह 2017/2018 में लगभग असंभव रही होगी। Udacity courses में भी बस कुछ घंटों के लिए K80 GPU इस्तेमाल करने जितना ही होता था। लगभग 2020 के आसपास जाकर ही scale hypothesis को परखने लायक हास्यास्पद मात्रा में compute resources लगाना संभव हुआ। बड़े language models का उभार केवल algorithms की नहीं, बल्कि GPU की प्रगति की कहानी भी है—यह उस कड़वे सबक का बहुत साफ़ प्रमाण है
- आज के OpenAI से क्या मतलब है, इसे और समझाने की ज़रूरत है। Google कई तरह के businesses वाली trillion-dollar company है, और OpenAI बड़े generative models की access बेचने वाली company है
- OpenAI बनने के लिए Google को काफ़ी नीचे गिरना पड़ेगा
- Microsoft के दखल देने से पहले AI community के भीतर एक तरह का अनकहा नियम था कि खुलकर सहयोग किया जाए, लेकिन कुछ models को आम जनता के लिए जारी न किया जाए
Geoffrey Hinton और Fei-Fei Li की यह बातचीत संबंधित इतिहास का काफ़ी हिस्सा कवर करती है। लंबाई 1 घंटा 50 मिनट है
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
इसमें Hinton के research career, वे उस दिशा में क्यों गए, और Li ने ImageNet पर कितना काम किया—सब शामिल है
“लेखक सभी Google कर्मचारी थे, और सिर्फ़ इतना ही नहीं, वे एक ही office में काम करते थे”
यह हल्की-सी office return PR जैसा लगता है। आमने-सामने collaboration और बिना रुकावट deep focus time का मिश्रण शायद innovation के लिए सबसे अच्छी तकनीक है
- “बिना रुकावट deep focus time” आम तौर पर office में संभव नहीं होता
  इसलिए व्यवहारिक रूप से बात hybrid model की ही है, और समझदार लोग यही कह रहे हैं
- पिछले 2 साल remote काम करने के बाद मैं नई टीम में office वापस गया, और सच में जब जल्दी काम निपटाना हो तो फ़र्क जीवन बदल देने वाला होता है
- यह इतना भी subtle नहीं है
- “office” का मतलब ज़रूरी नहीं कि open office ही हो
  academia के लोगों के पास दरवाज़े वाले निजी office होने की वजह है। मुझे open office सच में नापसंद है, लेकिन दूसरे लोगों वाली इमारत में निजी office बहुत बढ़िया है
“8 में से 6 लोग अमेरिका के बाहर पैदा हुए थे, और बाकी 2 में से एक अस्थायी रूप से California में रह रहे permanent resident जर्मन माता-पिता की संतान था, जबकि दूसरा उत्पीड़न से भागकर आए परिवार वाला first-generation American था”
मुझे लगता है कि अमेरिका में सुधार की बहुत ज़रूरत है, लेकिन धरती पर ऐसा होने देने वाला देश अमेरिका के अलावा कोई नहीं है। यह सच है
- ऐसा मानना मुश्किल है। उलटे अमेरिका high-skill work immigrants के लिए भी जीवन बहुत कठिन बना देता है
  Singapore, Australia, Germany, Canada जैसे कई देशों में foreign-born residents का अनुपात अमेरिका से ज़्यादा है। जब मैं पहले Google UK में काम करता था, मेरी टीम 100% foreign-born engineers से बनी थी, जो हर महाद्वीप से आए थे
- सहमत। एशिया, यूरोप और अमेरिका में रहने या काम करने के अपने अनुभव में, सबसे विविध सहकर्मी समूह मुझे हमेशा अमेरिका में ही मिला
यह काफ़ी शानदार है कि Google कर्मचारी पहली transformer implementation और reviewer comments को cs/ में देख सकते हैं
AI के इतिहास के इतने स्मारकीय पल Google intranet में इस तरह सुरक्षित हैं
यह हिस्सा ध्यान खींचने वाला है
“8 में से 6 लोग अमेरिका के बाहर पैदा हुए थे, और बाकी 2 में से एक अस्थायी रूप से California में रह रहे permanent resident जर्मन माता-पिता की संतान था, जबकि दूसरा उत्पीड़न से भागकर आए परिवार वाला first-generation American था”
- इससे भी ज़्यादा दिलचस्प यह है कि उनमें से सिर्फ़ एक ने Duke जैसे elite American undergraduate program में पढ़ाई की थी
  बाकी भारत, यूक्रेन, जर्मनी और कनाडा के undergraduate institutions से थे, और University of Toronto की acceptance rate 43% है
- ख़ासकर अमेरिका में यह बात क्यों उल्लेखनीय लगे, मैं नहीं समझता
  अगर यह चीन या जापान जैसा देश होता, जो अमेरिका की तुलना में immigrants का कम स्वागत करते हैं, तो यह एक दिलचस्प observation हो सकती थी
- सही बात। यह अमेरिका, ख़ासकर California, की वास्तव में प्रशंसनीय विशेषताओं में से एक है
  California दुनिया की सबसे बड़ी अर्थव्यवस्थाओं में से एक इसलिए है क्योंकि वह दुनिया के लगभग हर हिस्से के लोगों को आकर्षित करता है और उन्हें अपनाता है

Transformer बनाने वाले Google कर्मचारी

“Attention Is All You Need” से आया बदलाव

self-attention idea की शुरुआत

अचानक जुड़ना और “transformer” team का बनना

record तोड़ने वाला experiment और deadline से ठीक पहले submission

Google, OpenAI, और 8 लोगों की आगे की राह

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय