Jeff Dean: मशीन लर्निंग के नवीनतम रुझान [वीडियो]

(youtube.com)

25 पॉइंट द्वारा GN⁺ 2024-02-21 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Jeff Dean(Google): मशीन लर्निंग के दिलचस्प रुझान

मशीन लर्निंग के दिलचस्प रुझान और अपेक्षाएँ

पिछले कुछ वर्षों में मशीन लर्निंग ने इस बात को बहुत बदल दिया है कि हम कंप्यूटर क्या कर सकते हैं, इस बारे में क्या अपेक्षा रखते हैं।
भाषा, इमेज, natural language processing जैसे सभी क्षेत्रों में कंप्यूटर अब दुनिया को बेहतर तरीके से पहचानने और समझने की क्षमता रखने लगे हैं।
कंप्यूटर के देख सकने और महसूस कर सकने वाली तकनीकों की प्रगति ने मानव गतिविधि के लगभग हर क्षेत्र में कई अवसर खोले हैं।
बड़े पैमाने के computing resources, specialized computers आदि में प्रगति बेहतर परिणाम देती है और नई संभावनाएँ खोलती है।
हमें ऐसे अधिक विविध hardware की आवश्यकता है जो अधिक दक्षता से चल सके, साथ ही कंप्यूटर क्या कर सकते हैं इसकी सीमा को अधिक प्रभावी ढंग से केंद्रित कर सके।

️स्पीच रिकग्निशन, अनुवाद, इमेज विश्लेषण तकनीकों की प्रगति और prediction accuracy में सुधार

स्पीच रिकग्निशन तकनीक ऑडियो waveform को 5 सेकंड की अर्थपूर्ण बोली में बदलती है, और इस क्षेत्र में बड़ी प्रगति हुई है।
अनुवाद तकनीक एक भाषा से दूसरी भाषा में अनुवाद को कंप्यूटर के लिए बहुत उपयोगी क्षमता के रूप में विकसित कर रही है।
इमेज विश्लेषण तकनीक ने केवल label नाम बताने से आगे बढ़कर scene को समझाने वाले छोटे वाक्यों में बदलना भी संभव किया है, और computer vision में बड़ा विकास हुआ है।
साथ ही, पिछले कुछ वर्षों में इन तकनीकों का उल्टा उपयोग करना भी संभव हुआ है।
यह आश्चर्यजनक है कि 10 वर्षों में प्रदर्शन में इतना सुधार हुआ कि वह मानव accuracy से भी आगे निकल गया।

AI मॉडल की गुणवत्ता सुधारने के लिए hardware scaling का महत्व

स्पीच रिकग्निशन की accuracy मापने वाले प्रतिनिधि benchmark 'Word Error Rate' में 13.25% से 2.5% तक बड़ा सुधार हुआ।
इससे usability बहुत बढ़ी और अब यह इतना भरोसेमंद हो गया है कि ईमेल डिक्टेशन या लिखवाने जैसे काम किए जा सकते हैं।
खासकर hardware scale-up मॉडल की गुणवत्ता बढ़ाने में मदद करता है, और इसके लिए मशीन लर्निंग के लिए optimized hardware की आवश्यकता होती है।
neural network मॉडल की एक विशेषता यह है कि उनमें reduced precision का उपयोग होने पर भी समस्या नहीं होती, और इससे अधिक efficient model training संभव होती है।
साथ ही, मॉडल training में उपयोग होने वाले algorithms linear algebra operations के विभिन्न संयोजनों से बने होते हैं, इसलिए ऐसे कंप्यूटर चाहिए जो reduced precision linear algebra operations को कुशलता से संभाल सकें।

कंप्यूटर नेटवर्क का विकास और language model के प्रति उत्साह

पहली पीढ़ी में सरल लेकिन high-bandwidth network था। प्रत्येक chip 2D grid में जुड़ी थी, और 16x6 grid में 4 पड़ोसी chips और तारों से कनेक्ट थी।
इससे network में routing की आवश्यकता नहीं पड़ती थी, और chips के बीच छोटी दूरी के कारण उच्च bandwidth, कम लागत वाले कनेक्शन संभव हुए।
अगली पीढ़ी में यह 8 racks में 1024 chips तक बढ़ा, और उसके बाद की पीढ़ी में 64 racks में प्रत्येक में 64 chips का उपयोग किया गया।
हाल में V5 series आई, और inference के लिए 256 chips इस्तेमाल करने वाला V5P मॉडल प्रति chip अधिक memory, उच्च bandwidth, और memory bandwidth देता है।
यह मॉडल 16-bit floating point performance में प्रति chip लगभग आधा petaflop प्रदर्शन देता है, और XOR flops के रूप में इसे प्रति chip लगभग 9,000 chips के बराबर गिना जा सकता है।
कंप्यूटर जो काम कर सकते हैं, उनमें सबसे बड़े बदलाव वाले क्षेत्रों में एक language है। इमेज और स्पीच रिकग्निशन में हुई प्रगति की चर्चा की गई, लेकिन language model के प्रति रुचि NN network से पहले से ही थी। इसलिए हमने Google Translate टीम के साथ मिलकर language model पर शोध किया।

️विशाल डेटा और सरल तकनीकों से उच्च-गुणवत्ता वाला translation system बनाना

वैज्ञानिक प्रतियोगिता के लिए विकसित उच्च-गुणवत्ता वाले translation system को वास्तविक काम में उपयोग करने का प्रयास किया गया
2 ट्रिलियन tokens में 5-word sequence कितनी बार आती है, इसका आँकड़ा निकालकर 300 बिलियन unique 5-gram को memory में रखने वाली system बनाई गई
जब डेटा उपलब्ध न हो, तब उससे पहले के 4-gram, 3-gram आदि को संदर्भित करने वाला नया algorithm 'stupid backoff' विकसित किया गया
यह सीख मिली कि सरल techniques जब विशाल डेटा के साथ जुड़ती हैं, तो प्रभावी परिणाम मिल सकते हैं

️शब्दों को high-dimensional vectors के रूप में व्यक्त करके समान संदर्भ वाले शब्दों को पास और अलग संदर्भ वाले शब्दों को दूर रखना

शब्दों को discrete रूप में व्यक्त करने के बजाय, उन्हें high-dimensional vectors के रूप में व्यक्त किया जाता है ताकि समान संदर्भ वाले शब्द पास आएँ और अलग संदर्भ वाले शब्द दूर जाएँ।
बहुत बड़े डेटा का उपयोग करके training process के माध्यम से, समान संदर्भ में आने वाले शब्दों को पास और अलग संदर्भ में आने वाले शब्दों को दूर रखा जाता है, जिससे space में समान शब्द साथ समूहित हो जाते हैं।
distributed representation शब्द का प्रतिनिधित्व करने वाले 100-dimensional vector में बहुत सी जानकारी encode करती है, और इसी तरीके से language translation model 'sequence to sequence learning' विकसित किया गया।
'sequence to sequence learning' neural network का उपयोग करके वाक्यों को एक-एक करके इनपुट लेता है, वाक्य रचना करता है, प्रत्येक शब्द की distributed representation को update करता है, और translation output देता है।

मॉडल का उपयोग करके natural language translation और multi-turn conversation करना

training data में अंग्रेज़ी वाक्य और उनके समान अर्थ वाले फ़्रेंच वाक्य साथ होते हैं, और इन्हीं डेटा से मॉडल को train किया जाता है।
इनपुट अंग्रेज़ी वाक्य से शुरू करके फ़्रेंच वाक्य का अनुवाद करने वाला मॉडल बनाया जाता है।
multi-turn conversation के लिए, पिछले interactions से बने context का उपयोग करके उपयुक्त response generate करने हेतु मॉडल को train किया जाता है।
Transformer मॉडल का उपयोग करके इनपुट को parallel में process किया जाता है और प्रत्येक हिस्से पर ध्यान देकर translation accuracy सुधारी जाती है।
अब algorithms और machine learning hardware की प्रगति के कारण बड़े पैमाने के मॉडल train करना और अधिक efficient responses generate करना संभव है।

विभिन्न modalities को बिना अलग-अलग विभाजन के संभालने वाला conversational multimodal model विकसित करना

OpenAI के Mina, ChatGPT, और Google के Bard जैसे neural network conversational models की प्रगति पर बात की गई।
language model में आए बदलावों का भी उल्लेख हुआ, और OpenAI के GPT2 तथा Google के T5 कार्यों का संदर्भ दिया गया। इन मॉडलों के parameters की संख्या बहुत बढ़ रही है।
इन कार्यों की नींव के रूप में उपयोग होने वाले Transformer की प्रगति का भी उल्लेख किया गया।
OpenAI के GPT3, GPT-4 और Google के Gemini project आदि पर चर्चा हुई। Gemini project का लक्ष्य ऐसा मॉडल विकसित करना है जो केवल text ही नहीं, बल्कि image, audio जैसी विभिन्न modalities को एक साथ process कर सके।
Gemini project text, image, video, audio आदि को एक sequence के रूप में process करता है और Transformer आधारित training करता है। इससे विभिन्न modalities के लिए सुसंगत representation बनाया जा सकता है।

️TensorFlow training infrastructure, विभिन्न आकार के Gemini products और auto-recovery system

TensorFlow का Gemini Ultra, Pro, Nano इन 3 आकारों में उपलब्ध है, और प्रत्येक मॉडल अलग उपयोग या स्थान के लिए उपयुक्त है।
Gemini मॉडल training के लिए बहुत scalable fabric प्रदान करता है, जिसमें high-performance network और auto-recovery system शामिल हैं।
detected failures को कम से कम करने के लिए multi-node environment में एक साथ upgrades चलाए जाते हैं, high-speed network से दूसरी copies की state restore की जाती है, और recovery time को कुछ सेकंड तक घटाया जा सकता है।
मॉडल training में web documents, books, code, images, audio, video आदि विभिन्न formats के data का उपयोग किया जाता है।
training data की अंतिम संरचना छोटे models पर experiments करके और performance का मूल्यांकन करके तय की जाती है, तथा विभिन्न evaluation metrics की मदद से सर्वोत्तम data mix खोजा जाता है।

डेटा की गुणवत्ता महत्वपूर्ण है और इस पर विचार किया जाना चाहिए। मॉडल architecture से अधिक महत्वपूर्ण डेटा की गुणवत्ता है।

training के अंतिम चरण में domain-related data का उपयोग करके multilingual data जोड़ा जाता है।
उच्च-गुणवत्ता वाला data मॉडल performance में बड़ा अंतर पैदा करता है।
curriculum को अपने-आप सीख सकने की क्षमता भविष्य के शोध क्षेत्रों में से एक है।
इस पर भी शोध चल रहा है कि प्रश्न पूछते समय मॉडल को अधिक प्रभावी ढंग से उत्तर देने में कैसे मदद की जाए और उसकी ताकतों को अधिकतम कैसे किया जाए।
chain of thought prompting technique का उपयोग करने पर मॉडल अधिक विविध चरणों पर विचार करके अधिक सटीक उत्तर दे सकता है।

मॉडल evaluation और performance analysis के परिणाम समझना

इस मॉडल ने छात्र द्वारा गलत उत्तर निकालने के उदाहरण को पेश किया और सुधारे जाने वाले हिस्से की ओर संकेत किया।
मॉडल ने 32 academic benchmarks का मूल्यांकन किया, और Gemini Ultra मॉडल ने 30 benchmarks में मौजूदा अपेक्षित performance से बेहतर परिणाम दिखाए।
यह मॉडल multilingual performance को भी ध्यान में रखता है और जटिल trade-offs पर विचार करता है।
यह मॉडल video understanding और multimodal capabilities में उत्कृष्ट है, और विभिन्न benchmarks में उत्कृष्ट परिणाम हासिल करने वाला पाया गया।

️️ Gemini मॉडल में बेहतरीन speech recognition performance और multilingual क्षमता है, और chatbot के रूप में programming भी संभव है।

Gemini मॉडल ने विभिन्न speech recognition मानकों में top-level error rates दिखाए, और इसकी multilingual क्षमता भी मजबूत है।
पहले टीम ने मॉडल का मूल्यांकन करने और उसकी क्षमताओं को विस्तार से समझने के लिए बहुत प्रयास किए थे।
Gemini मॉडल उपयोगी जानकारी और programming code भी दे सकता है, जो काफी आश्चर्यजनक था।
साथ ही, इसमें TPUs के बारे में ज्ञान भी है, और यह बेहतरीन efficiency तथा performance improvement प्रदान करता है।
Gemini मॉडल अलग-अलग chatbots जैसी व्यक्तित्व विशेषताएँ रख सकता है; इनमें Bard एक मददगार मित्र की तरह प्रश्नों में सहायता करता है, और यह मॉडल LMY साइट पर उच्च ELO score हासिल करने के लिए जाना जाता है।

AI मॉडलों का उपयोग और domain-specific training

कई तरह के मॉडल हैं; इनमें कुछ top-ranked क्षमताएँ दिखाने वाली free services हैं और कुछ paid services।
Gemini England, America, South Korea, Taiwan, Singapore के लिए 'प्रति दस लाख लोगों पर कंपनियों की संख्या' की गणना करके तालिका के रूप में देता है।
England की संख्या सबसे अधिक है, और वह इसकी व्याख्या भी करता है; उसके बाद America, South Korea, Taiwan, Singapore का क्रम आता है।
प्रत्येक जानकारी विभिन्न sources से एकत्र की जाती है, और सटीक परिभाषा के अनुसार वास्तविक संख्या थोड़ी भिन्न हो सकती है।
यदि AI मॉडलों को domain के अनुसार train किया जाए, तो विशिष्ट समस्याओं पर विशेषज्ञ स्तर के परिणाम प्राप्त किए जा सकते हैं।

इमेज और वीडियो बनाने वाले generative models का संक्षिप्त परिचय।

इस वीडियो में image और video बनाने वाले generative models का संक्षेप में परिचय दिया गया है।
संबंधित research projects में 'Party' और 'Imagine' शामिल हैं, और visual images बनाने वाले models में text input के आधार पर विशेष image generate की जा सकती है।
उदाहरण के लिए, नई image बनाने के text input पर मॉडल उसे समझकर वास्तविक image generate करता है।
ऐसे generative models वस्तु-वर्णन के साथ pixel के text representation के आधार पर image बनाते हैं।
इस तरीके से इच्छित text के आधार पर image बनाई जा सकती है।

️इमेज फीचर्स की प्रगति स्मार्टफोन उपयोगकर्ताओं को सुविधा देती है।

इमेज विश्लेषण models को अलग parameters के साथ कई बार train करने पर scale के अनुसार परिणाम बदलते हैं।
smartphone camera की क्षमताएँ computational photography और machine learning के संयोजन से और बेहतर हुई हैं।
photo mode, night mode, color emphasis, automatic conversation response जैसी सुविधाओं से real-time transformation और text extraction संभव है।
ये सुविधाएँ उपयोगकर्ता के context को ध्यान में रखकर ऐसे transformations और responses देती हैं जो मानो पहले संभव ही न हों।
स्पष्ट image transmission और multilingual translation जैसी क्षमताएँ सीमित literacy environments में भी क्रांतिकारी लाभ देती हैं।

️मटेरियल साइंस और मेडिकल क्षेत्र में मशीन लर्निंग तकनीक का उपयोग

material science के क्षेत्र में machine learning का उपयोग तेज simulators बनाने सहित कई पहलुओं पर प्रभाव डाल रहा है।
machine learning के माध्यम से संभावित materials की जाँच करने और वांछित गुणों वाले पदार्थों की पहचान करने की बड़ी संभावना है।
medical क्षेत्र में medical image diagnosis में भी machine learning का उपयोग हो रहा है, और diabetic retinopathy जैसी स्थितियों का प्रारंभिक पता लगाया जा सकता है।
medical image analysis के जरिए डॉक्टरों की कमी वाले क्षेत्रों में भी मरीजों की screening की जा सकती है, और AI मॉडल विशेषज्ञों के समान प्रभावशीलता रख सकते हैं।

मशीन लर्निंग और कंप्यूटर जब दुनिया को बदल रहे हैं, तब मशीन लर्निंग के उपयोग और जिम्मेदारी के सिद्धांत

GPU का उपयोग करके तेज screening और फोटो के माध्यम से dermatology diagnosis किया जाता है
अनुचित bias हटाने, model interpretability, privacy consideration, सामाजिक लाभ आदि पर मशीन लर्निंग उपयोग के सिद्धांत घोषित किए गए
वर्तमान में भी bias, privacy, safety आदि पर शोध जारी है
machine learning और computing की प्रगति से उपयोगकर्ताओं के साथ natural conversation और interaction संभव होने, और कंप्यूटर द्वारा विभिन्न प्रकार की जानकारी को समझने और उत्पन्न करने की अपेक्षा है
इन तकनीकों की संभावनाओं के साथ-साथ समाज के प्रति जिम्मेदारी भी रखनी चाहिए

सामने आए प्रश्नों के माध्यम से डेटा के महत्व और ग्राहक आवश्यकताओं पर चर्चा

Slido के माध्यम से आए प्रश्नों में से कुछ प्रवृत्तियों वाले प्रश्न चुनकर साझा किए गए।
डेटा क्षेत्र में उच्च-गुणवत्ता वाला data और model capacity मॉडल performance को सुधार सकते हैं।
लेकिन data quality और model size दोनों पर विचार करना चाहिए। कम गुणवत्ता वाला data मॉडल की गणितीय समस्या-समाधान क्षमता आदि पर नकारात्मक प्रभाव डाल सकता है।
बड़े पैमाने के video data का उपयोग करके training अभी पर्याप्त रूप से नहीं हुई है, और केवल language data ही नहीं बल्कि visual और speech data के जरिए दुनिया को समझना केवल भाषा से सीखने से अलग होगा।
कुल मिलाकर डेटा का क्षय अभी नहीं हुआ है, और आगे विकास की अभी भी बहुत संभावना है।

️क्या multimodal models प्रत्येक domain के target model से बेहतर प्रदर्शन करेंगे?

कुछ मामलों में multimodal models का performance बेहतर हो सकता है।
modalities बढ़ने पर अन्य modalities का performance सुधरने की प्रवृत्ति होती है।
यदि किसी संकीर्ण समस्या के लिए targeted dataset एकत्र किया जाए, तो उस समस्या पर performance अधिक हो सकती है।
लेकिन यदि समस्या जटिल हो या specialized data इकट्ठा करना कठिन हो, तो ऐसे मॉडल की आवश्यकता होती है जिसमें विविध ज्ञान हो।
कम resources वाले व्यक्तियों के लिए बड़े models को train करना कठिन है, इसलिए machine learning क्षेत्र में कई शोध-विषयों की खोज की जा सकती है।

GPU का उपयोग करके model research और विभिन्न data modalities के महत्व पर ज़ोर

एक GPU या कुछ GPUs का उपयोग करके data quality evaluation, automatic evaluation, online curriculum learning, और optimization methods जैसे शोध किए जा सकते हैं।
Transformer पर शोध 8 GPUs पर किया गया था। LLM और sequence-to-sequence models पर भी 8 GPUs से शोध हुआ था।
यह प्रश्न उठाए गए कि क्या LLM और Transformer ही सब कुछ हैं, और मशीन लर्निंग क्षेत्र में अन्य मॉडलों के शोध की भूमिका क्या होनी चाहिए।
यह चिंता भी है कि अन्य विचारों पर पर्याप्त ध्यान न दिए जाने से कम खोजे गए या कम ठोस रूप से विकसित विचार बाहर छूट सकते हैं।
यह महत्वपूर्ण माना गया कि visual, audio, language के साथ-साथ medical में heartbeat sensor data जैसी अन्य modalities को भी ध्यान में रखा जाना चाहिए।

3 टिप्पणियां

everfrost314 2024-02-21

लगता है आधी बात Gemini की ही है, हाहा

xguru 2024-02-21

वीडियो की सामग्री का सारांश Lilys.AI ने बनाया है.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

धन्यवाद.. xguru जी ने इसे पहले ही बना दिया था, इसलिए मैंने 1 सेकंड में नतीजा देख लिया... ^^

Jeff Dean: मशीन लर्निंग के नवीनतम रुझान [वीडियो]

संबंधित पढ़ाई

3 टिप्पणियां