30 पॉइंट द्वारा xguru 2024-04-21 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • Dwarkesh Patel के साथ इंटरव्यू में Llama 3, AGI की ओर open sourcing, custom silicon, scaling में energy constraints आदि पर बात हुई, इसलिए पूरे स्क्रिप्ट का संक्षिप्त सारांश

Llama 3

  • Meta ने open source मॉडल Llama 3 लॉन्च किया है, जो Meta AI के नए संस्करण को चलाएगा
  • Meta AI का लक्ष्य सबसे बुद्धिमान और स्वतंत्र रूप से उपयोग किया जा सकने वाला AI assistant बनना है
  • Llama 3 अभी जारी किए गए 8B, 70B और अभी training में चल रहे 405B आकार के Dense मॉडल के रूप में उपलब्ध है
  • इसके पास multimodal, multilingual, और बड़े context window वाले नए रिलीज़ का roadmap है, और Meta इस साल के भीतर 405B को rollout करने की योजना बना रहा है
  • 405B अभी training में है और 85 MMLU तक पहुँच चुका है, और उम्मीद है कि यह कई benchmarks में अग्रणी रहेगा
  • 8B Llama 3 मॉडल का performance, Llama 2 के सबसे बड़े मॉडल के लगभग बराबर है
  • 70B भी बहुत अच्छा है और पहले ही 82 MMLU पर है

GPU

  • Meta ने 2022 में, जब उसके शेयर काफ़ी गिर रहे थे, Reels बनाने के लिए H100 GPU सुरक्षित किए थे
  • TikTok जो कर रहा था उसे जितनी जल्दी चाहें उतनी जल्दी पकड़ पाने में infra सीमित था, इसलिए दोबारा ऐसी स्थिति में न फँसें इसीलिए दोगुना ऑर्डर दिया गया
  • आगे बड़े मॉडल training के लिए इसकी ज़रूरत पड़ेगी, इसका अनुमान था, लेकिन उस समय इसे सिर्फ content recommendation के लिए माना गया था
  • पीछे मुड़कर देखें तो यह बहुत अच्छा फ़ैसला था, और यह इसलिए संभव हुआ क्योंकि वे पीछे चल रहे थे
  • यह ऐसा मामला नहीं था कि "अरे, मैं बहुत आगे निकल गया था"
  • वास्तव में, जब भी हमारे किसी फ़ैसले का नतीजा अच्छा निकला, ज़्यादातर इसलिए कि हमने पहले कुछ गड़बड़ किया था और वही गलती दोहराना नहीं चाहते थे

AGI(Artificial General Intelligence) की ओर coding और reasoning क्षमता का महत्व

  • Meta ने यह पहचाना कि मॉडल को वास्तविक use cases हल करने के लिए coding और reasoning क्षमता महत्वपूर्ण है, भले ही उससे सीधे coding सवाल न पूछे जाएँ
  • अंतिम लक्ष्य AGI को हासिल करना है ताकि मॉडल कई चरणों वाले जटिल कार्य कर सके
  • AGI को multimodal, emotion understanding, memory जैसी विभिन्न क्षमताओं को धीरे-धीरे जोड़कर हासिल किया जाएगा

Energy और scalability bottleneck

  • मॉडल के आकार में घातीय प्रगति जारी रह सकती है, लेकिन अंततः यह energy और infra bottleneck से टकराएगी
  • अभी कई data centers लगभग 50 मेगावॉट या 100MW के हैं, और बड़े data centers 150MW के हैं
  • लेकिन आगे 300MW, 500MW या 1GW स्तर के data centers बनना शुरू होंगे (1GW स्तर के अभी नहीं हैं, लेकिन जल्द हो सकते हैं)
  • लेकिन 1GW होने पर सिर्फ मॉडल training के लिए ही एक nuclear power plant के स्तर की ज़रूरत पड़ेगी, और ऐसे gigawatt-scale clusters बनाने में सख़्त अनुमति प्रक्रियाओं के कारण कई साल लगेंगे

AI क्रांति का महत्व

  • AI, computing के निर्माण जितनी ही बुनियादी चीज़ है, और यह हमारे काम करने के तरीक़े को बदलेगा तथा नए creative tools देगा
  • ब्रह्मांडीय समय-मान पर प्रगति तेज़ होगी, लेकिन bottlenecks की वजह से एकदम रातोंरात intelligence explosion नहीं होगा
  • ऐसा महसूस होता है कि intelligence, consciousness और agency से अलग होने वाली दिशा में जा सकती है, और यह एक बहुत मूल्यवान tool बन सकता है

Open sourcing और शक्ति संतुलन

  • शक्तिशाली AI का कुछ लोगों के हाथों में केंद्रित होना उतना ही ख़तरनाक हो सकता है जितना कि उसका व्यापक रूप से उपलब्ध होना
  • हम स्पष्ट रूप से open source के मज़बूत समर्थक हैं, लेकिन हमने जो कुछ किया है वह सब सार्वजनिक नहीं किया है
  • Open sourcing के ज़रिए community मॉडल को मज़बूत कर सकती है और अधिक संतुलित प्रतिस्पर्धी माहौल सुनिश्चित कर सकती है
  • लेकिन अगर किसी बिंदु पर हमें लगे कि इसकी क्षमताओं में गुणात्मक बदलाव आ गया है और open sourcing उपयुक्त नहीं है, तो हम उसे open source नहीं करेंगे। हर चीज़ का अनुमान लगाना बहुत कठिन है
  • Meta, ज़िम्मेदार और उपयोगी रहने तक open source की ओर झुकाव रखता है, और cloud providers से मॉडल उपयोग की लागत वसूल सकता है
  • अल्पकाल में फोकस मॉडल के दुरुपयोग से होने वाले वास्तविक नुकसान को कम करने पर है, और दीर्घकाल में existential risk पर

10 अरब डॉलर के मॉडल को open source करने की वजह

  • Mobile ecosystem की परेशान करने वाली बात यह है कि इसमें Apple और Google जैसी दो gatekeeper कंपनियाँ हैं
  • ये दोनों कंपनियाँ तय करती हैं कि आप क्या बना सकते हैं
  • इसमें आर्थिक पहलू भी है कि अगर हम कुछ बनाते हैं तो वे पैसा ले जाते हैं, लेकिन गुणात्मक पहलू और ज़्यादा परेशान करने वाला है
  • कई बार हमने कोई feature लॉन्च किया था या करना चाहा था, लेकिन Apple ने कहा, "नहीं, इसे लॉन्च नहीं किया जा सकता"
  • यह बेहद झुंझलाहट भरा है, और सवाल यह है कि क्या हम AI में भी ऐसी दुनिया चाहते हैं
  • क्या कुछ बंद मॉडल चलाने वाली कंपनियाँ API को नियंत्रित करके आपको बताएँगी कि आप क्या बना सकते हैं?
  • यह कहा जा सकता है कि ऐसी स्थिति में न फँसने के लिए खुद मॉडल बनाना मूल्यवान है
  • हम नहीं चाहते कि कोई दूसरी कंपनी हमें बताए कि हम क्या बना सकते हैं
  • Open source के नज़रिए से देखें तो बहुत से developers भी नहीं चाहेंगे कि ऐसी कंपनियाँ तय करें कि वे क्या बना सकते हैं
  • तब सवाल यह होता है कि इसके आसपास बनने वाला ecosystem कैसा होगा
    • क्या नया और दिलचस्प उभरकर आएगा?
    • वह हमारे products को कितना बेहतर बना सकेगा?
  • उनका मानना है कि database, caching system या architecture की तरह अक्सर community से मूल्यवान योगदान मिल सकते हैं, जो बेहतर products बनाने में मदद करते हैं
  • तब जो app-specific काम हम करते हैं, वह अब भी differentiating रहेगा और बुनियादी रूप से कम महत्वपूर्ण नहीं होगा
  • हम अपना काम करते रह सकेंगे
  • Open source होने की वजह से हमारे और community, दोनों के systems बेहतर होंगे
  • लेकिन एक दूसरी दुनिया भी हो सकती है
  • शायद मॉडल खुद product के और ज़्यादा क़रीब हो जाए
  • तब आर्थिक गणना और पेचीदा हो जाएगी। चाहे open source करें या नहीं, आप ख़ुद को काफ़ी हद तक commoditize कर रहे होंगे
  • लेकिन अब तक जो दिख रहा है, उससे लगता है कि हम अभी उस क्षेत्र में नहीं हैं

मॉडल की monetization

  • क्या cloud providers को मॉडल license देने से काफ़ी revenue आने की उम्मीद है?
  • Llama कई मायनों में एक बहुत permissive open source license है
  • बस, इसे इस्तेमाल करने वाली बड़ी कंपनियों पर कुछ सीमाएँ हैं। यही वजह है कि हमने वे सीमाएँ रखी हैं
  • हम उन्हें इसका उपयोग करने से रोकने की कोशिश नहीं कर रहे, लेकिन अगर वे मूल रूप से हमारे बनाए हुए को उठाकर दोबारा बेचकर पैसा कमाना चाहते हैं, तो हम चाहते हैं कि वे हमसे आकर बात करें
  • Microsoft Azure या Amazon जैसे मामलों में, अगर वे मॉडल को resell करते हैं, तो उसके लिए revenue sharing होना चाहिए
  • इसलिए कहा गया है कि ऐसा करने से पहले हमसे बात करें, प्रक्रिया यही है
  • इसलिए Llama-2 के मामले में हमने मूल रूप से सभी प्रमुख cloud कंपनियों के साथ समझौते किए थे, और Llama-2 सभी cloud platforms पर hosted service के रूप में उपलब्ध है
  • जैसे-जैसे हम और बड़े मॉडल जारी करेंगे, यह और बड़ी बात बनेगी
  • यह हमारा मुख्य काम नहीं है, लेकिन अगर वे कंपनियाँ हमारे मॉडल बेचती हैं, तो यह उचित है कि हम भी किसी न किसी रूप में उसका लाभ साझा करें

Custom silicon

  • Meta बड़े मॉडलों को कुशलतापूर्वक चलाने के लिए custom silicon विकसित कर रहा है
  • Llama-4 के लिए नहीं, बल्कि पहले ranking और recommendation प्रकार की inference संभालने वाले custom silicon बनाए गए, जिनसे Reels, News Feed ads आदि संचालित हुए
  • इन्हें अपने silicon पर शिफ्ट कर पाने के बाद अब महंगे NVIDIA GPU को केवल training के लिए इस्तेमाल किया जा सकता है
  • भविष्य में वे खुद silicon विकसित करके पहले सरल training में और बाद में बहुत बड़े मॉडल train करने में उसका उपयोग करना चाहते हैं
  • तब तक यह कहा जा सकता है कि यह कार्यक्रम काफ़ी अच्छी तरह आगे बढ़ रहा है, इसे व्यवस्थित रूप से deploy किया जा रहा है, और इसके लिए एक long-term roadmap मौजूद है

4 टिप्पणियां

 
laeyoung 2024-04-22

"1GW हो तो सिर्फ मॉडल ट्रेनिंग के लिए ही एक परमाणु बिजलीघर के बराबर क्षमता चाहिए"

अब तो foundation model को train करने के लिए nuclear development(?) भी चाहिए लगता है।

 
tsboard 2024-04-22

लगता है कि उनके सामने कई तरह की चिंताएँ हैं। Google और Apple के प्रति, जो platform पर पकड़ बनाए हुए हैं, उनकी मजबूत नाराज़गी समझ में आती है।

 
daejin 2024-04-22

"10 अरब डॉलर के मॉडल को open source करने की वजह" वाला हिस्सा भले ही एक संक्षिप्त लेख है, फिर भी उसमें कुछ सोचने पर मजबूर करने वाली बातें हैं।

 
realg 2024-04-21

अच्छा कंटेंट साझा करने के लिए धन्यवाद।