GPT-3 अब बाज़ार में अकेला नहीं है
(lastweekin.ai)-
यह सही है कि GPT-3 ने AI बाज़ार को बड़ा झटका दिया: यह एक बेहद बड़े पैमाने का AI मॉडल है जो "text-in text-out" में मजबूत है
-
क्योंकि यह paid था, कई संगठनों ने GPT-3 जैसे अपने-अपने version के मॉडल बनाना शुरू किया
→ ज़रूरी computing power की वजह से यह आसान नहीं है। 175B parameter वाले OpenAI मॉडल के लिए MS के साथ मिलकर 10,000 GPU और 45TB text data का उपयोग किया गया
→ हिसाब लगाएँ तो GPT-3 को train करने में लगभग 10~20 अरब won के बराबर लागत आती है
- अलग-अलग कोशिशें सामने आ रही हैं
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- हैरानी की बात यह है कि GPT-3 जैसा कुछ बनाने की पहली कोशिश open source प्रतिभागियों द्वारा बनाई गई "EleutherAI" थी
→ इसने GPT-3 जैसे dataset "The Pile" को सार्वजनिक किया
→ इसके बाद GPT-Neo 1.3B, 2.7B जैसे छोटे version से लेकर हाल का 6B parameter वाला GPT-J-6B भी जारी किया गया
- GPT-3 की घोषणा के 6 महीने बाद, चीन की Tsinghua University के शोधकर्ताओं और BAAI (Beijing Academy of AI) ने मिलकर CPM (Chinese Pre-trained Language Model) जारी किया
→ 100GB चीनी text से 2.6B parameter मॉडल बनाया गया। यह GPT-3 तक नहीं पहुँचता, लेकिन चीनी text पर बनाया गया होना उल्लेखनीय है
-
उसके कुछ समय बाद Huawei ने 200B parameter वाला PanGu-α जारी किया (1.1TB चीनी text का उपयोग)
-
Naver ने 204B parameter वाला HyperCLOVA पेश किया
-
इज़राइल की AI21 Labs ने 178B वाला Jurassic-1 जारी किया
-
NVIDIA और MS ने 530B parameter मॉडल Megatron-Turing NLG जारी किया
-
मूल रूप से GPT-3 जैसे और भी बड़े मॉडल बन रहे हैं, और आने वाले कुछ वर्षों तक इनके और बड़े होने की संभावना है
-
ऐसे बड़े मॉडलों को train करने के लिए अरबों डॉलर के निवेश की प्रवृत्ति फिलहाल बनी रहने की संभावना है
→ यह चिंता की बात है कि केवल भरपूर funding वाली कंपनियाँ ही ऐसे मॉडल बना सकती हैं
-
यह रुझान कब तक बना रहेगा, और GPT-3 से आगे कोई बड़ा breakthrough होगा या नहीं, इसका अनुमान लगाना कठिन है
-
फिलहाल हम इस यात्रा के बीचोंबीच हैं, and आने वाले कुछ वर्षों में क्या होता है यह देखना दिलचस्प होगा
1 टिप्पणियां
GPT-Neo : GPT-3 के स्तर का मॉडल open source/मुफ्त बनाने वाला प्रोजेक्ट https://hi.news.hada.io/topic?id=3599
MS और Nvidia ने दुनिया का सबसे बड़े पैमाने का language model MT-NLG 530B घोषित किया https://hi.news.hada.io/topic?id=5187