ChatGPT जारी होने की पहली वर्षगांठ: ओपन सोर्स बड़े भाषा मॉडलों की पकड़ बनाने की दौड़
- 2022 के अंत में जारी हुआ ChatGPT, AI क्षेत्र में व्यापक स्तर पर बड़े बदलाव लेकर आया।
- बड़े भाषा मॉडल (LLM) को supervised learning और human feedback से reinforcement learning के ज़रिए अनुकूलित किया गया, जिससे उन्होंने विभिन्न कार्यों में मानव प्रश्नों का उत्तर देने और निर्देशों का पालन करने की क्षमता दिखाई।
- इस सफलता के बाद, अकादमिक जगत और उद्योग दोनों में LLM के प्रति रुचि बढ़ी, कई startup अब LLM पर केंद्रित हैं, और ओपन सोर्स LLM तेज़ी से विकसित हो रहे हैं तथा दावा किया जा रहा है कि कुछ विशिष्ट कार्यों में वे ChatGPT के बराबर या उससे बेहतर प्रदर्शन दिखाते हैं।
शोध और बिज़नेस पर प्रभाव
- हालांकि closed-source LLM (जैसे OpenAI का GPT, Anthropic का Claude) आम तौर पर ओपन सोर्स मॉडलों से बेहतर प्रदर्शन करते हैं, फिर भी ओपन सोर्स LLM का विकास तेज़ है और कुछ कार्यों में इनके बराबर या बेहतर प्रदर्शन तक पहुँचने के दावे किए गए हैं।
- ये प्रगति केवल शोध ही नहीं बल्कि बिज़नेस पर भी महत्वपूर्ण प्रभाव डालती है।
GN⁺ की राय
- ChatGPT के जारी होने की पहली वर्षगांठ के अवसर पर यह बात महत्वपूर्ण है कि ओपन सोर्स बड़े भाषा मॉडल तेज़ी से आगे बढ़ रहे हैं और कुछ कार्यों में ChatGPT के समान या उससे बेहतर प्रदर्शन दिखा रहे हैं।
- इसका प्रभाव शोध और बिज़नेस दोनों पर गहरा पड़ता है, और यह AI तकनीक के लोकतंत्रीकरण तथा innovation को बढ़ावा देने में योगदान दे सकता है।
- यह लेख AI तकनीक के विकास और उसके समाज पर पड़ने वाले प्रभाव में रुचि रखने वाले लोगों के लिए दिलचस्प सामग्री प्रदान करता है।
1 टिप्पणियां
Hacker News की राय
पिछले कुछ दिनों में जारी किए गए बड़े और शक्तिशाली मॉडल:
1.3 अरब parameter वाले llama2 को qlora से fine-tune करने की क्षमता का प्रदर्शन:
ऐसा लगता है कि कई specialized models (code, chat, math, SQL, health आदि) के सामने prompt router रखना जरूरी हो जाएगा:
फिलहाल लगभग 70B मॉडल ChatGPT 3.5 के बराबर स्तर पर हैं, और छोटे मॉडल शुरुआत में समान लग सकते हैं, लेकिन वे ज्यादा दर से hallucination करते हैं और दुनिया के बारे में ज्ञान की कमी रखते हैं
GPT 4 गहरे स्तर पर अधिक 'समझता' है, और open source models अभी उसकी तुलना में नहीं हैं
open source technology में output control features हैं जिन्हें OpenAI लागू नहीं करता (जैसे llama.cpp का grammar या ControlNet), इसलिए इस पहलू में open source, OpenAI से आगे है
DeepSeek 67B मॉडल का उपयोग करने का अनुभव साझा किया गया:
Mistral OpenOrca रचनात्मक लेखन/विश्लेषण में GPT4-turbo के लगभग बराबर है, और समान प्रकार का text output करने की प्रवृत्ति रखता है
लंबे समय में open source LLM का बराबरी पर पहुंचना लगभग अपरिहार्य है, और open source community के संसाधन बहुत सीमित होने के बावजूद उसने <30B parameter models के विकास की गति को काफी बढ़ाया है
व्यक्तिगत अनुभव के अनुसार, open source LLM अभी GPT 3.5 की गुणवत्ता तक नहीं पहुंचे हैं, लेकिन वे आज भी उपयोगी हैं और local machine पर चल सकते हैं
Neovim plugin gen.nvim का उपयोग करके सरल काम किए जाते हैं और काफी समय बचता है
भविष्य को लेकर उत्साह व्यक्त किया गया
पिछले एक महीने में GPT4 के लगातार पीछे हटने के कारण यह भरोसा बढ़ा है कि open source models बराबरी पर पहुंच रहे हैं