4 पॉइंट द्वारा GN⁺ 2023-12-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ChatGPT जारी होने की पहली वर्षगांठ: ओपन सोर्स बड़े भाषा मॉडलों की पकड़ बनाने की दौड़

  • 2022 के अंत में जारी हुआ ChatGPT, AI क्षेत्र में व्यापक स्तर पर बड़े बदलाव लेकर आया।
  • बड़े भाषा मॉडल (LLM) को supervised learning और human feedback से reinforcement learning के ज़रिए अनुकूलित किया गया, जिससे उन्होंने विभिन्न कार्यों में मानव प्रश्नों का उत्तर देने और निर्देशों का पालन करने की क्षमता दिखाई।
  • इस सफलता के बाद, अकादमिक जगत और उद्योग दोनों में LLM के प्रति रुचि बढ़ी, कई startup अब LLM पर केंद्रित हैं, और ओपन सोर्स LLM तेज़ी से विकसित हो रहे हैं तथा दावा किया जा रहा है कि कुछ विशिष्ट कार्यों में वे ChatGPT के बराबर या उससे बेहतर प्रदर्शन दिखाते हैं।

शोध और बिज़नेस पर प्रभाव

  • हालांकि closed-source LLM (जैसे OpenAI का GPT, Anthropic का Claude) आम तौर पर ओपन सोर्स मॉडलों से बेहतर प्रदर्शन करते हैं, फिर भी ओपन सोर्स LLM का विकास तेज़ है और कुछ कार्यों में इनके बराबर या बेहतर प्रदर्शन तक पहुँचने के दावे किए गए हैं।
  • ये प्रगति केवल शोध ही नहीं बल्कि बिज़नेस पर भी महत्वपूर्ण प्रभाव डालती है।

GN⁺ की राय

  • ChatGPT के जारी होने की पहली वर्षगांठ के अवसर पर यह बात महत्वपूर्ण है कि ओपन सोर्स बड़े भाषा मॉडल तेज़ी से आगे बढ़ रहे हैं और कुछ कार्यों में ChatGPT के समान या उससे बेहतर प्रदर्शन दिखा रहे हैं।
  • इसका प्रभाव शोध और बिज़नेस दोनों पर गहरा पड़ता है, और यह AI तकनीक के लोकतंत्रीकरण तथा innovation को बढ़ावा देने में योगदान दे सकता है।
  • यह लेख AI तकनीक के विकास और उसके समाज पर पड़ने वाले प्रभाव में रुचि रखने वाले लोगों के लिए दिलचस्प सामग्री प्रदान करता है।

1 टिप्पणियां

 
GN⁺ 2023-12-03
Hacker News की राय
  • पिछले कुछ दिनों में जारी किए गए बड़े और शक्तिशाली मॉडल:

    • Qwen 72B (और 1.8B): 32K context, 3T tokens पर train किया गया, 10 करोड़ से कम मासिक users के लिए commercial license, benchmarks में मजबूत प्रदर्शन
    • DeepSeek LLM 67B: 4K context, 2T tokens, Apache 2.0 license, code के क्षेत्र में मजबूत (DeepSeek Code 33B की तुलना में भी बेहतर)
    • चीन में जारी मॉडल: Yi 34B (100B की अफवाह है), XVERSE-65B, Aquila2-70B, Yuan 2.0-102B
    • OpenChat 3.5: 7b मॉडल जो मार्च 2023 के ChatGPT जैसे परिणाम हासिल करता है, 8k context window, chatbot arena leaderboard में Llama-2-70b-chat से ऊपर रैंक
    • open source LLM खासकर parameter efficiency और ऐसे उपयोगी मॉडल देने के मामले में उद्योग का नेतृत्व कर रहे हैं जिन्हें उपभोक्ता अपने hardware पर चला सकते हैं
  • 1.3 अरब parameter वाले llama2 को qlora से fine-tune करने की क्षमता का प्रदर्शन:

    • Inkbot knowledge graph बनाता है और YAML format में उपयुक्त संरचना लौटाता है, GPT4 से बेहतर परिणाम प्राप्त करता है
    • सरल prompts और जटिल prompts के उदाहरण दिए गए हैं
    • chunk summarization भी करता है
  • ऐसा लगता है कि कई specialized models (code, chat, math, SQL, health आदि) के सामने prompt router रखना जरूरी हो जाएगा:

    • सामान्य मॉडल चल रहे router को request भेजता है
    • prompt/प्रश्न को तोड़कर expert models के लिए classify और forward किया जाता है
    • responses वापस आती हैं और सामान्य मॉडल द्वारा assemble की जाती हैं
    • इस तरह के समान project पर काम चल रहा है या नहीं, इस पर प्रश्न
  • फिलहाल लगभग 70B मॉडल ChatGPT 3.5 के बराबर स्तर पर हैं, और छोटे मॉडल शुरुआत में समान लग सकते हैं, लेकिन वे ज्यादा दर से hallucination करते हैं और दुनिया के बारे में ज्ञान की कमी रखते हैं

  • GPT 4 गहरे स्तर पर अधिक 'समझता' है, और open source models अभी उसकी तुलना में नहीं हैं

  • open source technology में output control features हैं जिन्हें OpenAI लागू नहीं करता (जैसे llama.cpp का grammar या ControlNet), इसलिए इस पहलू में open source, OpenAI से आगे है

  • DeepSeek 67B मॉडल का उपयोग करने का अनुभव साझा किया गया:

    • यह ChatGPT की जरूरत को बदलने के लिए काफी है
  • Mistral OpenOrca रचनात्मक लेखन/विश्लेषण में GPT4-turbo के लगभग बराबर है, और समान प्रकार का text output करने की प्रवृत्ति रखता है

  • लंबे समय में open source LLM का बराबरी पर पहुंचना लगभग अपरिहार्य है, और open source community के संसाधन बहुत सीमित होने के बावजूद उसने <30B parameter models के विकास की गति को काफी बढ़ाया है

  • व्यक्तिगत अनुभव के अनुसार, open source LLM अभी GPT 3.5 की गुणवत्ता तक नहीं पहुंचे हैं, लेकिन वे आज भी उपयोगी हैं और local machine पर चल सकते हैं

  • Neovim plugin gen.nvim का उपयोग करके सरल काम किए जाते हैं और काफी समय बचता है

  • भविष्य को लेकर उत्साह व्यक्त किया गया

  • पिछले एक महीने में GPT4 के लगातार पीछे हटने के कारण यह भरोसा बढ़ा है कि open source models बराबरी पर पहुंच रहे हैं