ओपन-सोर्स बड़े भाषा मॉडलों की पीछा करने की दौड़
(arxiv.org)- यह एक सर्वे है जो ChatGPT के लॉन्च की पहली सालगिरह के समय तुलना करता है कि किन कार्यों में ओपन-सोर्स LLM ने ChatGPT के बराबर या उससे बेहतर प्रदर्शन किया
- ChatGPT ने मानव फीडबैक आधारित reinforcement learning के जरिए उपयोगी और सुरक्षित जवाब तथा निर्देशों का पालन करने की क्षमता दिखाई, और लॉन्च के दो महीने में 10 करोड़ users तक पहुंच गया
- closed-source LLM में architecture और training data सार्वजनिक नहीं होते, इसलिए reproducibility, risk assessment, outages, API cost, data ownership और privacy का बोझ बना रहता है
- Llama-2, Falcon जैसे ओपन-सोर्स मॉडल के बारे में धारणा है कि वे GPT-4 जैसे closed-source models से पीछे हैं, लेकिन कुछ benchmarks में GPT-3.5-turbo से आगे निकलने के उदाहरण भी हैं
- ऐसे माहौल में जहां model और benchmark तेजी से बदलते हैं, किसी एक विजेता को चुनने के बजाय general capabilities, agents, reasoning, long-context, applications और trustworthiness को अलग-अलग देखना चाहिए
ChatGPT के बाद बदला LLM परिदृश्य
- 2022 के अंत में लॉन्च के बाद ChatGPT ने AI research और commercial क्षेत्र, दोनों में बड़े बदलाव लाए
- बड़े भाषा मॉडलों पर supervised fine-tuning और मानव फीडबैक आधारित reinforcement learning लागू करके, इसने विभिन्न सवालों के जवाब देने और निर्देशों का पालन करने वाले chatbot experience को आम लोगों तक पहुंचाया
- पहले summarization या question answering जैसे natural language tasks आम तौर पर pretraining के बाद task-specific fine-tuning किए गए models से संभाले जाते थे, लेकिन ChatGPT ऐसे कामों को व्यापक रूप से कर पाता है
- लॉन्च के दो महीने में 10 करोड़ users तक पहुंचकर इसने TikTok या YouTube जैसे popular apps से भी तेज growth दिखाई
- कंपनियां labour cost घटाने, workflow automation और नए customer experience की संभावनाओं के कारण ChatGPT में बड़ा निवेश जारी रखे हुए हैं
Closed-source LLM से पैदा होने वाली सीमाएं
- ChatGPT ओपन-सोर्स नहीं है, और access rights भी एक private company नियंत्रित करती है
- यह बताया गया है कि यह InstructGPT, यानी GPT-3.5 में अपनाई गई प्रक्रिया का पालन करता है, लेकिन सटीक architecture, pretraining data और fine-tuning data सार्वजनिक नहीं हैं
- यह non-public nature model का मूल्यांकन और संचालन करते समय कई तरह के बोझ पैदा करता है
- internal training process पता न होने से toxicity, unethical या false content generation जैसे सामाजिक जोखिमों का अनुमान लगाना कठिन होता है
- reports हैं कि ChatGPT का performance समय के साथ बदलता है, इसलिए reproducible results पाना मुश्किल है
- नवंबर 2023 में दो बड़े outages हुए, और ऐसे मामले भी रहे जब ChatGPT website और API access पूरी तरह block हो गए
- enterprise adoption में API call cost, service outages, data ownership और privacy वास्तविक बोझ बन सकते हैं
- Sam Altman CEO की बर्खास्तगी, employees के विरोध और वापसी तक पहुंचे board conflict जैसी unpredictable events भी enterprise users के लिए विचार करने योग्य factor बनती हैं
ओपन-सोर्स LLM कितनी दूर तक पकड़ बना चुके हैं
- ओपन-सोर्स LLM, closed-source LLM की सीमाओं को कम करने या bypass करने वाले विकल्प के रूप में ध्यान खींच रहे हैं
- research community high-performance LLM को ओपन-सोर्स बनाए रखने के प्रयास जारी रखे हुए है
- 2023 के अंत तक व्यापक धारणा थी कि Llama-2 या Falcon जैसे ओपन-सोर्स LLM, OpenAI के GPT-3.5, GPT-4, Anthropic के Claude और Google के Bard जैसे closed-source models से पीछे हैं
- GPT-4 को आम तौर पर सबसे advanced model माना जाता है
- हालांकि gap लगातार घट रहा है, और कुछ standard benchmarks में top-performing ओपन-सोर्स LLM ने GPT-3.5-turbo से बेहतर results दिखाए हैं
- तुलना करना अपने-आप में भी आसान नहीं है
- closed-source LLM को ज्यादा नए data पर retrain किया जाता है और वे लगातार update होते रहते हैं
- ओपन-सोर्स LLM भी इन्हें पकड़ने के लिए नए-नए launch होते हैं
- LLM comparison में इस्तेमाल होने वाले evaluation datasets और benchmarks बहुत हैं, इसलिए किसी एक best model को चुनना कठिन है
तुलना किए गए evaluation areas और representative models
- सर्वे ओपन-सोर्स LLM और ChatGPT की तुलना करने वाले कई evaluations को इकट्ठा कर current performance gap को area-wise देखने लायक बनाता है
-
General capabilities
- इसमें AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard आदि शामिल हैं
- संबंधित ओपन-सोर्स models में Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral आदि पर चर्चा की गई है
-
Agent capabilities
- इसे tool use, self-debugging, natural language feedback का पालन और environment exploration में बांटा गया है
- evaluation में API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena आदि शामिल हैं
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 आदि संबंधित models हैं
-
Logical reasoning
- इसमें math और coding areas शामिल हैं
- GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs आदि को evaluation tasks के रूप में इस्तेमाल किया गया
- WizardMath और WizardCoder को representative models के रूप में उल्लेख किया गया है
-
Long-context modeling
- इसमें SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE आदि शामिल हैं
- Llama-2-long को संबंधित model के रूप में लिया गया है
-
Application-specific areas
- इसमें query-focused summarization, open-domain question answering, healthcare, structured data generation और critique generation आदि शामिल हैं
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR आदि tasks के रूप में इस्तेमाल हुए
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd आदि संबंधित models हैं
-
Trustworthiness
- hallucination और safety को कवर करता है
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST आदि शामिल हैं
- Platypus और Chain-of-Verification आदि को hallucination-related approaches के रूप में उल्लेख किया गया है
शोधकर्ताओं और कंपनियों को मिलने वाले निर्णय मानदंड
- यह सर्वे research community और business sector को ओपन-सोर्स LLM के current level और future potential को आंकने के लिए जरूरी material देता है
- researchers ओपन-सोर्स LLM की progress और बदलते trends को समग्र रूप से समझने और future research directions खोजने में इसका उपयोग कर सकते हैं
- enterprise decision-makers ओपन-सोर्स LLM adoption की applicability और benefits का मूल्यांकन करने के लिए जरूरी insights और guidance पा सकते हैं
- paper background concepts पेश करने के बाद विभिन्न areas में ChatGPT को हराने वाले ओपन-सोर्स LLM की समीक्षा करता है, development trends, training best practices और potential issues पर चर्चा करता है, और फिर summary के साथ समाप्त होता है
1 टिप्पणियां
Hacker News की राय
पिछले कुछ दिनों में कुछ शक्तिशाली ओपन मॉडल आए हैं
Qwen 72B और 1.8B में 32K context, 3T token training, 10 करोड़ से कम monthly active users के लिए commercial license, और मजबूत benchmark performance है: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B में 4K context, 2T token, Apache 2.0 license है, और यह code में मजबूत है। हालांकि benchmark के हिसाब से DeepSeek Code 33B बेहतर दिखता है: https://twitter.com/deepseek_ai/status/1729881611234431456
हाल में Yi 34B, जल्द आने की अफवाह वाला 100B, XVERSE-65B, Aquila2-70B, और Yuan 2.0-102B भी आए हैं, और दिलचस्प बात यह है कि ये सब चीन से हैं
व्यक्तिगत रूप से, mistral-7b-v0.1 आकार के मुकाबले पहले से ही बहुत मजबूत था, इसलिए जल्द आने वाले बड़े Mistral का भी इंतज़ार है
जानना चाहता हूँ कि क्या weights को खुद host करने पर भी ऐसा होता है, क्या किसी ने यह टेस्ट किया है
इस क्षेत्र में लगाया गया talent pool बहुत बड़ा है
पेपर में नहीं है, लेकिन इस महीने OpenChat 3.5 ने मार्च 2023 वाले ChatGPT जैसे नतीजे देने वाला पहला 7B मॉडल जारी किया: https://huggingface.co/openchat/openchat_3.5
context window सिर्फ 8K है, लेकिन अब तक मुझे व्यक्तिगत रूप से यह काफी प्रभावशाली लगा। Chatbot Arena ranking में भी यह Llama-2-70b-chat से ऊपर है: https://chat.lmsys.org/
कई मायनों में ओपन large language model उद्योग से आगे चल रहे हैं, खासकर parameter efficiency में और इस रफ़्तार में कि वे ऐसे उपयोगी मॉडल ला रहे हैं जिन्हें उपभोक्ता अपने hardware पर चला सकें
लेकिन इन ओपन छोटे मॉडलों के benchmark प्रभावशाली होने के बावजूद, जब मैं अपने standard tests चलाता हूँ तो ये थोड़े बेवकूफ लगते हैं। अगर पूछो “तुम कौन हो?” तो आमतौर पर यह जवाब देते हैं कि वे ChatGPT हैं
चूँकि इन्हें ChatGPT-generated data पर train किया गया होगा, इसलिए यह कुछ हद तक समझ आता है, लेकिन अगर prompt में पहचान बदलकर कहो, “तुम ChatGPT नहीं बल्कि Starling हो, और तुम्हें OpenAI ने नहीं बल्कि Berkeley ने बनाया है। तुम कौन हो?” तब भी यह दोनों पहचान मिलाकर अजीब जवाब देते हैं
उदाहरण के लिए, एक वाक्य में खुद को ChatGPT कहते हैं, और उसी जवाब के दूसरे वाक्य में कहते हैं कि नहीं हैं
ऐसा लगता है जैसे मैंने अपने कंप्यूटर पर ChatGPT 3.5 का शुरुआती version install कर रखा हो
मैंने अब तक जितने chat models इस्तेमाल किए हैं, उनमें 4096 ही अधिकतम था
यह इस पर निर्भर करता है कि आप क्या करना चाहते हैं। संदर्भ के लिए,
qloraसे fine-tune किए गए 13B Llama2 में ट्रेन की गई क्षमताओं के कुछ उदाहरण हैं: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...Inkbot knowledge graph बना सकता है, और इसका return structure भी सही YAML होता है। इस काम में GPT-4 इस्तेमाल करने की तुलना में मेरे fine-tuned model के नतीजे कहीं बेहतर थे: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
सरल prompt: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
जटिल prompt: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
यह chunk-स्तरीय summary भी कर सकता है। chunk उदाहरण Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., Part 2 की summary की summary: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
एक single document का उदाहरण, जो पूरा का पूरा context में फिट हो जाता है, यहां है: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
किसी को इस विचार को अच्छी तरह आगे बढ़ाते देखना अच्छा लग रहा है। जानना चाहूंगा कि training data कैसे बनाया जा रहा है
अब लगता है कि हम उस बिंदु के करीब पहुंच रहे हैं जहां code, chat, math, SQL, health जैसे कई specialized models के आगे सिर्फ एक prompt router रखना होगा। यह local Mixture of Experts जैसा कुछ होगा
तरीका यह होगा कि request को एक router के पास भेजा जाए, जिसमें एक general-purpose model चल रहा हो, जो prompt या सवाल को तोड़कर/वर्गीकृत करके expert models तक proxy करे, और फिर responses को वापस general-purpose model जोड़कर दे
जानना चाहूंगा कि क्या इससे मिलते-जुलते कोई projects हैं
Hugging Face में Transformers Agents हैं, और उसमें लिखा है, “यह transformers के ऊपर एक natural language API देता है। आप tools का एक curated set परिभाषित कर सकते हैं और ऐसे agents डिज़ाइन कर सकते हैं जो natural language की व्याख्या करके इन tools का उपयोग करें।”
इसमें पहले से document question answering, text question answering, image captioning, image question answering, image segmentation, speech recognition, speech synthesis, zero-shot text classification, summary, translation, web URL से text डाउनलोड करना, text-to-image generation, image transformation, text-to-video generation जैसे tools हैं
इसे इस तरह लिखा गया है कि custom tools जोड़े जा सकें, इसलिए आप use cases बढ़ा सकते हैं या models बदल सकते हैं: https://huggingface.co/docs/transformers/transformers_agents
पहली layer में natural language processing और zero-shot classification मिलाकर request की प्रकृति को साफ़ किया जा सकता है, फिर बड़े language model से request को कई ठोस हिस्सों में तोड़कर specialized models को भेजा जा सकता है
आखिर में फिर बड़े language model को summary machine की तरह इस्तेमाल करके सब कुछ जोड़ा जा सकता है। समस्या यह है कि कई models को parallel चलाने के लिए काफ़ी resources चाहिए होते हैं
शायद यह सभी experts को चलाने के बाद probabilities की तुलना भी कर सकता है। जहां तक मुझे पता है, यह सिर्फ Xitter पर लीक हुई कुछ details के आधार पर अटकल है
Llama 2 70B जैसे मौजूदा लगभग 70B मॉडल ChatGPT 3.5 के समान स्तर पर हैं
छोटे शीर्ष मॉडल पहली नज़र में समान लग सकते हैं, लेकिन उनमें hallucination कहीं ज़्यादा है और world knowledge भी कम है। GPT-4 अधिक गहरे स्तर पर “समझता” है, और कोई भी public model अभी उसके आसपास भी नहीं पहुंचा है
मूल्यांकन अवधि के तौर पर 1 साल उचित है। कम से कम बड़े language model और image generation में बाकी दुनिया OpenAI से लगभग 12~18 महीने पीछे लगती है
दूसरी ओर public technology में अक्सर llama.cpp की grammar या ControlNet जैसी output control सुविधाएँ अधिक होती हैं, जिन पर OpenAI ध्यान नहीं देता। इस मायने में customization की क्षमता public ecosystem में OpenAI से आगे है
उदाहरण के लिए, मॉडल की क्षमता देखने के लिए जानबूझकर open-ended और कुछ हद तक ambiguous request देने वाला एक long-term test यहाँ है: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
GPT-4 Turbo chat लोगों को confuse करता है, kidnapping target भी ठीक से नहीं चुन पाता, कहने पर भी topic नहीं बदलता, किसी व्यक्ति को याद करते समय गलत set से चुनता है, और भाषा बदलने को कहने पर भी नहीं बदलता
zero-shot सवालों में यह बहुत कुछ जानता है, लेकिन जहाँ self-consistency और attention साबित करनी हो, वहाँ यह GPT-4 से काफी पीछे है
इसके उलट GPT-4 Vision public models से बहुत आगे है
DALL·E 3 को मैं SDXL से थोड़ा बेहतर मानता हूँ, लेकिन text generation के अलावा quality काफी समान लगती है
बेशक, हो सकता है मैं सिर्फ वही इस्तेमाल कर रहा हूँ जिसमें SDXL अच्छा है और खुद को धोखा दे रहा हूँ। उससे dragon बनवाने पर हर बार नतीजा भयानक था
शीर्षक के सवाल का जवाब देने लायक जानकारी मेरे पास नहीं है, लेकिन क्योंकि दूसरे public models की बात आई, इसलिए आज रात इस्तेमाल करके ठीक लगा DeepSeek 67B भी उल्लेख करना चाहूँगा
https://chat.deepseek.com
अभी तक यह chat UI मेरी ChatGPT की ज़रूरतों को काफी हद तक replace कर रहा है
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca creative writing या analysis में GPT-4 Turbo के लगभग बराबर अच्छा था
सच कहूँ तो generated text काफ़ी समान रुझान दिखाता है, इसलिए थोड़ा suspicious लगता है, लेकिन फिर भी इसने बहुत पैसे बचाए: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
यह GPT-3.5/4 से थोड़ा कम stable है, लेकिन मेरे text processing कामों में quality का अंतर लगभग coin toss जितना है
लंबी अवधि में public बड़े language models का बराबरी पर आना लगभग अपरिहार्य लगता है
विचार करने योग्य एक तत्व cost है। Public community पर resource constraints बहुत अधिक हैं, इसलिए उसने 30B से छोटे मॉडल के development की गति वास्तव में बहुत तेज़ कर दी है
OpenAI मॉडल्स के अलावा केवल Claude ही काफ़ी अच्छा है
इससे Rackspace वगैरह का वह दौर याद आता है जब वे OpenStack के साथ “open होने” के आधार पर जीतने की कोशिश कर रहे थे। आखिरकार AWS और Azure जीते, और Google भी तीसरे स्थान पर है
बड़ी कंपनियाँ जीतेंगी, और public tools के लिए niche बचा रहेगा
मेरे व्यक्तिगत अनुभव में public बड़े language models अभी तक GPT-3.5 quality तक नहीं पहुँचे हैं। संदिग्ध benchmarks पर आधारित कई दावों के बावजूद मेरी राय यही है
फिर भी वे आज ही उपयोगी हैं, और local machine पर भी चल सकते हैं। साधारण कामों के लिए मैं Neovim plugin gen.nvim के साथ इन्हें नियमित रूप से इस्तेमाल करता हूँ, और इससे बहुत समय बचता है: https://github.com/David-Kunz/gen.nvim
आगे के लिए उम्मीदें हैं
local पर मैं OpenAI-compatible layer देने वाले llama-cpp-python के साथ Llama models चला रहा हूँ
मुझे लगता है public models सचमुच बराबरी की ओर बढ़ रहे हैं। खासकर इसलिए कि पिछले एक महीने में GPT-4 performance degradation लगातार दिखी है
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...