4 पॉइंट द्वारा GN⁺ 2023-12-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह एक सर्वे है जो ChatGPT के लॉन्च की पहली सालगिरह के समय तुलना करता है कि किन कार्यों में ओपन-सोर्स LLM ने ChatGPT के बराबर या उससे बेहतर प्रदर्शन किया
  • ChatGPT ने मानव फीडबैक आधारित reinforcement learning के जरिए उपयोगी और सुरक्षित जवाब तथा निर्देशों का पालन करने की क्षमता दिखाई, और लॉन्च के दो महीने में 10 करोड़ users तक पहुंच गया
  • closed-source LLM में architecture और training data सार्वजनिक नहीं होते, इसलिए reproducibility, risk assessment, outages, API cost, data ownership और privacy का बोझ बना रहता है
  • Llama-2, Falcon जैसे ओपन-सोर्स मॉडल के बारे में धारणा है कि वे GPT-4 जैसे closed-source models से पीछे हैं, लेकिन कुछ benchmarks में GPT-3.5-turbo से आगे निकलने के उदाहरण भी हैं
  • ऐसे माहौल में जहां model और benchmark तेजी से बदलते हैं, किसी एक विजेता को चुनने के बजाय general capabilities, agents, reasoning, long-context, applications और trustworthiness को अलग-अलग देखना चाहिए

ChatGPT के बाद बदला LLM परिदृश्य

  • 2022 के अंत में लॉन्च के बाद ChatGPT ने AI research और commercial क्षेत्र, दोनों में बड़े बदलाव लाए
  • बड़े भाषा मॉडलों पर supervised fine-tuning और मानव फीडबैक आधारित reinforcement learning लागू करके, इसने विभिन्न सवालों के जवाब देने और निर्देशों का पालन करने वाले chatbot experience को आम लोगों तक पहुंचाया
  • पहले summarization या question answering जैसे natural language tasks आम तौर पर pretraining के बाद task-specific fine-tuning किए गए models से संभाले जाते थे, लेकिन ChatGPT ऐसे कामों को व्यापक रूप से कर पाता है
  • लॉन्च के दो महीने में 10 करोड़ users तक पहुंचकर इसने TikTok या YouTube जैसे popular apps से भी तेज growth दिखाई
  • कंपनियां labour cost घटाने, workflow automation और नए customer experience की संभावनाओं के कारण ChatGPT में बड़ा निवेश जारी रखे हुए हैं

Closed-source LLM से पैदा होने वाली सीमाएं

  • ChatGPT ओपन-सोर्स नहीं है, और access rights भी एक private company नियंत्रित करती है
  • यह बताया गया है कि यह InstructGPT, यानी GPT-3.5 में अपनाई गई प्रक्रिया का पालन करता है, लेकिन सटीक architecture, pretraining data और fine-tuning data सार्वजनिक नहीं हैं
  • यह non-public nature model का मूल्यांकन और संचालन करते समय कई तरह के बोझ पैदा करता है
    • internal training process पता न होने से toxicity, unethical या false content generation जैसे सामाजिक जोखिमों का अनुमान लगाना कठिन होता है
    • reports हैं कि ChatGPT का performance समय के साथ बदलता है, इसलिए reproducible results पाना मुश्किल है
    • नवंबर 2023 में दो बड़े outages हुए, और ऐसे मामले भी रहे जब ChatGPT website और API access पूरी तरह block हो गए
    • enterprise adoption में API call cost, service outages, data ownership और privacy वास्तविक बोझ बन सकते हैं
    • Sam Altman CEO की बर्खास्तगी, employees के विरोध और वापसी तक पहुंचे board conflict जैसी unpredictable events भी enterprise users के लिए विचार करने योग्य factor बनती हैं

ओपन-सोर्स LLM कितनी दूर तक पकड़ बना चुके हैं

  • ओपन-सोर्स LLM, closed-source LLM की सीमाओं को कम करने या bypass करने वाले विकल्प के रूप में ध्यान खींच रहे हैं
  • research community high-performance LLM को ओपन-सोर्स बनाए रखने के प्रयास जारी रखे हुए है
  • 2023 के अंत तक व्यापक धारणा थी कि Llama-2 या Falcon जैसे ओपन-सोर्स LLM, OpenAI के GPT-3.5, GPT-4, Anthropic के Claude और Google के Bard जैसे closed-source models से पीछे हैं
  • GPT-4 को आम तौर पर सबसे advanced model माना जाता है
  • हालांकि gap लगातार घट रहा है, और कुछ standard benchmarks में top-performing ओपन-सोर्स LLM ने GPT-3.5-turbo से बेहतर results दिखाए हैं
  • तुलना करना अपने-आप में भी आसान नहीं है
    • closed-source LLM को ज्यादा नए data पर retrain किया जाता है और वे लगातार update होते रहते हैं
    • ओपन-सोर्स LLM भी इन्हें पकड़ने के लिए नए-नए launch होते हैं
    • LLM comparison में इस्तेमाल होने वाले evaluation datasets और benchmarks बहुत हैं, इसलिए किसी एक best model को चुनना कठिन है

तुलना किए गए evaluation areas और representative models

  • सर्वे ओपन-सोर्स LLM और ChatGPT की तुलना करने वाले कई evaluations को इकट्ठा कर current performance gap को area-wise देखने लायक बनाता है
  • General capabilities

    • इसमें AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard आदि शामिल हैं
    • संबंधित ओपन-सोर्स models में Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral आदि पर चर्चा की गई है
  • Agent capabilities

    • इसे tool use, self-debugging, natural language feedback का पालन और environment exploration में बांटा गया है
    • evaluation में API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena आदि शामिल हैं
    • Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 आदि संबंधित models हैं
  • Logical reasoning

    • इसमें math और coding areas शामिल हैं
    • GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs आदि को evaluation tasks के रूप में इस्तेमाल किया गया
    • WizardMath और WizardCoder को representative models के रूप में उल्लेख किया गया है
  • Long-context modeling

    • इसमें SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE आदि शामिल हैं
    • Llama-2-long को संबंधित model के रूप में लिया गया है
  • Application-specific areas

    • इसमें query-focused summarization, open-domain question answering, healthcare, structured data generation और critique generation आदि शामिल हैं
    • QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR आदि tasks के रूप में इस्तेमाल हुए
    • InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd आदि संबंधित models हैं
  • Trustworthiness

    • hallucination और safety को कवर करता है
    • TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST आदि शामिल हैं
    • Platypus और Chain-of-Verification आदि को hallucination-related approaches के रूप में उल्लेख किया गया है

शोधकर्ताओं और कंपनियों को मिलने वाले निर्णय मानदंड

  • यह सर्वे research community और business sector को ओपन-सोर्स LLM के current level और future potential को आंकने के लिए जरूरी material देता है
  • researchers ओपन-सोर्स LLM की progress और बदलते trends को समग्र रूप से समझने और future research directions खोजने में इसका उपयोग कर सकते हैं
  • enterprise decision-makers ओपन-सोर्स LLM adoption की applicability और benefits का मूल्यांकन करने के लिए जरूरी insights और guidance पा सकते हैं
  • paper background concepts पेश करने के बाद विभिन्न areas में ChatGPT को हराने वाले ओपन-सोर्स LLM की समीक्षा करता है, development trends, training best practices और potential issues पर चर्चा करता है, और फिर summary के साथ समाप्त होता है

1 टिप्पणियां

 
GN⁺ 2023-12-03
Hacker News की राय
  • पिछले कुछ दिनों में कुछ शक्तिशाली ओपन मॉडल आए हैं
    Qwen 72B और 1.8B में 32K context, 3T token training, 10 करोड़ से कम monthly active users के लिए commercial license, और मजबूत benchmark performance है: https://twitter.com/huybery/status/1730127387109781932
    DeepSeek LLM 67B में 4K context, 2T token, Apache 2.0 license है, और यह code में मजबूत है। हालांकि benchmark के हिसाब से DeepSeek Code 33B बेहतर दिखता है: https://twitter.com/deepseek_ai/status/1729881611234431456
    हाल में Yi 34B, जल्द आने की अफवाह वाला 100B, XVERSE-65B, Aquila2-70B, और Yuan 2.0-102B भी आए हैं, और दिलचस्प बात यह है कि ये सब चीन से हैं
    व्यक्तिगत रूप से, mistral-7b-v0.1 आकार के मुकाबले पहले से ही बहुत मजबूत था, इसलिए जल्द आने वाले बड़े Mistral का भी इंतज़ार है

    • मैंने deepseek.com पर DeepSeek इस्तेमाल किया, और इसने चीन में censored कुछ बातचीतों से इनकार कर दिया, जैसे Tiananmen या Xi Jinping की Winnie the Pooh से तुलना वाले विषय
      जानना चाहता हूँ कि क्या weights को खुद host करने पर भी ऐसा होता है, क्या किसी ने यह टेस्ट किया है
    • चीन में ChatGPT का उपयोग अनुमति-प्राप्त नहीं है, इसलिए स्थानीय large language model बनाने का बड़ा अवसर है
    • AI papers का बड़ा हिस्सा चीनी शोधकर्ताओं, या विदेश में रहने वाले चीनी मूल के शोधकर्ताओं से आ रहा है
      इस क्षेत्र में लगाया गया talent pool बहुत बड़ा है
    • नया Mistral कब आएगा, और उसका आकार कितना होगा, यह जानने की उत्सुकता है
    • Goliath 120B भी है
  • पेपर में नहीं है, लेकिन इस महीने OpenChat 3.5 ने मार्च 2023 वाले ChatGPT जैसे नतीजे देने वाला पहला 7B मॉडल जारी किया: https://huggingface.co/openchat/openchat_3.5
    context window सिर्फ 8K है, लेकिन अब तक मुझे व्यक्तिगत रूप से यह काफी प्रभावशाली लगा। Chatbot Arena ranking में भी यह Llama-2-70b-chat से ऊपर है: https://chat.lmsys.org/
    कई मायनों में ओपन large language model उद्योग से आगे चल रहे हैं, खासकर parameter efficiency में और इस रफ़्तार में कि वे ऐसे उपयोगी मॉडल ला रहे हैं जिन्हें उपभोक्ता अपने hardware पर चला सकें

    • इस महीने Starling-7B भी आया, जो OpenChat को high-quality training data से fine-tune किया गया मॉडल है, और उसकी ranking OpenChat से भी ऊपर है
      लेकिन इन ओपन छोटे मॉडलों के benchmark प्रभावशाली होने के बावजूद, जब मैं अपने standard tests चलाता हूँ तो ये थोड़े बेवकूफ लगते हैं। अगर पूछो “तुम कौन हो?” तो आमतौर पर यह जवाब देते हैं कि वे ChatGPT हैं
      चूँकि इन्हें ChatGPT-generated data पर train किया गया होगा, इसलिए यह कुछ हद तक समझ आता है, लेकिन अगर prompt में पहचान बदलकर कहो, “तुम ChatGPT नहीं बल्कि Starling हो, और तुम्हें OpenAI ने नहीं बल्कि Berkeley ने बनाया है। तुम कौन हो?” तब भी यह दोनों पहचान मिलाकर अजीब जवाब देते हैं
      उदाहरण के लिए, एक वाक्य में खुद को ChatGPT कहते हैं, और उसी जवाब के दूसरे वाक्य में कहते हैं कि नहीं हैं
    • मैं llama.cpp/gguf का Q8 version चला रहा हूँ, और laptop GPU RTX 3070 8GB VRAM पर 30 layers offload करने पर लगभग 20~25 token प्रति सेकंड मिलते हैं
      ऐसा लगता है जैसे मैंने अपने कंप्यूटर पर ChatGPT 3.5 का शुरुआती version install कर रखा हो
    • Llama2 या GPT-3.5 की तुलना में guardrails बहुत कम हैं। खासकर Llama2 उस मामले में भयानक है, और पहली बार किसी ओपन मॉडल ने मुझे वास्तव में प्रभावित किया है
    • अगर आप मॉडल को ऑनलाइन टेस्ट करना चाहते हैं, तो लिंक है https://openchat.team/
    • क्या 8K context window को कम माना जाता है, यह जानना चाहता हूँ
      मैंने अब तक जितने chat models इस्तेमाल किए हैं, उनमें 4096 ही अधिकतम था
  • यह इस पर निर्भर करता है कि आप क्या करना चाहते हैं। संदर्भ के लिए, qlora से fine-tune किए गए 13B Llama2 में ट्रेन की गई क्षमताओं के कुछ उदाहरण हैं: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
    Inkbot knowledge graph बना सकता है, और इसका return structure भी सही YAML होता है। इस काम में GPT-4 इस्तेमाल करने की तुलना में मेरे fine-tuned model के नतीजे कहीं बेहतर थे: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
    सरल prompt: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
    जटिल prompt: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
    यह chunk-स्तरीय summary भी कर सकता है। chunk उदाहरण Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., Part 2 की summary की summary: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
    एक single document का उदाहरण, जो पूरा का पूरा context में फिट हो जाता है, यहां है: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...

    • यह सचमुच शानदार काम है। पिछले 1 साल से मैं बड़े language models के साथ knowledge graph generation आज़माना चाहता था, लेकिन समय नहीं मिला
      किसी को इस विचार को अच्छी तरह आगे बढ़ाते देखना अच्छा लग रहा है। जानना चाहूंगा कि training data कैसे बनाया जा रहा है
    • Inkbot मुझे सच में बहुत पसंद आया। जानना चाहूंगा कि क्या आप किसी नए version पर काम कर रहे हैं, और Yi 34B आधारित version कैसा रहेगा
    • यह काफ़ी प्रभावशाली लग रहा है। जानना चाहूंगा कि क्या 7B Inkbot पर भी काम होने की संभावना है
    • जानना चाहूंगा कि आपने fine-tuning कैसे की; क्या इसके लिए कोई संदर्भ सामग्री है
  • अब लगता है कि हम उस बिंदु के करीब पहुंच रहे हैं जहां code, chat, math, SQL, health जैसे कई specialized models के आगे सिर्फ एक prompt router रखना होगा। यह local Mixture of Experts जैसा कुछ होगा
    तरीका यह होगा कि request को एक router के पास भेजा जाए, जिसमें एक general-purpose model चल रहा हो, जो prompt या सवाल को तोड़कर/वर्गीकृत करके expert models तक proxy करे, और फिर responses को वापस general-purpose model जोड़कर दे
    जानना चाहूंगा कि क्या इससे मिलते-जुलते कोई projects हैं

    • मुझे भी लगता है कि हम इसी दिशा में जा रहे हैं। अलग-अलग कामों में बहुत मजबूत कुछ 1~7B या 14B parameter models होंगे, जिन्हें delegation अच्छी तरह करने वाला एक model जोड़कर चलाएगा
      Hugging Face में Transformers Agents हैं, और उसमें लिखा है, “यह transformers के ऊपर एक natural language API देता है। आप tools का एक curated set परिभाषित कर सकते हैं और ऐसे agents डिज़ाइन कर सकते हैं जो natural language की व्याख्या करके इन tools का उपयोग करें।”
      इसमें पहले से document question answering, text question answering, image captioning, image question answering, image segmentation, speech recognition, speech synthesis, zero-shot text classification, summary, translation, web URL से text डाउनलोड करना, text-to-image generation, image transformation, text-to-video generation जैसे tools हैं
      इसे इस तरह लिखा गया है कि custom tools जोड़े जा सकें, इसलिए आप use cases बढ़ा सकते हैं या models बदल सकते हैं: https://huggingface.co/docs/transformers/transformers_agents
    • अभी भी इसे लगभग तुच्छ स्तर पर implement किया जा सकता है
      पहली layer में natural language processing और zero-shot classification मिलाकर request की प्रकृति को साफ़ किया जा सकता है, फिर बड़े language model से request को कई ठोस हिस्सों में तोड़कर specialized models को भेजा जा सकता है
      आखिर में फिर बड़े language model को summary machine की तरह इस्तेमाल करके सब कुछ जोड़ा जा सकता है। समस्या यह है कि कई models को parallel चलाने के लिए काफ़ी resources चाहिए होते हैं
    • अभी-अभी आए एक paper में दिखाया गया कि बड़े general-purpose models के लिए prompt improvement करना आम तौर पर specialized models से बेहतर रहता है: https://arxiv.org/pdf/2311.16452.pdf
    • कुछ महीने पहले ऐसी अफवाह थी कि GPT-4 इसी तरह काम करता है। यानी कोई control model डेटा को expert models की ओर route करता है
      शायद यह सभी experts को चलाने के बाद probabilities की तुलना भी कर सकता है। जहां तक मुझे पता है, यह सिर्फ Xitter पर लीक हुई कुछ details के आधार पर अटकल है
    • मिलते-जुलते उदाहरण के तौर पर LLaVA-Plus को देखें। यहां इन बताए गए experts को “tools” कहा जाता है: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
  • Llama 2 70B जैसे मौजूदा लगभग 70B मॉडल ChatGPT 3.5 के समान स्तर पर हैं
    छोटे शीर्ष मॉडल पहली नज़र में समान लग सकते हैं, लेकिन उनमें hallucination कहीं ज़्यादा है और world knowledge भी कम है। GPT-4 अधिक गहरे स्तर पर “समझता” है, और कोई भी public model अभी उसके आसपास भी नहीं पहुंचा है
    मूल्यांकन अवधि के तौर पर 1 साल उचित है। कम से कम बड़े language model और image generation में बाकी दुनिया OpenAI से लगभग 12~18 महीने पीछे लगती है
    दूसरी ओर public technology में अक्सर llama.cpp की grammar या ControlNet जैसी output control सुविधाएँ अधिक होती हैं, जिन पर OpenAI ध्यान नहीं देता। इस मायने में customization की क्षमता public ecosystem में OpenAI से आगे है

    • इसके उलट GPT मॉडल नीचे की ओर converge हो रहे हैं। GPT-4 Turbo का प्रदर्शन इतना गिर गया है कि अब कुछ 13B मॉडल reasoning में अधिक consistent नतीजे दे देते हैं
      उदाहरण के लिए, मॉडल की क्षमता देखने के लिए जानबूझकर open-ended और कुछ हद तक ambiguous request देने वाला एक long-term test यहाँ है: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
      GPT-4 Turbo chat लोगों को confuse करता है, kidnapping target भी ठीक से नहीं चुन पाता, कहने पर भी topic नहीं बदलता, किसी व्यक्ति को याद करते समय गलत set से चुनता है, और भाषा बदलने को कहने पर भी नहीं बदलता
      zero-shot सवालों में यह बहुत कुछ जानता है, लेकिन जहाँ self-consistency और attention साबित करनी हो, वहाँ यह GPT-4 से काफी पीछे है
    • image generation में OpenAI आगे रहेगा, ऐसा नहीं लगता। DALL-E के बाद उसे बहुत जल्दी पीछे छोड़ दिया गया, और मैंने जो भी वास्तविक workflow देखे हैं वे सभी Midjourney या Stable Diffusion का इस्तेमाल करते हैं
      इसके उलट GPT-4 Vision public models से बहुत आगे है
    • बड़े language models में ऐसा हो सकता है, लेकिन चीज़ें इतनी तेज़ी से बदल रही हैं कि पक्का कहना मुश्किल है। फिर भी SDXL 1.0 DALL·E 2 से बहुत बेहतर था
      DALL·E 3 को मैं SDXL से थोड़ा बेहतर मानता हूँ, लेकिन text generation के अलावा quality काफी समान लगती है
      बेशक, हो सकता है मैं सिर्फ वही इस्तेमाल कर रहा हूँ जिसमें SDXL अच्छा है और खुद को धोखा दे रहा हूँ। उससे dragon बनवाने पर हर बार नतीजा भयानक था
    • JSON schema का इस्तेमाल करने वाला function calling llama.cpp की grammar feature जितना ही stable है। इस्तेमाल करते समय कोई खास समस्या नहीं हुई
  • शीर्षक के सवाल का जवाब देने लायक जानकारी मेरे पास नहीं है, लेकिन क्योंकि दूसरे public models की बात आई, इसलिए आज रात इस्तेमाल करके ठीक लगा DeepSeek 67B भी उल्लेख करना चाहूँगा
    https://chat.deepseek.com
    अभी तक यह chat UI मेरी ChatGPT की ज़रूरतों को काफी हद तक replace कर रहा है
    https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
    https://twitter.com/abacaj/status/1730019229175312612

  • Mistral OpenOrca creative writing या analysis में GPT-4 Turbo के लगभग बराबर अच्छा था
    सच कहूँ तो generated text काफ़ी समान रुझान दिखाता है, इसलिए थोड़ा suspicious लगता है, लेकिन फिर भी इसने बहुत पैसे बचाए: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca

    • OpenChat भी है। मेरी समझ के अनुसार, इसे GPT-4 conversations पर train किया गया है: https://github.com/imoneoi/openchat
    • Mistral OpenOrca task instructions follow करने में भी बहुत अच्छा है
      यह GPT-3.5/4 से थोड़ा कम stable है, लेकिन मेरे text processing कामों में quality का अंतर लगभग coin toss जितना है
  • लंबी अवधि में public बड़े language models का बराबरी पर आना लगभग अपरिहार्य लगता है
    विचार करने योग्य एक तत्व cost है। Public community पर resource constraints बहुत अधिक हैं, इसलिए उसने 30B से छोटे मॉडल के development की गति वास्तव में बहुत तेज़ कर दी है

    • Google, Meta, और funding पाने वाली कंपनियाँ भी GPT-4 के बिल्कुल पास नहीं पहुँच पाई हैं, इसलिए यह संदिग्ध है कि cost सबसे बड़ा factor है
      OpenAI मॉडल्स के अलावा केवल Claude ही काफ़ी अच्छा है
    • इस industry में cost एक मुद्दा बनेगा
      इससे Rackspace वगैरह का वह दौर याद आता है जब वे OpenStack के साथ “open होने” के आधार पर जीतने की कोशिश कर रहे थे। आखिरकार AWS और Azure जीते, और Google भी तीसरे स्थान पर है
      बड़ी कंपनियाँ जीतेंगी, और public tools के लिए niche बचा रहेगा
  • मेरे व्यक्तिगत अनुभव में public बड़े language models अभी तक GPT-3.5 quality तक नहीं पहुँचे हैं। संदिग्ध benchmarks पर आधारित कई दावों के बावजूद मेरी राय यही है
    फिर भी वे आज ही उपयोगी हैं, और local machine पर भी चल सकते हैं। साधारण कामों के लिए मैं Neovim plugin gen.nvim के साथ इन्हें नियमित रूप से इस्तेमाल करता हूँ, और इससे बहुत समय बचता है: https://github.com/David-Kunz/gen.nvim
    आगे के लिए उम्मीदें हैं

    • दिलचस्प है। मैं इसे आज़माना चाहूँगा, लेकिन इसकी dependencies में से एक ollama है, और वह Mac app लगता है। मेरे पास Mac नहीं है
      local पर मैं OpenAI-compatible layer देने वाले llama-cpp-python के साथ Llama models चला रहा हूँ
  • मुझे लगता है public models सचमुच बराबरी की ओर बढ़ रहे हैं। खासकर इसलिए कि पिछले एक महीने में GPT-4 performance degradation लगातार दिखी है
    https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...

    • उस “बराबरी” का बड़ा हिस्सा संभवतः GPT-4 API से high-quality fine-tuning dataset बनाकर हासिल किया गया है