ChatGPT एक 20B आकार का मॉडल है
(arxiv.org)Microsoft Research द्वारा EMNLP 2023 में प्रस्तुत किए गए शोधपत्र "CodeFusion: A Pre-trained Diffusion Model for Code Generation" में ChatGPT(gpt-3.5-turbo) के parameter की संख्या 20B बताई गई है.
- T5 (t5-large): 770M
- CodeT5 (codet5-large): 770M
- GPT3 (text-davinci-003): 175B
- ChatGPT (gpt-turbo-3.5): 20B
5 टिप्पणियां
क्या यह साइज़ वाकई समझ में आता है? AI पर काम करने वाले लोगों से सुन रहा था कि वे तो हैरान रह गए...
All you need is 4090
क्या मूल GPT-3.5 का parameter size भी सार्वजनिक नहीं किया गया था?
मैं तो बस यही समझ रहा था कि यह GPT-3 175B पर RLHF किया हुआ मॉडल है, लेकिन लगता है कि ऐसा नहीं था..
https://arxiv.org/abs/2310.17680v1 v1 अभी भी देखा जा सकता है
वह कह रहे हैं, "पेपर में कुछ गलतियां हैं और हमें इसे वापस लेना होगा"
गलती कहाँ है यह तो पता नहीं, लेकिन अगर सिर्फ़ कुछ नंबर गलत हैं तो शायद बस साधारण revision किया गया होगा.. तो 20B सही होने की संभावना ज़्यादा है, है ना?