Falcon 180B मॉडल जारी

xguru · 2023-09-07T10:31:01+09:00

180 अरब parameters वाला सबसे बड़ा public language model public models में leaderboard पर नंबर 1 रैंक। Llama 2 70B और GPT-3.5 से आगे, और PaLM-2 को टक्कर देता है TII के RefinedWeb dataset (ज़्यादातर अंग्रेज़ी) का उपयोग करके 3.5T tokens पर train किया गया Llama 2 की तुलना में 2.5 गुना बड़ा और 4 गुना से अधिक computing power के साथ train किया गया (Amazon SageMaker पर 4096 GPUs का उपयोग) Falcon 180B का commercial उपयोग संभव है, लेकिन "hosting use" को छोड़कर केवल बहुत सीमित शर्तों के तहत ही उपयोग किया जा सकता है। License ज़रूर जांचें hardware आवश्यकताएँ full fine-tuning: memory 5120GB, 8x 8x A100 80GB LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB inference BF16/FP16: 640GB, 8x A100 80GB inference GPTQ/int4: 320GB, 8x A100 40GB

(huggingface.co)

7 पॉइंट द्वारा xguru 2023-09-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

180 अरब parameters वाला सबसे बड़ा public language model
public models में leaderboard पर नंबर 1 रैंक। Llama 2 70B और GPT-3.5 से आगे, और PaLM-2 को टक्कर देता है
TII के RefinedWeb dataset (ज़्यादातर अंग्रेज़ी) का उपयोग करके 3.5T tokens पर train किया गया
- Llama 2 की तुलना में 2.5 गुना बड़ा और 4 गुना से अधिक computing power के साथ train किया गया (Amazon SageMaker पर 4096 GPUs का उपयोग)
Falcon 180B का commercial उपयोग संभव है, लेकिन "hosting use" को छोड़कर केवल बहुत सीमित शर्तों के तहत ही उपयोग किया जा सकता है। License ज़रूर जांचें
hardware आवश्यकताएँ
- full fine-tuning: memory 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- inference BF16/FP16: 640GB, 8x A100 80GB
- inference GPTQ/int4: 320GB, 8x A100 40GB

1 टिप्पणियां

kuroneko 2023-09-07

इसका साइज सच में बहुत बड़ा है। Hardware requirements भी वैसे ही हैं...

Falcon 180B मॉडल जारी

संबंधित पढ़ाई

1 टिप्पणियां