- 180 अरब parameters वाला सबसे बड़ा public language model
- public models में leaderboard पर नंबर 1 रैंक। Llama 2 70B और GPT-3.5 से आगे, और PaLM-2 को टक्कर देता है
- TII के RefinedWeb dataset (ज़्यादातर अंग्रेज़ी) का उपयोग करके 3.5T tokens पर train किया गया
- Llama 2 की तुलना में 2.5 गुना बड़ा और 4 गुना से अधिक computing power के साथ train किया गया (Amazon SageMaker पर 4096 GPUs का उपयोग)
- Falcon 180B का commercial उपयोग संभव है, लेकिन "hosting use" को छोड़कर केवल बहुत सीमित शर्तों के तहत ही उपयोग किया जा सकता है। License ज़रूर जांचें
- hardware आवश्यकताएँ
- full fine-tuning: memory 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- inference BF16/FP16: 640GB, 8x A100 80GB
- inference GPTQ/int4: 320GB, 8x A100 40GB
1 टिप्पणियां
इसका साइज सच में बहुत बड़ा है। Hardware requirements भी वैसे ही हैं...