7 पॉइंट द्वारा xguru 2023-09-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 180 अरब parameters वाला सबसे बड़ा public language model
  • public models में leaderboard पर नंबर 1 रैंक। Llama 2 70B और GPT-3.5 से आगे, और PaLM-2 को टक्कर देता है
  • TII के RefinedWeb dataset (ज़्यादातर अंग्रेज़ी) का उपयोग करके 3.5T tokens पर train किया गया
    • Llama 2 की तुलना में 2.5 गुना बड़ा और 4 गुना से अधिक computing power के साथ train किया गया (Amazon SageMaker पर 4096 GPUs का उपयोग)
  • Falcon 180B का commercial उपयोग संभव है, लेकिन "hosting use" को छोड़कर केवल बहुत सीमित शर्तों के तहत ही उपयोग किया जा सकता है। License ज़रूर जांचें
  • hardware आवश्यकताएँ
    • full fine-tuning: memory 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • inference BF16/FP16: 640GB, 8x A100 80GB
    • inference GPTQ/int4: 320GB, 8x A100 40GB

1 टिप्पणियां

 
kuroneko 2023-09-07

इसका साइज सच में बहुत बड़ा है। Hardware requirements भी वैसे ही हैं...