1 टिप्पणियां

 
GN⁺ 2024-04-12
Hacker News की राय
  • जब weights और hardware मौजूद हों, तो इस model को चलाने का सबसे आसान तरीका क्या है, यह जानना है
    model का आधा हिस्सा RAM में offload करने पर भी, किस tool से load करना चाहिए—Ollama, Llama.cpp, या किसी Python library में import कर लेना चाहिए—यह जानना है
    और किसी दूसरे model से तुलना करनी हो तो benchmark कैसे करना बेहतर होगा, क्या कोई ready-to-use tool है, यह भी जानना है
    • llamafile वाला तरीका सबसे अच्छा लगता है
      binary command line से चलती है या छोटा web server शुरू कर देती है
      llamafile Mixtral-8x7B-Instruct build देता है, इसलिए यह model भी शायद package किया जा सकता है और संभव है कि quantized format में हो
      ecosystem को बेहतर जानने वाले किसी व्यक्ति से पुष्टि करनी होगी, लेकिन लगता है कि नया model भी वैसे ही llamafile में चल सकता है
      https://github.com/Mozilla-Ocho/llamafile
    • सबसे आसान तरीका vllm(https://github.com/vllm-project/vllm) के साथ लगभग दो A100 पर चलाना है, और benchmark lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness) से किया जा सकता है
    • MacBook पर LLM test करने के लिए LM Studio बेहतरीन है: https://lmstudio.ai/
      app के अंदर Hugging Face के नए models search करके तुरंत test करना बहुत आसान है
    • Hugging Face पर The Bloke नाम का एक user है, जो full-size model आने के कुछ ही समय बाद pre-quantized models upload कर देता है
      उस page पर नजर रखें और उम्मीद करें कि 4-bit model GPU में fit हो जाए
      शायद वह पहले से ही इस पर काम कर रहा होगा
    • Together पर इसे यहाँ test किया जा सकता है:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • duplicate post यहाँ है: https://news.ycombinator.com/item?id=39986047
    इसमें profile की जगह tweet link दिया गया है:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B—अगर यह Mixtral 8x7B जितना अच्छा हुआ, तो वाकई दिलचस्प दौर आने वाला है
    • सुना है Command R benchmarks में GPT-4 को हराने वाला पहला open source model है
    • 8x7B तो पहले से है, इसलिए एक और 8x7B चाहने की वजह नहीं होगी; मतलब यह बेहतर ही होगा, है न?
  • विषय से थोड़ा हटकर, लेकिन सोच रहा हूँ कि क्या अब हम उस समय वाली ChatGPT 4 performance तक वापस आ गए हैं जिसे लोग जादू जैसा कहते थे
    मेरा मतलब उस baseline से है, जब politically more correct बनाने के दौरान performance काफी गिरने से पहले की स्थिति थी
    • MacBook पर कई LLM test किए हैं, और GPT-4 के किसी भी समय के version से तुलना करूँ तो अभी भी वे सभी काफी पीछे लगते हैं
      हालांकि GPT-3 level के models बहुत हैं, और specific tasks के लिए fine-tuned models भी काफी हैं
      open models में जो बड़ी कमी है, वह language support है
      Norwegian में उपयोग लायक output देने वाला मुझे सिर्फ एक model मिला, और GPT-4 में यह कभी समस्या नहीं रही
    • open models के लिहाज से, मुझे लगता है कि कम-से-कम ChatGPT 4 के शुरुआती release की performance तक पहुँच चुके हैं
  • क्या Llama 3 आने से पहले हर कोई अपना best छोटा model निकालने की होड़ में है?
    • 262GB को खास छोटा कहना मुश्किल है
      फिर भी लगता है कि अगर सबके results Llama 3 से खराब निकले, तो बाद में release करना शर्मिंदगी भरा हो सकता है, इसलिए अभी निकालने का माहौल है
    • Llama 3 अगले 2 हफ्तों में आने की अफवाहों को देखते हुए यह काफी plausible लगता है
  • Mixtral 8x7B इस्तेमाल करने में अच्छा लगा था, और इस model को भी test करने का इंतजार है
  • unofficial benchmark यहाँ है:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • काश इसमें GPT-4 भी होता
      अभी भी पार करना उसी model को है
  • 4-bit quantization में शायद 85GB VRAM चाहिए होगी, इसलिए यह 24GB वाले 4 consumer GPUs में ठीक से fit हो जाएगा और KV cache optimization के लिए थोड़ी जगह भी बचेगी
    • 4-bit में इससे कम लग सकता है
      क्योंकि expert models के बीच काफी parameters shared होते हैं
      हालांकि अगर batch size 1 पर नहीं चला रहे, तो 8-GPU setup की तुलना में यह ज्यादा परेशान कर सकता है
      batch के भीतर ज्यादातर या सभी experts activate होने की संभावना लगभग तय है
    • Mixtral 8x7B का 2-bit quantization 8GB GPU पर भी कुछ use cases के लिए usable था
      यह नया model 8–16GB वाली सस्ती GPU configurations पर कैसे चलेगा, यह जानने की उत्सुकता है
  • यह base model है, instruction model नहीं—यह बात बहुत अहम है
    chat के लिए उपयोगी model instruction-fine-tuned model होता है
    • एक strong base model को सीधे इस्तेमाल करने पर कैसा लगता है, यह जानने की उत्सुकता है
      क्या यह बस prompt text को आगे लिखते हुए complete करने जैसा होगा?
  • Llama 3 के release timing से बिल्कुल मेल खाते हुए आया है
    • उसी दिन Google Gemini Pro ने लगभग पूरी तरह open long-context multimodal access निकाला, और OpenAI ने भी GPT-4-Turbo upgrade किया, इसलिए news से भरा बड़ा दिन था