1 टिप्पणियां

 
GN⁺ 2024-04-12
Hacker News राय
  • मॉडल चलाने के लिए Ollama, Llama.cpp, या Python लाइब्रेरी जैसे टूल इस्तेमाल किए जा सकते हैं। मॉडल का लगभग आधा हिस्सा RAM में लोड करना भी संभव है.
  • मॉडल प्रदर्शन की तुलना के लिए Hugging Face द्वारा उपलब्ध कराया गया अनौपचारिक benchmark इस्तेमाल किया जा सकता है। हालांकि, यह base मॉडल के लिए है, इसलिए यह ध्यान रखना चाहिए कि यह वास्तव में चैट में इस्तेमाल होने वाले instruct fine-tuned मॉडल से अलग है.
  • अगर Mixtral-8x22B-v0.1 मॉडल पहले के Mixtral 8x7b मॉडल जितना अच्छा प्रदर्शन दिखाता है, तो यह बहुत उम्मीद जगाने वाला मॉडल होगा.
  • इस बात में रुचि है कि क्या ChatGPT 4 फिर से उस प्रदर्शन स्तर तक लौट सकता है जिसे शुरुआती दौर में "जादू की तरह काम करता है" कहा गया था। राजनीतिक शुद्धता के लिए प्रदर्शन घटाए जाने पर अफसोस भी है.
  • ऐसा लगता है कि Llama3 के रिलीज़ से पहले हर कोई सबसे बेहतरीन छोटा मॉडल लाने की होड़ में है.
  • 4-bit quantization के साथ 85GB VRAM की ज़रूरत होती है, इसलिए 4 24G उपभोक्ता GPU से इसे पर्याप्त रूप से चलाया जा सकता है। KV cache optimization के लिए भी कुछ अतिरिक्त जगह बचती है.
  • मॉडल weights सार्वजनिक हुए एक दिन से ज़्यादा हो चुका है, फिर भी Mistral ने न तो कोई आधिकारिक घोषणा की है, न मॉडल कार्ड दिया है, और न ही यह Mistral के अपने प्लेटफ़ॉर्म पर इस्तेमाल किया जा सकता है — यह अजीब लगता है.