- महंगे NVIDIA GPU को भूलिए, और अपने मौजूदा iPhone, iPad, Android, Mac, Linux जैसे डिवाइसों को जोड़कर उन्हें एक शक्तिशाली GPU की तरह इस्तेमाल कीजिए
- LLaMA और विभिन्न मॉडलों का समर्थन
- "डायनैमिक मॉडल पार्टिशनिंग" के ज़रिए मौजूदा network topology और उपलब्ध device resources के आधार पर मॉडल को सर्वोत्तम तरीके से विभाजित करता है
- इससे ऐसे बड़े मॉडल भी चलाए जा सकते हैं जो एक single device पर नहीं चल सकते
- automatic device discovery से दूसरे डिवाइस खोजता है
- ChatGPT-compatible API प्रदान करता है
- हर डिवाइस Master-Worker structure के बजाय p2p तरीके से जुड़ता है (default partition strategy ring memory-weighted partitioning है)
- inference engine समर्थन:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- networking module समर्थन:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- ज्ञात समस्याएँ
- लाइब्रेरी तेज़ी से विकसित हो रही है, इसलिए iOS implementation, Python से पीछे है
- लंबे समय में ऐसा unified approach लाने की योजना है जिससे अलग implementation बनाए रखने की ज़रूरत न पड़े
GN⁺ की संक्षिप्त टिप्पणी
- exo एक experimental software है जो कई तरह के डिवाइसों को एक शक्तिशाली AI क्लस्टर में एकीकृत कर सकता है
- automatic device discovery, dynamic model partitioning जैसी सुविधाएँ देकर यह single device से बड़े मॉडल चलाने में सक्षम बनाता है
- ChatGPT-compatible API देकर मॉडल चलाना आसान बनाता है
- iOS implementation के पीछे रहने की समस्या को हल करने के लिए unified approach पर काम चल रहा है
1 टिप्पणियां
Hacker News राय
mlxकी ज़रूरत है। कहा जाता है कि यह "iPhone, iPad, Android, Mac, Linux, pretty much any device" पर काम करती है, लेकिन शक है कि इसका वास्तव में परीक्षण किया गया है या नहींtok, latency और example setup के नतीजे भी दिए गए होतेpaddlerको Windows पर दो devices में load balancing के लिए चलाया था। यह कई devices पर Llama 400B चलाने में उपयोगी होगा। लेकिन अभी Windows support नहीं हैdeviceAपर हों और बाकीdeviceBपर, तो हर बार token बनते समयdeviceAकी आख़िरी layer का output datadeviceBको भेजना पड़ेगा