21 पॉइंट द्वारा GN⁺ 2024-07-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • महंगे NVIDIA GPU को भूलिए, और अपने मौजूदा iPhone, iPad, Android, Mac, Linux जैसे डिवाइसों को जोड़कर उन्हें एक शक्तिशाली GPU की तरह इस्तेमाल कीजिए
  • LLaMA और विभिन्न मॉडलों का समर्थन
  • "डायनैमिक मॉडल पार्टिशनिंग" के ज़रिए मौजूदा network topology और उपलब्ध device resources के आधार पर मॉडल को सर्वोत्तम तरीके से विभाजित करता है
    • इससे ऐसे बड़े मॉडल भी चलाए जा सकते हैं जो एक single device पर नहीं चल सकते
  • automatic device discovery से दूसरे डिवाइस खोजता है
  • ChatGPT-compatible API प्रदान करता है
  • हर डिवाइस Master-Worker structure के बजाय p2p तरीके से जुड़ता है (default partition strategy ring memory-weighted partitioning है)
  • inference engine समर्थन:
    • ✅ MLX
    • ✅ tinygrad
    • 🚧 llama.cpp
  • networking module समर्थन:
    • ✅ GRPC
    • 🚧 Radio
    • 🚧 Bluetooth
  • ज्ञात समस्याएँ
    • लाइब्रेरी तेज़ी से विकसित हो रही है, इसलिए iOS implementation, Python से पीछे है
    • लंबे समय में ऐसा unified approach लाने की योजना है जिससे अलग implementation बनाए रखने की ज़रूरत न पड़े

GN⁺ की संक्षिप्त टिप्पणी

  • exo एक experimental software है जो कई तरह के डिवाइसों को एक शक्तिशाली AI क्लस्टर में एकीकृत कर सकता है
  • automatic device discovery, dynamic model partitioning जैसी सुविधाएँ देकर यह single device से बड़े मॉडल चलाने में सक्षम बनाता है
  • ChatGPT-compatible API देकर मॉडल चलाना आसान बनाता है
  • iOS implementation के पीछे रहने की समस्या को हल करने के लिए unified approach पर काम चल रहा है

1 टिप्पणियां

 
GN⁺ 2024-07-17
Hacker News राय
  • Apple Silicon के लिए समर्पित लाइब्रेरी mlx की ज़रूरत है। कहा जाता है कि यह "iPhone, iPad, Android, Mac, Linux, pretty much any device" पर काम करती है, लेकिन शक है कि इसका वास्तव में परीक्षण किया गया है या नहीं
  • सोच रहा हूँ कि इस लोकल नेटवर्क के लिए ऑप्टिमाइज़्ड सिस्टम को crowdsourcing के ज़रिए आसानी से इस्तेमाल करने का तरीका क्या हो सकता है। ऐसा तरीका ढूँढ रहा हूँ जिससे ऑफिस में हर कोई आसानी से नेटवर्क में शामिल हो सके, या QR code स्कैन करके domain-specific model में योगदान दे सके
  • यह आइडिया शानदार है और user-friendly भी। इसमें कई पुराने devices को उपयोगी चीज़ में बदलने की संभावना है। लेकिन अच्छा होता अगर tok, latency और example setup के नतीजे भी दिए गए होते
  • GitHub के paddler को Windows पर दो devices में load balancing के लिए चलाया था। यह कई devices पर Llama 400B चलाने में उपयोगी होगा। लेकिन अभी Windows support नहीं है
  • यह फीचर ऐसे models चलाने देता है जो किसी एक device पर चल सकने वाले model से बड़े हैं। लेकिन यह वास्तव में कैसे काम करता है, इसकी ठोस व्याख्या नहीं है। उदाहरण के लिए, अगर neural network की कुछ layers deviceA पर हों और बाकी deviceB पर, तो हर बार token बनते समय deviceA की आख़िरी layer का output data deviceB को भेजना पड़ेगा
  • Swarm computing सभी computing का standard बनना चाहिए। हमारे मालिकाना हक़ वाले सभी devices में बहुत ज़्यादा unused CPU पड़ा है
  • network bottleneck की वजह से यह काम नहीं करेगा। gigabytes डेटा भेजना पड़ेगा। इसलिए अच्छा internet (20mb/s से ऊपर) और अच्छे devices चाहिए होंगे। यह सिस्टम शायद Twitter पर एक शानदार demo बनकर रह जाएगा। उम्मीद है कि कोई इसे ग़लत साबित करे
  • computing/price के मामले में cloud को हराना मुश्किल है, लेकिन लोकल पर जाने से privacy की समस्या हल हो सकती है। दुनिया को computing के लिए second amendment की ज़रूरत है
  • पहले मुझे Mac, PC वगैरह पर लोकल में models चलाने में दिलचस्पी थी। लेकिन अब लगता है कि ज़्यादातर उपयोगी AI computing cloud में ही होगी। घर के नेटवर्क पर धीमा Llama3 model चला सकते हैं, लेकिन जब वही cloud service में सस्ते या मुफ़्त में चल सकता है तो ऐसा करने की ज़रूरत नहीं लगती। Apple लोकल AI models को आगे बढ़ा रहा है, लेकिन battery performance पर उसके असर को लेकर गंभीर चिंता है
  • बड़े clusters RDMA network का इस्तेमाल करते हैं और बताते हैं कि communication overhead ही bottleneck है, तो समझ नहीं आता कि यह सिस्टम घर के network में बड़े bottleneck के बिना कैसे चल सकता है