- Apple Silicon वातावरण में AI models को तेज़ी से चलाने के लिए Rust-आधारित inference इंजन
- GPU kernel या CoreML के निचले स्तर के MPSGraph का वैकल्पिक उपयोग करने वाली hybrid संरचना
- यह अपने स्वयं के format वाले models का उपयोग करता है, और lalamo टूल के जरिए Llama3 सहित विभिन्न models को convert करके इस्तेमाल किया जा सकता है
- speed में llama.cpp की तुलना में अधिकांश मामलों में बेहतर प्रदर्शन दिखाता है, और खास तौर पर Qwen3-0.6B में 13 गुना तेज़ processing speed दर्ज की गई
- Swift bindings, CLI interface, Rust API आदि के जरिए लचीला development और integration संभव है
- modular संरचना और Apple devices की unified memory के उपयोग से performance को अधिकतम करता है, तथा performance को verify किया जा सकने वाला inference path प्रदान कर reliability और scalability सुनिश्चित करता है
अभी कोई टिप्पणी नहीं है.