- Apple Neural Engine(ANE) पर चलने योग्य LLM inference pipeline प्रदान करता है
- Hugging Face मॉडल के आधार पर Swift/C++ आधारित ऐप्स या iOS/macOS ऐप्स में on-device inference संभव बनाता है
- नवीनतम 0.3.0 Alpha में Hugging Face मॉडल को CoreML फ़ॉर्मेट में बदलने के टूल, Swift आधारित inference CLI implementation, iOS/macOS ऐप sample, Python test code, और benchmark tool शामिल हैं
- LLaMA 3.2 (1B / 8B) मॉडल तथा Distilled DeepSeek R1 8B/DeepHermes 3B और 8B का समर्थन, और आगे चलकर अधिक विविध मॉडल architecture तक विस्तार की योजना
- लक्ष्य है Hugging Face मॉडलों को ANE के लिए रूपांतरित करने हेतु लचीला और आसान framework प्रदान करना
1 टिप्पणियां
Hacker News राय
यह जानने की जिज्ञासा है कि Apple के ANE-optimized मॉडल के बारे में, जिसमें "अधिकतम 10x तेज़ और 14x कम memory usage" का दावा किया गया था, उसके बाद कोई प्रगति हुई या नहीं
Snapdragon X laptop लॉन्च के समय दावा किया गया था कि NPU का उपयोग LLMs के लिए होगा
लगा कि neural engine बेकार गया हुआ silicon है
मुख्य लाभ यह है कि power usage काफी कम है
README में सबसे महत्वपूर्ण जानकारी नहीं है
यह समझने की कोशिश है कि इस तकनीक का असली secret क्या है
Apple की unified memory इतनी RAM देती है कि ऐसे बड़े models चल सकें जिन्हें कई GPUs की ज़रूरत होती है
यह जानने की जिज्ञासा है कि क्या coreml, ANE का उपयोग करता है
यह जानने की जिज्ञासा है कि M series MacBook पर inference speed में कोई performance लाभ है या नहीं
Apple के ANE पर कड़े नियंत्रण से आश्चर्य है