ANEMLL - Apple Neural Engine पर LLM चलाने के लिए ओपन सोर्स प्रोजेक्ट

(github.com/Anemll)

3 पॉइंट द्वारा GN⁺ 2025-05-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Apple Neural Engine(ANE) पर चलने योग्य LLM inference pipeline प्रदान करता है
Hugging Face मॉडल के आधार पर Swift/C++ आधारित ऐप्स या iOS/macOS ऐप्स में on-device inference संभव बनाता है
नवीनतम 0.3.0 Alpha में Hugging Face मॉडल को CoreML फ़ॉर्मेट में बदलने के टूल, Swift आधारित inference CLI implementation, iOS/macOS ऐप sample, Python test code, और benchmark tool शामिल हैं
LLaMA 3.2 (1B / 8B) मॉडल तथा Distilled DeepSeek R1 8B/DeepHermes 3B और 8B का समर्थन, और आगे चलकर अधिक विविध मॉडल architecture तक विस्तार की योजना
लक्ष्य है Hugging Face मॉडलों को ANE के लिए रूपांतरित करने हेतु लचीला और आसान framework प्रदान करना

1 टिप्पणियां

GN⁺ 2025-05-05

Hacker News राय

यह जानने की जिज्ञासा है कि Apple के ANE-optimized मॉडल के बारे में, जिसमें "अधिकतम 10x तेज़ और 14x कम memory usage" का दावा किया गया था, उसके बाद कोई प्रगति हुई या नहीं
- MLX और llama.cpp, ANE को support नहीं करते
- llama.cpp इस विचार को explore कर रहा है
- MLX, Apple द्वारा बनाया गया होने के बावजूद ANE को support नहीं कर पाता
Snapdragon X laptop लॉन्च के समय दावा किया गया था कि NPU का उपयोग LLMs के लिए होगा
- Qualcomm के दावों पर भरोसा किया गया था, लेकिन वास्तव में मॉडल सिर्फ CPU पर चलते हैं
- NPU छोटे models के लिए power-efficient है, लेकिन बड़े models के लिए उपयुक्त नहीं
- Vulkan support ही एकमात्र उम्मीद है
लगा कि neural engine बेकार गया हुआ silicon है
- और GPU cores जोड़कर, ज़रूरत पड़ने पर neural processing APIs को GPU पर switch किया जा सकता है
- अगर कोई अलग राय हो तो उसे जानना चाहूँगा
मुख्य लाभ यह है कि power usage काफी कम है
- M1 Max और M4 Pro पर benchmark नतीजे दिखाते हैं कि GPU तेज़ है, लेकिन power ज़्यादा लेता है
- ANE models 512 tokens तक सीमित हैं, इसलिए अभी production में उपयोग करना कठिन है
README में सबसे महत्वपूर्ण जानकारी नहीं है
- यह जानना है कि समान quantization पर llama.cpp / MLX की तुलना में कितने tokens/sec मिलते हैं
- base platform बदलना तभी उचित है जब बड़ा improvement हो
यह समझने की कोशिश है कि इस तकनीक का असली secret क्या है
- क्या coremltools पर निर्भरता ही मुख्य बात है, या कोई और महत्वपूर्ण तकनीक भी है
Apple की unified memory इतनी RAM देती है कि ऐसे बड़े models चल सकें जिन्हें कई GPUs की ज़रूरत होती है
यह जानने की जिज्ञासा है कि क्या coreml, ANE का उपयोग करता है
- क्या coreml में कोई bottleneck है जिसके लिए lower-level access की ज़रूरत पड़ती है
यह जानने की जिज्ञासा है कि M series MacBook पर inference speed में कोई performance लाभ है या नहीं
- क्या मुख्य लक्ष्य दूसरे platforms (iOS आदि) पर inference को चलाना है
- अगर performance लाभ है, तो Ollama के साथ tokens/sec की तुलना देखना चाहूँगा
Apple के ANE पर कड़े नियंत्रण से आश्चर्य है
- उम्मीद है कि एक दिन लोग इसे वास्तव में उपयोग कर पाएँगे
- यह जानने की जिज्ञासा है कि कंपनियाँ नियंत्रण बनाए रखने के लिए तकनीक छिपाती हैं, या इसके पीछे सच में कोई बड़ा technical कारण है

ANEMLL - Apple Neural Engine पर LLM चलाने के लिए ओपन सोर्स प्रोजेक्ट

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय