3 पॉइंट द्वारा GN⁺ 2025-05-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Apple Neural Engine(ANE) पर चलने योग्य LLM inference pipeline प्रदान करता है
  • Hugging Face मॉडल के आधार पर Swift/C++ आधारित ऐप्स या iOS/macOS ऐप्स में on-device inference संभव बनाता है
  • नवीनतम 0.3.0 Alpha में Hugging Face मॉडल को CoreML फ़ॉर्मेट में बदलने के टूल, Swift आधारित inference CLI implementation, iOS/macOS ऐप sample, Python test code, और benchmark tool शामिल हैं
  • LLaMA 3.2 (1B / 8B) मॉडल तथा Distilled DeepSeek R1 8B/DeepHermes 3B और 8B का समर्थन, और आगे चलकर अधिक विविध मॉडल architecture तक विस्तार की योजना
  • लक्ष्य है Hugging Face मॉडलों को ANE के लिए रूपांतरित करने हेतु लचीला और आसान framework प्रदान करना

1 टिप्पणियां

 
GN⁺ 2025-05-05
Hacker News राय
  • यह जानने की जिज्ञासा है कि Apple के ANE-optimized मॉडल के बारे में, जिसमें "अधिकतम 10x तेज़ और 14x कम memory usage" का दावा किया गया था, उसके बाद कोई प्रगति हुई या नहीं

    • MLX और llama.cpp, ANE को support नहीं करते
    • llama.cpp इस विचार को explore कर रहा है
    • MLX, Apple द्वारा बनाया गया होने के बावजूद ANE को support नहीं कर पाता
  • Snapdragon X laptop लॉन्च के समय दावा किया गया था कि NPU का उपयोग LLMs के लिए होगा

    • Qualcomm के दावों पर भरोसा किया गया था, लेकिन वास्तव में मॉडल सिर्फ CPU पर चलते हैं
    • NPU छोटे models के लिए power-efficient है, लेकिन बड़े models के लिए उपयुक्त नहीं
    • Vulkan support ही एकमात्र उम्मीद है
  • लगा कि neural engine बेकार गया हुआ silicon है

    • और GPU cores जोड़कर, ज़रूरत पड़ने पर neural processing APIs को GPU पर switch किया जा सकता है
    • अगर कोई अलग राय हो तो उसे जानना चाहूँगा
  • मुख्य लाभ यह है कि power usage काफी कम है

    • M1 Max और M4 Pro पर benchmark नतीजे दिखाते हैं कि GPU तेज़ है, लेकिन power ज़्यादा लेता है
    • ANE models 512 tokens तक सीमित हैं, इसलिए अभी production में उपयोग करना कठिन है
  • README में सबसे महत्वपूर्ण जानकारी नहीं है

    • यह जानना है कि समान quantization पर llama.cpp / MLX की तुलना में कितने tokens/sec मिलते हैं
    • base platform बदलना तभी उचित है जब बड़ा improvement हो
  • यह समझने की कोशिश है कि इस तकनीक का असली secret क्या है

    • क्या coremltools पर निर्भरता ही मुख्य बात है, या कोई और महत्वपूर्ण तकनीक भी है
  • Apple की unified memory इतनी RAM देती है कि ऐसे बड़े models चल सकें जिन्हें कई GPUs की ज़रूरत होती है

  • यह जानने की जिज्ञासा है कि क्या coreml, ANE का उपयोग करता है

    • क्या coreml में कोई bottleneck है जिसके लिए lower-level access की ज़रूरत पड़ती है
  • यह जानने की जिज्ञासा है कि M series MacBook पर inference speed में कोई performance लाभ है या नहीं

    • क्या मुख्य लक्ष्य दूसरे platforms (iOS आदि) पर inference को चलाना है
    • अगर performance लाभ है, तो Ollama के साथ tokens/sec की तुलना देखना चाहूँगा
  • Apple के ANE पर कड़े नियंत्रण से आश्चर्य है

    • उम्मीद है कि एक दिन लोग इसे वास्तव में उपयोग कर पाएँगे
    • यह जानने की जिज्ञासा है कि कंपनियाँ नियंत्रण बनाए रखने के लिए तकनीक छिपाती हैं, या इसके पीछे सच में कोई बड़ा technical कारण है