llama.cpp प्रोजेक्ट में WASM की गति को "2x बेहतर" बनाने वाला PR प्रकाशित हुआ
- SIMD निर्देशों का उपयोग करके
qX_K_q8_K और qX_0_q8_0 dot product फ़ंक्शनों को ऑप्टिमाइज़ किया गया
- अधिकांश कोड (99%) "DeepSeek-R1" द्वारा स्वतः जनरेट किया गया
- DeepSeek-R1 को प्रॉम्प्ट प्रोसेस करने में 3~5 मिनट लगे
DeepSeek-R1 की code generation क्षमता
- PR लेखक ने DeepSeek-R1 का उपयोग करके optimization कोड जनरेट और बेहतर किया, जबकि स्वयं केवल test code और prompts लिखे
- इस्तेमाल किए गए prompts में देखे जा सकते हैं
llm_groq.py को ऑप्टिमाइज़ करने की प्रक्रिया में DeepSeek-R1 ने बेहतरीन chain of thought दिखाई
DeepSeek-R1 vs OpenAI o1 प्रदर्शन तुलना
- वही काम OpenAI o1 से भी कराया गया, लेकिन DeepSeek-R1 का परिणाम बेहतर रहा
- उदाहरण कोड में
model_map को ऑप्टिमाइज़ करने की सोच प्रक्रिया:
- शुरुआत में इसने माना कि
model_map ज़रूरी है
- बाद में इसने सोचा कि इसे API response के आधार पर dynamically बनाया जा सकता है
- अंत में इसने तय किया कि
model_map को हटाना ही सबसे बेहतर समाधान है
निष्कर्ष
- DeepSeek-R1 ने automatic code generation और optimization में बेहतरीन प्रदर्शन दिखाया
- WASM में SIMD आधारित optimization से llama.cpp का प्रदर्शन काफी बेहतर हुआ
- PR लागू होने पर WebAssembly आधारित applications की execution speed में बड़ी बढ़ोतरी की उम्मीद है
4 टिप्पणियां
मैंने ollama में deepseek r1 14b 30b 70b चलाकर देखा, कुल मिलाकर reasoning अच्छी है लेकिन छोटी-छोटी गलतियां काफी हैं। r1 वाकई शानदार है।
मैंने 8b distilled वर्ज़न चलाकर देखा, लेकिन उसकी Korean परफॉर्मेंस कमज़ोर लगी।
लगता है कि code generation में यह सार्थक नतीजे दे रहा है।
Hacker News की राय
DeekSeek-R1 ने llama.cpp PR के 99% कोड को लिखा। यह एक उदाहरण है जो दिखाता है कि AI कोडिंग में बड़ा योगदान दे सकता है
DeepSeek-R1-Distill-Qwen-32B को Ollama के ज़रिए लैपटॉप पर चलाया जा रहा है, और इसके लिए लगभग 20GB RAM चाहिए
DeekSeek-R1 द्वारा llama.cpp PR के 99% कोड का लिखा जाना एक उल्लेखनीय मील का पत्थर है
DeepSeek से ARM SIMD कोड को WASM कोड में बदलने के लिए कहा गया, और इससे कोड optimization में मदद मिली
यह दावा कि LLM कोडिंग में उपयोगी नहीं हैं, गलत है
o1 Pro और Deepseek R1 का उपयोग करके e2e टेस्ट लिखे गए, और Deepseek ने बेहतर टेस्ट लिखे
Xuan-Son ने ARM NEON को SIMD में बदलने के अलावा एक नया approach विकसित करने के लिए भी कहा
DeepSeek R1 का उपयोग करके llm_groq.py plugin को फिर से लिखा गया, और यह Llama मॉडल पर fine-tuned deepseek-r1-distill-llama-70b से किया गया
AGI कुछ महीनों में आ सकता है, और training तीन चरणों में आगे बढ़ेगी