4 पॉइंट द्वारा GN⁺ 2025-01-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • VIM के भीतर लोकल LLM-आधारित टेक्स्ट ऑटो-कम्प्लीशन सुविधा प्रदान करता है
  • Insert मोड में कर्सर मूव होने पर ऑटो सुझाव
  • Ctrl+F से मैनुअल सुझाव पर स्विच किया जा सकता है
  • Tab से सुझाव स्वीकार करें
  • Shift+Tab से पहली पंक्ति का सुझाव स्वीकार करें
  • अधिकतम टेक्स्ट जनरेशन समय सेट किया जा सकता है
  • कर्सर के आसपास के कॉन्टेक्स्ट रेंज को सेट किया जा सकता है
  • खुले हुए फ़ाइलों, एडिट हो रही फ़ाइलों और कॉपी किए गए टेक्स्ट से कॉन्टेक्स्ट फ़्रैगमेंट का उपयोग करके कॉन्टेक्स्ट रिंग बनाता है
  • लो-एंड हार्डवेयर पर भी स्मार्ट कॉन्टेक्स्ट री-यूज़ के ज़रिए बहुत बड़े कॉन्टेक्स्ट को सपोर्ट करता है
  • परफ़ॉर्मेंस आँकड़े दिखाता है

इंस्टॉलेशन

  • vim-plug : Plug 'ggml-org/llama.vim'
  • Vundle :
    • ~/.vim/bundle में जाएँ, फिर git clone https://github.com/ggml-org/llama.vim
    • .vimrc के vundle#begin() सेक्शन में Plugin 'llama.vim' जोड़ें

llama.cpp सेटअप

  • प्लगइन को g:llama_config.endpoint पर चल रही llama.cpp सर्वर इंस्टेंस की आवश्यकता होती है
  • Mac OS : brew install llama.cpp
  • अन्य OS : सोर्स से बिल्ड करें या नवीनतम बाइनरी का उपयोग करें: llama.cpp releases

llama.cpp सेटअप

  • VRAM क्षमता के अनुसार अनुशंसित सेटिंग्स:
    • 16GB VRAM या अधिक: Qwen2.5-Coder-7B-Q8_0-GGUF
    • 16GB VRAM से कम: Qwen2.5-Coder-3B-Q8_0-GGUF
    • 8GB VRAM से कम: Qwen2.5-Coder-1.5B-Q8_0-GGUF
  • अधिक जानकारी के लिए :help llama देखें

अनुशंसित LLMs

  • FIM-कम्पैटिबल मॉडल आवश्यक: HF collection

इम्प्लीमेंटेशन विवरण

  • प्लगइन का लक्ष्य सरल और हल्का लोकल FIM कम्प्लीशन है, जो कंज़्यूमर-ग्रेड हार्डवेयर पर भी उच्च-गुणवत्ता परफ़ॉर्मेंस देता है

अन्य IDEs

1 टिप्पणियां

 
GN⁺ 2025-01-24
Hacker News राय
  • सर्वर implementation के technical details देखने की सिफारिश की गई है, क्योंकि इसमें दिलचस्प और शानदार ideas शामिल हैं। यह plugin VS Code में भी इस्तेमाल किया जा सकता है। client-side caching की वजह से performance बेहतर हुई है.

  • इस user ने open source AI ecosystem में बहुत योगदान दिया है, और उम्मीद है कि वह पर्याप्त funding जुटा सके ताकि software बनाना जारी रखे और उसे सचमुच के "बिना शर्त" open source के रूप में जारी कर सके.

  • ऐसा लगता है कि LLM tools को LSP, compiler और अन्य static analysis tools के साथ और अधिक करीब से integrate करने पर ज्यादा context और बेहतर output मिल सकता है। अगर language-specific LLM को fine-tune करके आम editor tools के साथ bundle किया जा सके तो अच्छा होगा। यह भी बताया गया है कि AI tools पुराने और लोकप्रिय languages में बेहतर काम करते हैं, जो language चुनते समय एक महत्वपूर्ण factor बन सकता है। यह भी अच्छा होगा अगर कोई Gleam-specific model install किया जा सके जो LSP और compiler से data लेकर गलत syntax न बनाए.

  • यह जिज्ञासा जताई गई है कि "ring context" कैसे काम करता है, और एक similar project में KV cache को manage करने का एक समाधान सुझाया गया है। token tree को बनाए रखते हुए, fixed-depth intervals पर पूरे LLM state snapshots save किए जाएँ ताकि buffer बदलने पर सिर्फ कुछ tokens को "replay" करना पड़े। ऐसा भी लगता है कि state के महत्वपूर्ण हिस्सों के काम करने के पीछे कुछ mathematical properties हो सकती हैं.

  • demo video में blinking cursor दिल की धड़कन बढ़ा देता है, लेकिन फिर भी बहुत शानदार लगता है। यह भी जिज्ञासा है कि Linux, M* hardware पर कैसा चलता है.

  • यह पूछा गया है कि क्या यह plugin, VSCode version जैसा ही है.

  • consumer hardware और quantization में सुधार के साथ आने वाले 10 सालों में क्या संभव हो सकता है, इस पर जिज्ञासा है। अभी 24GB GPU के साथ भी hosted services की performance तक पहुँचना मुश्किल है.

  • terminal coding को प्राथमिकता दी जाती है, और जब कहीं अटकाव हो तो terminal में गहराई से analysis करने के लिए askds इस्तेमाल किया जा सकता है.

  • यह पूछा गया है कि क्या mid-range hardware पर llama चलाया जा सकता है, क्योंकि RAM की कमी के कारण crash होने की आशंका है। 2G VRAM और 16G system RAM पर्याप्त नहीं लगते। ज़्यादातर Apple products में memory unified होती है, लेकिन बाकी मामलों में बहुत VRAM वाला महँगा Nvidia GPU चाहिए होगा। कोई सस्ता option है या नहीं, इस पर जिज्ञासा है.

  • इस क्षेत्र के जानकारों से सलाह माँगी गई है, खासकर इस बारे में कि उचित कीमत में graphics card खरीदकर local LLM कैसे चलाया जा सकता है.