2 पॉइंट द्वारा GN⁺ 2023-11-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 'Talk-Llama' नाम के एक AI टूल का परिचयात्मक लेख, जो उपयोगकर्ताओं को टर्मिनल में AI से बातचीत करने देता है
  • यह टूल Whisper Medium और LLaMA v2 13B Q8_0 मॉडल का उपयोग करता है, और 2 नवंबर 2023 की नवीनतम प्रदर्शन अपडेट शामिल है
  • Talk-Llama, माइक्रोफ़ोन से ऑडियो कैप्चर करने के लिए SDL2 लाइब्रेरी पर निर्भर करता है
  • SDL2 इंस्टॉल करने के निर्देश दिए गए हैं, साथ ही Linux और Mac OS पर talk-llama executable को build और run करने का तरीका भी
  • उपयोगकर्ता -mw और -ml arguments के जरिए यह तय कर सकते हैं कि कौन-से Whisper और LLaMA मॉडल इस्तेमाल करने हैं
  • यह टूल session management को support करता है, जिससे पिछली interactions का context बना रहता है और बातचीत अधिक सुसंगत व निरंतर हो पाती है
  • उपयोगकर्ता --session FILE command line option का उपयोग करके session support सक्षम कर सकते हैं, जिससे हर interaction के बाद model state सेव होती है और पिछला session फिर से शुरू किया जा सकता है
  • बेहतर अनुभव के लिए, generated text responses को आवाज़ में बदलने वाले Text-to-Speech (TTS) टूल की सिफारिश की गई है
  • उपयोगकर्ता अपनी पसंद का TTS engine इस्तेमाल कर सकते हैं और speak script को आवश्यकता अनुसार संपादित कर सकते हैं
  • यह टूल feedback के लिए खुला है और उपयोगकर्ताओं को लगातार चर्चा में भाग लेने के लिए प्रोत्साहित करता है

1 टिप्पणियां

 
GN⁺ 2023-11-03
Hacker News राय
  • Apple Silicon के प्रदर्शन ने whisper.cpp को पूरी तरह चलाना संभव बनाया है और llama.cpp की generation speed में भी काफी सुधार हुआ है।
  • Llama को प्रोजेक्ट के लिए एक open source TTS model के साथ सफलतापूर्वक integrate किया गया है, जिससे इसकी versatility उजागर हुई।
  • ऐसे coding companion tools, जो जटिल समस्याएँ हल करने की कोशिश करने के बजाय manual overhead कम करते हैं, सबसे उपयोगी माने जाते हैं।
  • speech को context vector में embed करने वाले टूल का विचार एक भविष्यवादी और संभावित रूप से उपयोगी concept के रूप में प्रस्तावित किया गया।
  • arch और debian पर talk-llama चलाते समय "floating point exception" समस्या की रिपोर्ट मिली है, जो compatibility issue की ओर संकेत करती है।
  • latency कम करने के लिए यह सुझाव दिया गया कि LLM response पूरी तरह शुरू होने से पहले ही TTS को लगभग 6 tokens के समूहों में stream किया जाए।
  • यदि open weights का प्रस्ताव साकार होता है, तो इस तकनीक पर प्रतिबंध लगने की आशंका जताई गई।
  • ऐसे text-to-talk solution की संभावना पर चर्चा हुई जो text stream प्राप्त कर सके, जिससे llama के पूरा output तैयार करने का इंतज़ार किए बिना जवाब बोलकर सुनाया जा सके।
  • llama के लिए सबसे उपयुक्त chat interface क्या है, यह सवाल उठाया गया, और terminal में किसी एक model को तेज coding tasks के लिए चलाने की इच्छा भी व्यक्त की गई।
  • यह बताया गया कि Elevenlabs की voice महंगी है, और एक single conversation की लागत $20 तक पहुँच सकती है।
  • यह पूछा गया कि whisper/SOTA OS tts models के लिए ollama के equivalent के रूप में क्या उपलब्ध है, और whisper को local में चलाने के लिए एक सरल setup की इच्छा जताई गई।
  • इस तकनीक की क्षमताओं का plain English में विवरण माँगा गया, खासकर इस बारे में कि क्या यह chat का context सीखकर बनाए रख सकती है और long-term memory विकसित कर सकती है।