1 पॉइंट द्वारा GN⁺ 2023-09-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • खुली संवाद प्रणालियों में उपयोग होने वाले बड़े भाषा मॉडल (LLMs) की दीर्घकालिक स्मृति क्षमता बढ़ाने के लिए एक नई विधि पर शोधपत्र
  • दीर्घ संवादों में महत्वपूर्ण जानकारी भूल जाना खुली संवाद प्रणालियों की एक महत्वपूर्ण समस्या है
  • मौजूदा समाधान आमतौर पर संवाद सामग्री से मुख्य जानकारी प्राप्त करने के लिए विशेष retriever या summarizer को train करते हैं, लेकिन इसमें बहुत समय लगता है और यह labeled data की गुणवत्ता पर बहुत अधिक निर्भर करता है
  • प्रस्तावित विधि LLMs का उपयोग करके सारांश या मेमोरी को रिकर्सिव रूप से उत्पन्न कर इस समस्या को कम करने का प्रयास करती है
  • इस विधि में पहले LLMs को छोटे संवाद संदर्भों को याद रखने दिया जाता है, फिर पिछली मेमोरी और बाद के संदर्भ का उपयोग करके नई मेमोरी को रिकर्सिव रूप से बनाया जाता है
  • नवीनतम मेमोरी की मदद से LLM बहुत अधिक सुसंगत प्रतिक्रियाएँ उत्पन्न कर सकता है
  • इस विधि का मूल्यांकन ChatGPT और text-davinci-003 का उपयोग करके किया गया, और व्यापक रूप से उपयोग किए जाने वाले सार्वजनिक dataset पर किए गए प्रयोगों ने दिखाया कि यह दीर्घ संदर्भ वाले संवादों में अधिक सुसंगत प्रतिक्रियाएँ उत्पन्न कर सकती है
  • यह विधि LLM को अत्यंत लंबे संदर्भ को मॉडल करने में सक्षम बनाने के लिए एक संभावित समाधान है
  • इस विधि के लिए code और script भविष्य में सार्वजनिक किए जाएंगे
  • इस शोध को Simons Foundation, सदस्य संस्थानों और सभी योगदानकर्ताओं का समर्थन प्राप्त था

1 टिप्पणियां

 
GN⁺ 2023-09-04
Hacker News टिप्पणी
  • CodeRabbit PR review के लिए लेख में चर्चा किए गए तरीके जैसा ही एक approach इस्तेमाल करता है, और हर commit के लिए summary की summary बनाता है तथा जैसे-जैसे अतिरिक्त commit किए जाते हैं, उसे क्रमिक रूप से अपडेट करता है।
  • कुछ उपयोगकर्ताओं ने "text space" में memory बनाने की प्रभावशीलता पर संदेह जताया, और सुझाव दिया कि memory को dense embedding space में बेहतर तरीके से store किया जा सकता है, जो पूरे अर्थ को संरक्षित रख सके।
  • शोध में transparency और reproducibility की मांग की गई, और कुछ उपयोगकर्ताओं ने कहा कि प्रयोग में इस्तेमाल किए गए code और scripts तक पहुँच के बिना वे इन दावों पर विश्वास नहीं करते।
  • recursive summarization का उपयोग सफलतापूर्वक work environment में लागू किया गया, जहाँ हज़ारों "briefing" को पाँच paragraph के text में summarize किया गया और हर briefing को topics और subtopics में वर्गीकृत किया गया।
  • कुछ उपयोगकर्ताओं ने recursive summarization से जुड़ी समस्याओं का अनुभव किया, जैसे कुछ खास bits हर summary round में बचे रहते हैं, जिससे model किसी विशेष topic में फँस जाता है।
  • paper में details की कमी को लेकर आलोचना हुई, और कुछ उपयोगकर्ताओं ने इसे निराशाजनक तथा LLM developers के लिए बहुत कम उपयोगी माना।
  • कुछ उपयोगकर्ताओं ने technique की नवीनता पर सवाल उठाए, और कहा कि LLM-आधारित chat history memory की summarization पहले से स्थापित technique है, जबकि paper में प्रस्तावित तरीके के अनुसार हर message का summary बनाना एक बड़ा performance bottleneck है।
  • paper में memory text को prompt के हिस्से के रूप में जोड़ने वाली implementation पर सवाल उठे, और ऐसे store/retrieval system का सुझाव दिया गया जो context window tokens खर्च न करे।
  • paper में चर्चा की गई technique की तुलना Langchain की "summary" memory feature से की गई, जिसके बारे में कहा गया कि वह मार्च 2023 से मौजूद है।