- सारांश बनाना (Summarizing) LLM के सबसे व्यावहारिक उपयोगों में से एक है, लेकिन यह भरोसेमंद होना चाहिए कि सारांश सटीक है
- लागत या डेटा एक्सेस से जुड़ी समस्याओं के कारण Llama2 जैसे open source LLM का उपयोग करना चाहा जा सकता है, लेकिन इसकी सटीकता को लेकर भरोसा नहीं बनता
- प्रयोगों के माध्यम से पाया गया कि Llama-2-70b की factual accuracy, gpt-4 के बराबर है, और यह gpt-3.5-turbo से काफी बेहतर है
- Anyscale Endpoint का उपयोग करके Llama 2 7b/13b/70b और gpt-3.5/4 की तुलना की गई
- तीन-स्तरीय सत्यापन से गुज़रे 373 समाचार रिपोर्ट वाक्यों को लेबल किया गया और हर एक के लिए एक सही और एक गलत विकल्प दिया गया
- हर LLM से यह चुनने को कहा गया कि कौन-सा कथन तथ्य-आधारित सटीक सारांश है
- दो समस्याएँ
- छोटे मॉडल निर्देशों का अच्छी तरह पालन नहीं करते। बड़े मॉडल निर्देशों का बेहतर पालन करते हैं। इसलिए छोटे LLM के आउटपुट को समझाने के लिए दूसरे LLM का उपयोग करना पड़ा
- क्रम पक्षपात। पहले क्या प्रस्तुत किया जाता है, उसके आधार पर चयन बदल जाता है। इसलिए क्रम बदलकर भी जाँच की गई
- परिणाम
- इंसान: 84% (पिछले शोध के आधार पर)
- gpt-3.5-turbo: 67.0% सही (क्रम पक्षपात की समस्या गंभीर)
- gpt-4: 85.5% सही
- Llama-2-7b: बहुत गंभीर क्रम पक्षपात समस्या। रैंडम accuracy से भी नीचे
- Llama-2-13b: 58.9% सही
- Llama-2-70b: 81.7%
- लागत (100K शब्दों का सारांश बनाने पर)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19
5 टिप्पणियां
GPT-4 की लागत दूसरे GPT मॉडलों की तुलना में वाकई बहुत ज़्यादा है...
बिना ज़्यादा सोचे-समझे इस्तेमाल किया... मासिक $120 quota पार हो गया, इसलिए बढ़ाने के लिए आवेदन करना पड़ा।
अभी तो यह वाकई काफ़ी महंगा है। उम्मीद है जल्दी ही इसकी कीमत GPT-3.5 के स्तर तक गिर जाएगी, हा हा
मैं summary के लिए हमेशा Kagi का Universal Summarizer इस्तेमाल करता हूँ.
मुझे यह ChatGPT से ज़्यादा आसान भी लगता है, और tokens भी unlimited हैं...
लेकिन Korean के मामले में यह बस नतीजे का अनुवाद करके दे देता है, इसलिए Korean क्वालिटी GPT 3.5 की तुलना में भी थोड़ी कमजोर लगी।
लगता है कि केवल paid में मिलने वाले enterprise-grade models बेहतर हैं, लेकिन शायद प्रति summary 1 dollar था, इसलिए personal use के लिए यह थोड़ा बोझिल लगा।
ऐसा लगता है कि LLM में summary फीचर वाकई एक अहम चयन मानदंड है।
समस्या यह है.. इस प्रयोग में LLM ने सारांश नहीं बनाया, बल्कि सारांशित चीज़ का मूल्यांकन किया था..
इस्तेमाल करके देखें तो GPT-4 की summary performance वाकई शानदार है। Korean translation भी समस्या है।
GN⁺ की लागत की वजह से मन डोल गया था.. लेकिन अभी के लिए लगता है बस gpt-4 ही इस्तेमाल करना चाहिए।