सारांश के मामले में Llama2, GPT-4 जितना सटीक और 30 गुना सस्ता

xguru · 2023-08-30T11:08:02+09:00

सारांश बनाना (Summarizing) LLM के सबसे व्यावहारिक उपयोगों में से एक है, लेकिन यह भरोसेमंद होना चाहिए कि सारांश सटीक है लागत या डेटा एक्सेस से जुड़ी समस्याओं के कारण Llama2 जैसे open source LLM का उपयोग करना चाहा जा सकता है, लेकिन इसकी सटीकता को लेकर भरोसा नहीं बनता प्रयोगों के माध्यम से पाया गया कि Llama-2-70b की factual accuracy, gpt-4 के बराबर है, और यह gpt-3.5-turbo से काफी बेहतर है Anyscale Endpoint का उपयोग करके Llama 2 7b/13b/70b और gpt-3.5/4 की तुलना की गई तीन-स्तरीय सत्यापन से गुज़रे 373 समाचार रिपोर्ट वाक्यों को लेबल किया गया और हर एक के लिए एक सही और एक गलत विकल्प दिया गया हर LLM से यह चुनने को कहा गया कि कौन-सा कथन तथ्य-आधारित सटीक सारांश है दो समस्याएँ छोटे मॉडल निर्देशों का अच्छी तरह पालन नहीं करते। बड़े मॉडल निर्देशों का बेहतर पालन करते हैं। इसलिए छोटे LLM के आउटपुट को समझाने के लिए दूसरे LLM का उपयोग करना पड़ा क्रम पक्षपात। पहले क्या प्रस्तुत किया जाता है, उसके आधार पर चयन बदल जाता है। इसलिए क्रम बदलकर भी जाँच की गई परिणाम इंसान: 84% (पिछले शोध के आधार पर) gpt-3.5-turbo: 67.0% सही (क्रम पक्षपात की समस्या गंभीर) gpt-4: 85.5% सही Llama-2-7b: बहुत गंभीर क्रम पक्षपात समस्या। रैंडम accuracy से भी नीचे Llama-2-13b: 58.9% सही Llama-2-70b: 81.7% लागत (100K शब्दों का सारांश बनाने पर) gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 पॉइंट द्वारा xguru 2023-08-30 | 5 टिप्पणियां | WhatsApp पर शेयर करें

सारांश बनाना (Summarizing) LLM के सबसे व्यावहारिक उपयोगों में से एक है, लेकिन यह भरोसेमंद होना चाहिए कि सारांश सटीक है
लागत या डेटा एक्सेस से जुड़ी समस्याओं के कारण Llama2 जैसे open source LLM का उपयोग करना चाहा जा सकता है, लेकिन इसकी सटीकता को लेकर भरोसा नहीं बनता
प्रयोगों के माध्यम से पाया गया कि Llama-2-70b की factual accuracy, gpt-4 के बराबर है, और यह gpt-3.5-turbo से काफी बेहतर है
Anyscale Endpoint का उपयोग करके Llama 2 7b/13b/70b और gpt-3.5/4 की तुलना की गई
- तीन-स्तरीय सत्यापन से गुज़रे 373 समाचार रिपोर्ट वाक्यों को लेबल किया गया और हर एक के लिए एक सही और एक गलत विकल्प दिया गया
- हर LLM से यह चुनने को कहा गया कि कौन-सा कथन तथ्य-आधारित सटीक सारांश है
दो समस्याएँ
- छोटे मॉडल निर्देशों का अच्छी तरह पालन नहीं करते। बड़े मॉडल निर्देशों का बेहतर पालन करते हैं। इसलिए छोटे LLM के आउटपुट को समझाने के लिए दूसरे LLM का उपयोग करना पड़ा
- क्रम पक्षपात। पहले क्या प्रस्तुत किया जाता है, उसके आधार पर चयन बदल जाता है। इसलिए क्रम बदलकर भी जाँच की गई
परिणाम
- इंसान: 84% (पिछले शोध के आधार पर)
- gpt-3.5-turbo: 67.0% सही (क्रम पक्षपात की समस्या गंभीर)
- gpt-4: 85.5% सही
- Llama-2-7b: बहुत गंभीर क्रम पक्षपात समस्या। रैंडम accuracy से भी नीचे
- Llama-2-13b: 58.9% सही
- Llama-2-70b: 81.7%
लागत (100K शब्दों का सारांश बनाने पर)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5 टिप्पणियां

mhj5730 2023-08-30

GPT-4 की लागत दूसरे GPT मॉडलों की तुलना में वाकई बहुत ज़्यादा है...

xguru 2023-08-30

बिना ज़्यादा सोचे-समझे इस्तेमाल किया... मासिक $120 quota पार हो गया, इसलिए बढ़ाने के लिए आवेदन करना पड़ा।
अभी तो यह वाकई काफ़ी महंगा है। उम्मीद है जल्दी ही इसकी कीमत GPT-3.5 के स्तर तक गिर जाएगी, हा हा

kuroneko 2023-08-30

मैं summary के लिए हमेशा Kagi का Universal Summarizer इस्तेमाल करता हूँ.
मुझे यह ChatGPT से ज़्यादा आसान भी लगता है, और tokens भी unlimited हैं...

लेकिन Korean के मामले में यह बस नतीजे का अनुवाद करके दे देता है, इसलिए Korean क्वालिटी GPT 3.5 की तुलना में भी थोड़ी कमजोर लगी।
लगता है कि केवल paid में मिलने वाले enterprise-grade models बेहतर हैं, लेकिन शायद प्रति summary 1 dollar था, इसलिए personal use के लिए यह थोड़ा बोझिल लगा।

ragingwind 2023-08-30

ऐसा लगता है कि LLM में summary फीचर वाकई एक अहम चयन मानदंड है।

xguru 2023-08-30

समस्या यह है.. इस प्रयोग में LLM ने सारांश नहीं बनाया, बल्कि सारांशित चीज़ का मूल्यांकन किया था..
इस्तेमाल करके देखें तो GPT-4 की summary performance वाकई शानदार है। Korean translation भी समस्या है।
GN⁺ की लागत की वजह से मन डोल गया था.. लेकिन अभी के लिए लगता है बस gpt-4 ही इस्तेमाल करना चाहिए।

सारांश के मामले में Llama2, GPT-4 जितना सटीक और 30 गुना सस्ता

संबंधित पढ़ाई

5 टिप्पणियां