हर LLM डेवलपर को जानने चाहिए ये आंकड़े

kuroneko · 2023-05-18T10:45:09+09:00

LLM का उपयोग करते समय महत्वपूर्ण आंकड़ों का संकलन। प्रॉम्प्ट में "संक्षेप में" जोड़ने से लागत 40~90% तक बचाई जा सकती है। GPT-4 की तुलना में GPT-3.5 Turbo की कीमत 50 गुना कम है। vector search के लिए OpenAI embeddings का उपयोग करने पर यह GPT-3.5 Turbo से 20 गुना सस्ता पड़ता है। LLaMa-स्तर के LLM को ट्रेन करने में लगभग 10 लाख डॉलर का खर्च आता है। GPU के अनुसार memory size - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB आम तौर पर model size के 2 गुना memory की आवश्यकता होती है - 7B = 14GB embedding models आम तौर पर 1GB से कम memory का उपयोग करते हैं LLM requests को batch करने पर वे 10 गुना से अधिक तेज हो सकती हैं। 13B model को प्रति token लगभग 1MB की आवश्यकता होती है, इसलिए requests को batch करने पर memory की मांग काफी बढ़ जाती है।

(github.com/ray-project)

42 पॉइंट द्वारा kuroneko 2023-05-18 | 2 टिप्पणियां | WhatsApp पर शेयर करें

LLM का उपयोग करते समय महत्वपूर्ण आंकड़ों का संकलन।
प्रॉम्प्ट में "संक्षेप में" जोड़ने से लागत 40~90% तक बचाई जा सकती है।
GPT-4 की तुलना में GPT-3.5 Turbo की कीमत 50 गुना कम है।
vector search के लिए OpenAI embeddings का उपयोग करने पर यह GPT-3.5 Turbo से 20 गुना सस्ता पड़ता है।
LLaMa-स्तर के LLM को ट्रेन करने में लगभग 10 लाख डॉलर का खर्च आता है।
GPU के अनुसार memory size - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
आम तौर पर model size के 2 गुना memory की आवश्यकता होती है - 7B = 14GB
embedding models आम तौर पर 1GB से कम memory का उपयोग करते हैं
LLM requests को batch करने पर वे 10 गुना से अधिक तेज हो सकती हैं।
13B model को प्रति token लगभग 1MB की आवश्यकता होती है, इसलिए requests को batch करने पर memory की मांग काफी बढ़ जाती है।

2 टिप्पणियां

xguru 2023-05-18

मैंने छोटा करने के लिए बहुत कोशिश की है, लेकिन लगता है लेख में कही गई be consise को भी एक बार डालकर देखना चाहिए।

wedding 2023-05-20

लगता है let's think step by step के साथ उसका combination भी आज़माना चाहिए।

हर LLM डेवलपर को जानने चाहिए ये आंकड़े

संबंधित पढ़ाई

2 टिप्पणियां