- LLM का उपयोग करते समय महत्वपूर्ण आंकड़ों का संकलन।
- प्रॉम्प्ट में "संक्षेप में" जोड़ने से लागत 40~90% तक बचाई जा सकती है।
- GPT-4 की तुलना में GPT-3.5 Turbo की कीमत 50 गुना कम है।
- vector search के लिए OpenAI embeddings का उपयोग करने पर यह GPT-3.5 Turbo से 20 गुना सस्ता पड़ता है।
- LLaMa-स्तर के LLM को ट्रेन करने में लगभग 10 लाख डॉलर का खर्च आता है।
- GPU के अनुसार memory size - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- आम तौर पर model size के 2 गुना memory की आवश्यकता होती है - 7B = 14GB
- embedding models आम तौर पर 1GB से कम memory का उपयोग करते हैं
- LLM requests को batch करने पर वे 10 गुना से अधिक तेज हो सकती हैं।
- 13B model को प्रति token लगभग 1MB की आवश्यकता होती है, इसलिए requests को batch करने पर memory की मांग काफी बढ़ जाती है।
2 टिप्पणियां
मैंने छोटा करने के लिए बहुत कोशिश की है, लेकिन लगता है लेख में कही गई
be consiseको भी एक बार डालकर देखना चाहिए।लगता है
let's think step by stepके साथ उसका combination भी आज़माना चाहिए।