42 पॉइंट द्वारा kuroneko 2023-05-18 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • LLM का उपयोग करते समय महत्वपूर्ण आंकड़ों का संकलन।
  • प्रॉम्प्ट में "संक्षेप में" जोड़ने से लागत 40~90% तक बचाई जा सकती है।
  • GPT-4 की तुलना में GPT-3.5 Turbo की कीमत 50 गुना कम है।
  • vector search के लिए OpenAI embeddings का उपयोग करने पर यह GPT-3.5 Turbo से 20 गुना सस्ता पड़ता है।
  • LLaMa-स्तर के LLM को ट्रेन करने में लगभग 10 लाख डॉलर का खर्च आता है।
  • GPU के अनुसार memory size - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • आम तौर पर model size के 2 गुना memory की आवश्यकता होती है - 7B = 14GB
  • embedding models आम तौर पर 1GB से कम memory का उपयोग करते हैं
  • LLM requests को batch करने पर वे 10 गुना से अधिक तेज हो सकती हैं।
  • 13B model को प्रति token लगभग 1MB की आवश्यकता होती है, इसलिए requests को batch करने पर memory की मांग काफी बढ़ जाती है।

2 टिप्पणियां

 
xguru 2023-05-18

मैंने छोटा करने के लिए बहुत कोशिश की है, लेकिन लगता है लेख में कही गई be consise को भी एक बार डालकर देखना चाहिए।

 
wedding 2023-05-20

लगता है let's think step by step के साथ उसका combination भी आज़माना चाहिए।