LLM इंफ़रेंस हैंडबुक

(bentoml.com)

3 पॉइंट द्वारा GN⁺ 2025-07-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM इंफ़रेंस हैंडबुक वास्तविक production environment में LLM इंफ़रेंस के लिए ज़रूरी मुख्य concepts और optimization techniques की व्यापक जानकारी देता है
performance metrics (जैसे: Time to First Token, Tokens per Second) और operational best practices जैसी काम की महत्वपूर्ण जानकारी प्रदान करता है
continuous batching, prefix caching जैसी नवीनतम optimization methods को विस्तार से समझाता है
इधर-उधर बिखरे LLM इंफ़रेंस ज्ञान को एक जगह व्यवस्थित करके developers की समझ और उपयोगिता बढ़ाता है
हैंडबुक को नवीनतम field information और प्रमाणित methodologies को लगातार शामिल करते हुए अपडेट किया जाता है

LLM इंफ़रेंस हैंडबुक परिचय

LLM Inference in Production तकनीकी glossary, guidebook, और reference को एक साथ जोड़ने वाला एक रूप है
यह हैंडबुक LLM इंफ़रेंस की बुनियादी अवधारणाएँ, performance metrics, optimization techniques (continuous batching, prefix caching आदि), operational best practices जैसे व्यावहारिक काम के लिए ज़रूरी विषयों को विस्तार से कवर करता है

production environment में LLM deployment, scaling, और operations guidelines के लिए व्यावहारिक मार्गदर्शन देता है
अव्यावहारिक exceptions या अनावश्यक technical noise को हटाकर, मैदान में वास्तव में महत्वपूर्ण हिस्सों पर ध्यान केंद्रित करता है
हर use case के अनुरूप performance improvement techniques का परिचय कराता है, जिससे performance सुधार में वास्तविक मदद मिलती है
industry के नवीनतम रुझानों और व्यावहारिक रूप से सत्यापित insights को लगातार अपडेट करता है

लेखन की प्रेरणा

developers के लिए LLM इंफ़रेंस से जुड़ी जानकारी ढूँढना कठिन होता है या वह कई जगहों पर बिखरी होती है, जिससे knowledge fragmentation की समस्या पैदा होती है
हैंडबुक के लेखकों ने papers, vendor blogs, GitHub issues, Discord conversations आदि में बिखरी सामग्री को समेकित करके,

LLM training और inference के बीच का अंतर
Goodput और SLO हासिल करने के संबंध
Prefill-Decode separation technique का वास्तविक उपयोग को एक ही जगह समझने योग्य रूप में व्यवस्थित किया है

लक्षित पाठक

यह हैंडबुक उन engineers के लिए बनाया गया है जो production environment में LLM को deploy, scale, और operate करते हैं
छोटे open models की fine-tuning से लेकर बड़े self-managed infrastructure के संचालन तक,

LLM इंफ़रेंस को और तेज़, सस्ता, और अधिक विश्वसनीय बनाना चाहने वाले सभी लोग इसके मुख्य पाठक हैं

उपयोग कैसे करें

यह हैंडबुक शुरू से अंत तक पढ़ी जा सकती है, या reference की तरह ज़रूरत के हिस्से खोजकर भी इस्तेमाल की जा सकती है
कोई विशेष प्रवेश क्रम या उपयोग विधि नहीं है,

LLM इंफ़रेंस क्षेत्र के तेज़ बदलावों के अनुसार नवीनतम सामग्री लगातार जोड़ी और अपडेट की जाती रहेगी

योगदान मार्गदर्शिका

गलतियों की पहचान, सुधार सुझाव, और नए topics जोड़ने का स्वागत है

issue दर्ज करके या GitHub repository में Pull Request जमा करके कोई भी भाग ले सकता है

1 टिप्पणियां

GN⁺ 2025-07-12

Hacker News टिप्पणियाँ

नमस्ते, मैं इस प्रोजेक्ट के maintainers में से एक हूँ। Hacker News पर हमारे प्रोजेक्ट का परिचय देखकर बहुत खुशी और सम्मान महसूस हो रहा है। इस handbook को बनाने का कारण यह था कि वास्तविक LLM applications विकसित करने वाले developers भी LLM inference की अवधारणाओं तक आसानी से पहुँच सकें। हमारा उद्देश्य अलग-अलग जगह बिखरी जानकारी को स्पष्ट, व्यावहारिक और scalable रूप में एकत्र करना था। हम इसे लगातार और बेहतर handbook बनाने के लिए सुधार करते रहेंगे, इसलिए feedback का सक्रिय रूप से स्वागत है। GitHub repository भी ज़रूर देखें
- इसे इस तरह व्यवस्थित करने के लिए बहुत धन्यवाद। एक सवाल है: इस चित्र में जहाँ TTFT और ITL को परिभाषित किया गया है, वहाँ ऐसा लगता है कि मॉडल T0 से T3 तक 4 tokens जनरेट करने के बाद एक output token भेजता है। मुझे लगता है कि यह चित्र ITL समझाने के लिए ज़्यादा उपयुक्त है, जबकि TTFT के मामले में decode चरण में केवल T0 निकलते ही तुरंत detokenization के जरिए पहला output token आ जाना चाहिए (क्योंकि streaming वातावरण में TTFT को इसी तरह मापा जाना अर्थपूर्ण है)
- मैं इसके लिए अलग से issue खोलने का सोच नहीं रहा, लेकिन handbook के self-hosting हिस्से में llama.cpp जैसे local self-hosting inference open source विकल्पों की स्पष्ट सिफारिश होनी चाहिए
- यह handbook उपयोगी है और अच्छी तरह व्यवस्थित भी लगता है, लेकिन इसे बहुत अधिक छोटे-छोटे pages में बाँट दिया गया है, इसलिए mobile पर table of contents डिफ़ॉल्ट रूप से नहीं दिखती और पढ़ना असुविधाजनक हो जाता है। मैंने कुछ pages पढ़कर ही छोड़ दिया। कम से कम एक section को एक page में दिखाया जाए तो बेहतर होगा
- यह वास्तव में शानदार काम है, बहुत सुंदर तरीके से बनाया गया है और उपयोगी भी है
डिज़ाइन भी बहुत शानदार है, इसलिए जिज्ञासा से पूछ रहा हूँ: वेबसाइट में इस्तेमाल किया गया design trend या उसका नाम क्या है? मुझे इस साइट का design भी बहुत पसंद आया
- लगता है कि इसमें Infima नाम का base CSS framework इस्तेमाल हुआ है। यह Docusaurus का default CSS framework है, और इसमें system font stack का उपयोग किया गया है। font-family है -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif
आगे चलकर Structured outputs/Guided generation और sampling पर भी और सामग्री जोड़ी जाए तो अच्छा होगा। inference चरण में sampling algorithms के लिए अतिरिक्त reference के रूप में यहाँ भी देखा जा सकता है
- वाह, यह sampling summary material भी बहुत विस्तार से है
ऐसा handbook आया है, यह देखकर बहुत खुशी हुई। मैं समझ सकता हूँ कि सार्वजनिक सामग्री में model training को लेकर बहुत रुचि और उत्साह होता है, लेकिन वास्तव में models को अच्छी तरह चलाना भी उतना ही महत्वपूर्ण है। आगे विभिन्न applications में व्यापक adoption के लिए execution और operations का ज्ञान और अधिक आवश्यक होता जाएगा
इसे इस तरह एक जगह संकलित करने के लिए धन्यवाद। आगे से शायद यही एक link साझा कर देना काफी होगा ताकि रुचि रखने वाले लोग सीख सकें। एक सुझाव यह है कि "OpenAI-compatible API" page में OpenAI package के बिना pure REST call वाला उदाहरण भी जोड़ दिया जाए तो अच्छा होगा
मुझे BentoML के बारे में याद है कि यह मूल रूप से MLOps से संबंधित था, शायद मैंने इसे एक साल पहले इस्तेमाल किया था। क्या कंपनी ने अपना focus बदल लिया है?
- LLM serving अभी बाज़ार का बड़ा हिस्सा है, इसलिए किसी serving framework के लिए इस क्षेत्र में विस्तार करना स्वाभाविक दिशा है
यह बहुत ही अच्छा reference है, इसे इतने व्यवस्थित तरीके से तैयार करने के लिए धन्यवाद

LLM इंफ़रेंस हैंडबुक