आधुनिक AI स्टैक: एंटरप्राइज़ AI आर्किटेक्चर के भविष्य के लिए डिज़ाइन सिद्धांत

xguru · 2024-01-29T11:05:01+09:00

आधुनिक AI स्टैक की परिभाषा लेयर 1: Compute और foundation models - इसमें foundation models स्वयं और मॉडलों को train, fine-tune, optimize और deploy करने के लिए आवश्यक infrastructure शामिल है लेयर 2: डेटा - इसमें वह infrastructure शामिल है जो LLM को enterprise data systems के भीतर उपयुक्त context से जोड़ता है, और इसमें data preprocessing, ETL और data pipelines, vector databases, metadata stores, context cache जैसे मुख्य components शामिल हैं लेयर 3: deployment - इसमें वे tools शामिल हैं जो developers को AI applications को manage और orchestrate करने में मदद करते हैं। Agent frameworks, prompt management, model routing और orchestration लेयर 4: observability - इसमें वे solutions शामिल हैं जो LLM के runtime behavior की monitoring करते हैं और खतरों से सुरक्षा प्रदान करते हैं नई AI maturity curve आधुनिक AI stack को परिभाषित करने वाली market structure और technologies तेज़ी से विकसित हो रही हैं, और मुख्य components तथा leaders पहले ही उभर चुके हैं LLM से पहले ML development रैखिक और 'model-centric' था, लेकिन LLM ने इसे 'product-centric' बना दिया, जिससे ML expertise के बिना भी teams अपने products में AI को integrate कर सकती हैं जैसे-जैसे AI stack परिपक्व होता है, development teams enterprise या customer-specific data के माध्यम से AI अनुभवों को customize करना चाहती हैं AI maturity curve चरण 1: Closed-source models only केवल closed-source models 2023 की शुरुआत में लागत और engineering effort मुख्य रूप से foundation model पर केंद्रित थे, और उसके ऊपर केवल सरल customization होती थी, जैसे prompt engineering / few-shot learning OpenAI और Anthropic जैसे प्रमुख closed-source model providers ने इस चरण में शुरुआती traction हासिल किया और आधुनिक AI stack के पहले विजेताओं के रूप में स्थापित हो गए चरण 2: Retrieval-augmented generation retrieval-augmented generation AI application efforts का केंद्र model layer के बजाय data layer पर आ गया खासकर RAG के लोकप्रिय होने के लिए Pinecone जैसे vector database और Unstructured जैसे data preprocessing engine जैसी अधिक शक्तिशाली data layer infrastructure की आवश्यकता पड़ी अधिकांश enterprises और startups अभी इसी चरण में हैं चरण 3: Hybrid model deployment hybrid model deployment Typeface और Descript जैसी अग्रणी कंपनियों ने बड़े पैमाने के domain-specific workloads के लिए closed-source models के साथ open source का उपयोग पूरक रूप में शुरू किया Modal, Baseten और Fireworks जैसे model deployment vendors ने उल्लेखनीय traction प्राप्त करना शुरू किया चरण 4 और आगे: Custom models custom models अभी बहुत कम कंपनियाँ इतनी परिपक्व हुई हैं कि अपने मॉडल बना सकें, या उन्हें अपने मॉडल बनाने की ज़रूरत हो, लेकिन भविष्य में stack का गहराई से उपयोग करने वाले बड़े enterprises के use cases बढ़ेंगे Predibase और Lamini जैसी कंपनियाँ, जो memory-efficient fine-tuning (4-bit quantization, QLoRA, memory paging/offload सहित) के लिए tools देती हैं, इसमें सहयोग करेंगी नई AI infrastructure stack के लिए चार प्रमुख डिज़ाइन सिद्धांत AI क्रांति ने न केवल नए infrastructure stack की मांग पैदा की है, बल्कि इसने यह भी बदल दिया है कि कंपनियाँ application development, R&D spending और team composition को कैसे देखती हैं प्रमुख डिज़ाइन सिद्धांत: 1. खर्च का अधिकांश हिस्सा inference और training पर जाता है LLM क्रांति के शुरुआती दौर में ऐसा लगा कि हर कंपनी किसी दिन अपना large language model train कर सकेगी मार्च 2023 में घोषित BloombergGPT (financial data पर विशेष रूप से train किया गया 50b LLM) जैसे models को enterprise और domain-specific LLMs की बाढ़ के संकेत के रूप में देखा गया था लेकिन ऐसी बाढ़ नहीं आई Menlo Ventures के हालिया enterprise AI survey के अनुसार कुल AI spending का लगभग 95% runtime और pretraining पर खर्च हो रहा है यह अनुपात केवल Anthropic जैसे बड़े foundation model providers में उल्टा है। Application layer में Writer जैसे उन्नत AI builders भी अपनी computing का 80% से अधिक training नहीं बल्कि inference पर खर्च करते हैं 2. हम multi-model दुनिया में रह रहे हैं कोई एक model "सभी मॉडलों पर राज" नहीं कर सकता 60% enterprises कई models का उपयोग करते हैं और prompts को उस model की ओर route करते हैं जो सबसे अच्छा performance देता है Multi-model approach एक ही model पर निर्भरता को हटाती है, अधिक control देती है, और लागत कम करती है 3. RAG प्रमुख architectural approach है LLM बेहतरीन reasoning engines हैं, लेकिन domain और enterprise-specific knowledge में उनकी सीमाएँ हैं उपयोगी AI experiences बनाने के लिए teams knowledge augmentation techniques को तेज़ी से deploy कर रही हैं, जिसकी शुरुआत retrieval-augmented generation (RAG) से होती है RAG, Pinecone जैसे vector databases के माध्यम से base models को enterprise-specific "memory" देता है यह तकनीक fine-tuning, low-rank adaptation या adapters जैसी अन्य customization techniques से काफी आगे है, जो मुख्य रूप से model layer पर काम करती हैं, data layer पर नहीं यह रुझान आगे भी जारी रहेगा, और उम्मीद है कि runtime architecture में data plane के नए हिस्से शामिल होंगे, जिनमें data preprocessing engines (जैसे Cleanlab) और ETL pipes (जैसे Unstructured) शामिल हैं 4. अब हर developer एक AI developer है दुनिया भर में developers की संख्या 3 करोड़ है, जबकि ML engineers केवल 3 लाख और ML researchers केवल 30 हज़ार हैं ML के अग्रिम मोर्चे पर innovation करने वालों में, यह अनुमान है कि GPT-4 या Claude 2 स्तर की systems बनाना जानने वाले researchers दुनिया में केवल लगभग 50 हैं इस वास्तविकता के बीच अच्छी खबर यह है कि जिन कामों के लिए पहले वर्षों की foundational research और उन्नत ML expertise चाहिए होती थी, उन्हें अब शक्तिशाली pre-trained LLMs पर आधारित data systems को engineer करने वाले mainstream developers कुछ दिनों या हफ्तों में पूरा कर सकते हैं Salesforce का Einstein GPT (Sales के लिए AI CoPilot) और Intuit Assist (Generative AI आधारित financial assistant) जैसे products मुख्य रूप से AI engineers से बनी lean teams द्वारा बनाए गए हैं, यानी ऐसे पारंपरिक full-stack engineers जो आधुनिक AI stack के data plane पर काम करते हैं आगे क्या आधुनिक AI stack तेज़ी से विकसित हो रहा है, और इस वर्ष भी इसके निरंतर आगे बढ़ने की संभावना है अगली पीढ़ी के AI applications अधिक उन्नत RAG का परीक्षण कर रहे हैं आज RAG सबसे प्रभावशाली है, लेकिन यह approach समस्याओं से मुक्त नहीं है कई implementations अब भी token-count आधारित document chunking, अक्षम indexing, और ranking algorithms सहित naive embedding और retrieval techniques का उपयोग करती हैं इसमें context fragmentation, hallucination, entity rarity, और inefficient retrieval जैसी समस्याएँ हैं इन समस्याओं को हल करने के लिए अगली पीढ़ी के architectures अधिक उन्नत RAG का परीक्षण कर रहे हैं: Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion, rule-based retrieval आदि छोटे models आधुनिक AI stack में बड़ी भूमिका निभाएँगे जैसे-जैसे AI application builders आधुनिक AI stack में और गहराई से जाएंगे, अधिक granular और task-specific models की वृद्धि की उम्मीद है वे task-specific models, जिन्हें fine-tune किया गया है, उन क्षेत्रों में फैलेंगे जहाँ बड़े closed-source models संभालने में कठिन या बहुत महंगे हैं ML pipelines बनाने और fine-tuning के लिए infrastructure इस चरण में बहुत महत्वपूर्ण होगा, क्योंकि enterprises अपने task-specific models बनाना शुरू करेंगे Ollama और ggml द्वारा प्रदान की गई quantization techniques teams को छोटे models से मिलने वाले अधिकतम speed gains का लाभ उठाने में मदद करेंगी Observability और model evaluation के लिए नए tools उभर रहे हैं 2023 के अधिकांश समय में logging और evaluation या तो बिल्कुल नहीं हो रहे थे, या हाथ से किए जा रहे थे, या academic benchmarks के माध्यम से किए जा रहे थे, जो अधिकांश enterprise applications के शुरुआती बिंदु बनते हैं Criteo के शोध के अनुसार AI अपनाने वाली लगभग 70% कंपनियाँ मुख्य evaluation technique के रूप में इंसानों द्वारा outputs की समीक्षा कर रही हैं, क्योंकि जोखिम ऊँचा है ग्राहक उच्च गुणवत्ता वाले outputs की अपेक्षा करते हैं और उसके हकदार हैं, और कंपनियाँ भली-भांति जानती हैं कि hallucination के कारण वे ग्राहकों का भरोसा खो सकती हैं इसलिए observability और evaluation नए tools के लिए एक महत्वपूर्ण अवसर प्रस्तुत करते हैं Braintrust, Patronus, Log10, AgentOps जैसे आशाजनक नए approaches पहले ही सामने आ चुके हैं Architecture serverless दिशा में जाएगा अन्य enterprise data systems की तरह, आधुनिक AI stack भी समय के साथ serverless की ओर बढ़ रहा है यहाँ "temporary machine" प्रकार के serverless (जैसे lambda functions) और वास्तविक scale-to-zero serverless (जैसे Postgres के लिए Neon architecture) के बीच अंतर किया गया है Scale-to-zero serverless में infrastructure को abstract कर देने से developers application execution की operational complexity से मुक्त होते हैं, तेज़ iteration संभव होता है, और enterprises केवल availability के लिए भुगतान करते हैं, compute के लिए नहीं, जिससे संसाधनों का उल्लेखनीय optimization मिलता है Serverless paradigm आधुनिक AI stack के हर हिस्से पर लागू होगा Pinecone ने vector computing के लिए आधुनिक architecture के रूप में इस approach को अपनाया है Neon Postgres के लिए, Momento caching के लिए, और Baseten तथा Modal inference के लिए यही काम कर रहे हैं

(menlovc.com)

28 पॉइंट द्वारा xguru 2024-01-29 | 6 टिप्पणियां | WhatsApp पर शेयर करें

आधुनिक AI स्टैक की परिभाषा

लेयर 1: Compute और foundation models - इसमें foundation models स्वयं और मॉडलों को train, fine-tune, optimize और deploy करने के लिए आवश्यक infrastructure शामिल है
लेयर 2: डेटा - इसमें वह infrastructure शामिल है जो LLM को enterprise data systems के भीतर उपयुक्त context से जोड़ता है, और इसमें data preprocessing, ETL और data pipelines, vector databases, metadata stores, context cache जैसे मुख्य components शामिल हैं
लेयर 3: deployment - इसमें वे tools शामिल हैं जो developers को AI applications को manage और orchestrate करने में मदद करते हैं। Agent frameworks, prompt management, model routing और orchestration
लेयर 4: observability - इसमें वे solutions शामिल हैं जो LLM के runtime behavior की monitoring करते हैं और खतरों से सुरक्षा प्रदान करते हैं

नई AI maturity curve

आधुनिक AI stack को परिभाषित करने वाली market structure और technologies तेज़ी से विकसित हो रही हैं, और मुख्य components तथा leaders पहले ही उभर चुके हैं
LLM से पहले ML development रैखिक और 'model-centric' था, लेकिन LLM ने इसे 'product-centric' बना दिया, जिससे ML expertise के बिना भी teams अपने products में AI को integrate कर सकती हैं
जैसे-जैसे AI stack परिपक्व होता है, development teams enterprise या customer-specific data के माध्यम से AI अनुभवों को customize करना चाहती हैं
AI maturity curve
- चरण 1: Closed-source models only केवल closed-source models
  - 2023 की शुरुआत में लागत और engineering effort मुख्य रूप से foundation model पर केंद्रित थे, और उसके ऊपर केवल सरल customization होती थी, जैसे prompt engineering / few-shot learning
  - OpenAI और Anthropic जैसे प्रमुख closed-source model providers ने इस चरण में शुरुआती traction हासिल किया और आधुनिक AI stack के पहले विजेताओं के रूप में स्थापित हो गए
- चरण 2: Retrieval-augmented generation retrieval-augmented generation
  - AI application efforts का केंद्र model layer के बजाय data layer पर आ गया
  - खासकर RAG के लोकप्रिय होने के लिए Pinecone जैसे vector database और Unstructured जैसे data preprocessing engine जैसी अधिक शक्तिशाली data layer infrastructure की आवश्यकता पड़ी
  - अधिकांश enterprises और startups अभी इसी चरण में हैं
- चरण 3: Hybrid model deployment hybrid model deployment
  - Typeface और Descript जैसी अग्रणी कंपनियों ने बड़े पैमाने के domain-specific workloads के लिए closed-source models के साथ open source का उपयोग पूरक रूप में शुरू किया
  - Modal, Baseten और Fireworks जैसे model deployment vendors ने उल्लेखनीय traction प्राप्त करना शुरू किया
- चरण 4 और आगे: Custom models custom models
  - अभी बहुत कम कंपनियाँ इतनी परिपक्व हुई हैं कि अपने मॉडल बना सकें, या उन्हें अपने मॉडल बनाने की ज़रूरत हो, लेकिन भविष्य में stack का गहराई से उपयोग करने वाले बड़े enterprises के use cases बढ़ेंगे
  - Predibase और Lamini जैसी कंपनियाँ, जो memory-efficient fine-tuning (4-bit quantization, QLoRA, memory paging/offload सहित) के लिए tools देती हैं, इसमें सहयोग करेंगी

नई AI infrastructure stack के लिए चार प्रमुख डिज़ाइन सिद्धांत

AI क्रांति ने न केवल नए infrastructure stack की मांग पैदा की है, बल्कि इसने यह भी बदल दिया है कि कंपनियाँ application development, R&D spending और team composition को कैसे देखती हैं
प्रमुख डिज़ाइन सिद्धांत:
- 1. खर्च का अधिकांश हिस्सा inference और training पर जाता है
  - LLM क्रांति के शुरुआती दौर में ऐसा लगा कि हर कंपनी किसी दिन अपना large language model train कर सकेगी
  - मार्च 2023 में घोषित BloombergGPT (financial data पर विशेष रूप से train किया गया 50b LLM) जैसे models को enterprise और domain-specific LLMs की बाढ़ के संकेत के रूप में देखा गया था
  - लेकिन ऐसी बाढ़ नहीं आई
  - Menlo Ventures के हालिया enterprise AI survey के अनुसार कुल AI spending का लगभग 95% runtime और pretraining पर खर्च हो रहा है
  - यह अनुपात केवल Anthropic जैसे बड़े foundation model providers में उल्टा है। Application layer में Writer जैसे उन्नत AI builders भी अपनी computing का 80% से अधिक training नहीं बल्कि inference पर खर्च करते हैं
- 2. हम multi-model दुनिया में रह रहे हैं
  - कोई एक model "सभी मॉडलों पर राज" नहीं कर सकता
  - 60% enterprises कई models का उपयोग करते हैं और prompts को उस model की ओर route करते हैं जो सबसे अच्छा performance देता है
  - Multi-model approach एक ही model पर निर्भरता को हटाती है, अधिक control देती है, और लागत कम करती है
- 3. RAG प्रमुख architectural approach है
  - LLM बेहतरीन reasoning engines हैं, लेकिन domain और enterprise-specific knowledge में उनकी सीमाएँ हैं
  - उपयोगी AI experiences बनाने के लिए teams knowledge augmentation techniques को तेज़ी से deploy कर रही हैं, जिसकी शुरुआत retrieval-augmented generation (RAG) से होती है
  - RAG, Pinecone जैसे vector databases के माध्यम से base models को enterprise-specific "memory" देता है
  - यह तकनीक fine-tuning, low-rank adaptation या adapters जैसी अन्य customization techniques से काफी आगे है, जो मुख्य रूप से model layer पर काम करती हैं, data layer पर नहीं
  - यह रुझान आगे भी जारी रहेगा, और उम्मीद है कि runtime architecture में data plane के नए हिस्से शामिल होंगे, जिनमें data preprocessing engines (जैसे Cleanlab) और ETL pipes (जैसे Unstructured) शामिल हैं
- 4. अब हर developer एक AI developer है
  - दुनिया भर में developers की संख्या 3 करोड़ है, जबकि ML engineers केवल 3 लाख और ML researchers केवल 30 हज़ार हैं
  - ML के अग्रिम मोर्चे पर innovation करने वालों में, यह अनुमान है कि GPT-4 या Claude 2 स्तर की systems बनाना जानने वाले researchers दुनिया में केवल लगभग 50 हैं
  - इस वास्तविकता के बीच अच्छी खबर यह है कि जिन कामों के लिए पहले वर्षों की foundational research और उन्नत ML expertise चाहिए होती थी, उन्हें अब शक्तिशाली pre-trained LLMs पर आधारित data systems को engineer करने वाले mainstream developers कुछ दिनों या हफ्तों में पूरा कर सकते हैं
  - Salesforce का Einstein GPT (Sales के लिए AI CoPilot) और Intuit Assist (Generative AI आधारित financial assistant) जैसे products मुख्य रूप से AI engineers से बनी lean teams द्वारा बनाए गए हैं, यानी ऐसे पारंपरिक full-stack engineers जो आधुनिक AI stack के data plane पर काम करते हैं

आगे क्या

आधुनिक AI stack तेज़ी से विकसित हो रहा है, और इस वर्ष भी इसके निरंतर आगे बढ़ने की संभावना है
अगली पीढ़ी के AI applications अधिक उन्नत RAG का परीक्षण कर रहे हैं
- आज RAG सबसे प्रभावशाली है, लेकिन यह approach समस्याओं से मुक्त नहीं है
- कई implementations अब भी token-count आधारित document chunking, अक्षम indexing, और ranking algorithms सहित naive embedding और retrieval techniques का उपयोग करती हैं
- इसमें context fragmentation, hallucination, entity rarity, और inefficient retrieval जैसी समस्याएँ हैं
- इन समस्याओं को हल करने के लिए अगली पीढ़ी के architectures अधिक उन्नत RAG का परीक्षण कर रहे हैं: Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion, rule-based retrieval आदि
छोटे models आधुनिक AI stack में बड़ी भूमिका निभाएँगे
- जैसे-जैसे AI application builders आधुनिक AI stack में और गहराई से जाएंगे, अधिक granular और task-specific models की वृद्धि की उम्मीद है
- वे task-specific models, जिन्हें fine-tune किया गया है, उन क्षेत्रों में फैलेंगे जहाँ बड़े closed-source models संभालने में कठिन या बहुत महंगे हैं
- ML pipelines बनाने और fine-tuning के लिए infrastructure इस चरण में बहुत महत्वपूर्ण होगा, क्योंकि enterprises अपने task-specific models बनाना शुरू करेंगे
- Ollama और ggml द्वारा प्रदान की गई quantization techniques teams को छोटे models से मिलने वाले अधिकतम speed gains का लाभ उठाने में मदद करेंगी
Observability और model evaluation के लिए नए tools उभर रहे हैं
- 2023 के अधिकांश समय में logging और evaluation या तो बिल्कुल नहीं हो रहे थे, या हाथ से किए जा रहे थे, या academic benchmarks के माध्यम से किए जा रहे थे, जो अधिकांश enterprise applications के शुरुआती बिंदु बनते हैं
- Criteo के शोध के अनुसार AI अपनाने वाली लगभग 70% कंपनियाँ मुख्य evaluation technique के रूप में इंसानों द्वारा outputs की समीक्षा कर रही हैं, क्योंकि जोखिम ऊँचा है
- ग्राहक उच्च गुणवत्ता वाले outputs की अपेक्षा करते हैं और उसके हकदार हैं, और कंपनियाँ भली-भांति जानती हैं कि hallucination के कारण वे ग्राहकों का भरोसा खो सकती हैं
- इसलिए observability और evaluation नए tools के लिए एक महत्वपूर्ण अवसर प्रस्तुत करते हैं
- Braintrust, Patronus, Log10, AgentOps जैसे आशाजनक नए approaches पहले ही सामने आ चुके हैं
Architecture serverless दिशा में जाएगा
- अन्य enterprise data systems की तरह, आधुनिक AI stack भी समय के साथ serverless की ओर बढ़ रहा है
- यहाँ "temporary machine" प्रकार के serverless (जैसे lambda functions) और वास्तविक scale-to-zero serverless (जैसे Postgres के लिए Neon architecture) के बीच अंतर किया गया है
- Scale-to-zero serverless में infrastructure को abstract कर देने से developers application execution की operational complexity से मुक्त होते हैं, तेज़ iteration संभव होता है, और enterprises केवल availability के लिए भुगतान करते हैं, compute के लिए नहीं, जिससे संसाधनों का उल्लेखनीय optimization मिलता है
- Serverless paradigm आधुनिक AI stack के हर हिस्से पर लागू होगा
- Pinecone ने vector computing के लिए आधुनिक architecture के रूप में इस approach को अपनाया है
- Neon Postgres के लिए, Momento caching के लिए, और Baseten तथा Modal inference के लिए यही काम कर रहे हैं

6 टिप्पणियां

hyeonseokoh94 2024-01-31

अच्छा और दिलचस्प लेख।

galadbran 2024-01-30

https://hi.news.hada.io/topic?id=6658 Neon - serverless Postgres open source

kaistj 2024-01-30

बदलते माहौल में बहुत से नए अवसर बनें, यही उम्मीद है~
अच्छी दिशा में

dlehals2 2024-01-29

क्या पूरी दुनिया में डेवलपर्स सिर्फ़ 3 करोड़ ही हैं??

xguru 2024-01-29

काफ़ी उद्धृत की जाने वाली Evans Data Corporation की रिपोर्ट के मुताबिक, 2022 तक यह संख्या लगभग 2.63 करोड़ बताई जाती है.
https://www.evansdata.com/press/viewRelease.php?pressID=339

हालाँकि GitHub का उपयोग करने वाले डेवलपर्स की संख्या 10 करोड़ से ज़्यादा हो चुकी है, लेकिन उनमें से सभी को डेवलपर मानना शायद मुश्किल होगा.
https://github.blog/2023-01-25-100-million-developers-and-counting/