- Forge एक ऐसा सिस्टम है जो कंपनियों को अपने आंतरिक ज्ञान-आधारित AI मॉडल बनाने में सक्षम बनाता है, जिससे सार्वजनिक डेटा-केंद्रित मौजूदा मॉडलों की सीमाओं को पूरा किया जा सके
- यह आंतरिक दस्तावेज़, codebase, operational data आदि का उपयोग करके domain-specific model को train करता है, और pre-training, post-training, reinforcement learning तीनों चरणों को support करता है
- मॉडल, डेटा और ज्ञान पर नियंत्रण तथा बौद्धिक संपदा की सुरक्षा बनाए रखी जा सकती है, इसलिए इसे regulated industries में भी इस्तेमाल किया जा सकता है
- custom model के ज़रिए enterprise agents आंतरिक सिस्टम और नीतियों को समझ सकते हैं, तथा tools के उपयोग और decision-making को अधिक सटीकता से कर सकते हैं
- विभिन्न architectures और continuous reinforcement learning के support से enterprise AI की strategic autonomy और दीर्घकालिक सुधार की संभावना बढ़ती है
Forge का अवलोकन
- Forge एक ऐसा सिस्टम है जो कंपनियों को अपने विशिष्ट ज्ञान और डेटा के आधार पर frontier-grade AI model बनाने में सक्षम बनाता है
- जहाँ मौजूदा public data-आधारित मॉडल सामान्य कार्यों के लिए optimized होते हैं, वहीं Forge संगठन के आंतरिक standards, policies, code, decision logs जैसे संगठन-विशिष्ट context को दर्शाता है
- इससे AI को कंपनी के operating environment और workflow के अनुसार काम करने में मदद मिलती है
- Mistral AI पहले से ही ASML, Ericsson, European Space Agency, HTX Singapore आदि के साथ मिलकर इस तकनीक को लागू कर रही है
संस्थागत ज्ञान-आधारित मॉडल प्रशिक्षण
- Forge आंतरिक documents, codebase, structured data, operational records जैसे बड़े पैमाने के in-house data से मॉडल को train करता है
- मॉडल उस environment की terminology, reasoning patterns, constraints को सीखता है
- training के तीन चरण हैं
- pre-training: आंतरिक डेटा से domain-aware model बनाना
- post-training: specific tasks और environment के अनुरूप मॉडल को fine-tune करना
- reinforcement learning: आंतरिक policies और evaluation criteria के अनुरूप मॉडल के behavior को align करना और real-world performance में सुधार करना
- इससे संगठनात्मक बुद्धिमत्ता को दर्शाने वाले मॉडल विकसित किए जा सकते हैं
नियंत्रण और रणनीतिक स्वायत्तता
- Forge को इस तरह डिज़ाइन किया गया है कि कंपनियाँ मॉडल और डेटा पर नियंत्रण बनाए रख सकें
- मॉडल को in-house data से train किया जाता है, और आंतरिक policies, evaluation criteria, operational requirements के अनुसार प्रबंधित किया जा सकता है
- regulated environment में compliance और governance requirements को पूरा किया जा सकता है
- अपने infrastructure के भीतर मॉडल चलाकर strategic autonomy हासिल की जा सकती है
custom model और भरोसेमंद agents
- enterprise agents को केवल response generation नहीं, बल्कि आंतरिक सिस्टम में नेविगेशन, tools का उपयोग, policy-based decision-making भी करना होता है
- domain-trained model पर आधारित agents आंतरिक terminology और procedures को समझते हैं, और systems के बीच संबंधों को पहचानते हैं
- tool selection की सटीकता बढ़ती है, multi-step workflows की स्थिरता मज़बूत होती है, और आंतरिक policies को दर्शाने वाला decision-making संभव होता है
- परिणामस्वरूप operational component के रूप में AI agents को लागू किया जा सकता है
विभिन्न मॉडल architectures का support
- Forge Dense और Mixture-of-Experts(MoE) दोनों architectures को support करता है
- Dense model सामान्य कार्यों में मज़बूत होते हैं, जबकि MoE कम latency और cost efficiency के साथ बड़े पैमाने के मॉडल संचालन को संभव बनाता है
- multimodal input support होने से text, image आदि विभिन्न data formats पर training संभव है
agent-केंद्रित डिज़ाइन
- Forge को मुख्य रूप से code agents के उपयोग के लिए डिज़ाइन किया गया है
- उदाहरण: Mistral Vibe जैसे autonomous agents model fine-tuning, hyperparameter search, task scheduling, synthetic data generation कर सकते हैं
- Forge training के दौरान evaluation metrics monitoring के माध्यम से performance degradation को रोकता है
- infrastructure management और data pipeline recipes को शामिल करते हुए, सिर्फ natural language commands से model customization संभव बनाता है
सतत सुधार और मूल्यांकन
- Forge continuous adaptive learning को support करता है
- reinforcement learning pipeline के माध्यम से आंतरिक feedback से मॉडल के behavior में सुधार किया जाता है
- evaluation framework के जरिए internal benchmarks, regulatory rules, और domain-specific tasks पर testing की जा सकती है
- परिणामस्वरूप static deployment नहीं बल्कि continuous improvement वाला model lifecycle संभव होता है
enterprise उपयोग के उदाहरण
- सरकारी संस्थान: बहुभाषी policy documents और administrative procedures को सीखकर policy analysis और public service support
- वित्तीय संस्थान: regulatory documents और risk procedures को सीखकर internal governance में consistency
- software teams: in-house codebase को सीखकर implementation, debugging, review आदि में development productivity बढ़ाना
- manufacturers: design specifications और maintenance data को सीखकर diagnostics और decision support
- बड़ी कंपनियाँ: internal knowledge systems-आधारित agents के जरिए complex workflows support करना और information retrieval accuracy बढ़ाना
निष्कर्ष: enterprise-केंद्रित AI infrastructure की ओर बदलाव
- जैसे-जैसे AI मॉडल enterprise infrastructure की core layer बनते जा रहे हैं, संगठनात्मक ज्ञान का modelization अधिक महत्वपूर्ण हो रहा है
- Forge कंपनियों को अपने डेटा से train, align और evaluate किए जा सकने वाले मॉडल बनाने का आधार देता है, जिन्हें strategic asset में बदला जा सकता है
- इसके माध्यम से AI को बाहरी tool नहीं, बल्कि संगठनात्मक ज्ञान के साथ विकसित होने वाली core capability में बदला जा सकता है
1 टिप्पणियां
Hacker News की राय
मुझे Mistral पसंद है। लागत और EU के भीतर डेटा स्टोरेज का संतुलन बिल्कुल सही है। गुणवत्ता में गिरावट भी लगभग नहीं है।
लेकिन मॉडल नामकरण प्रणाली बहुत भ्रमित करने वाली है। उदाहरण के लिए Devstral 2 नाम का एक मॉडल है, लेकिन वह न Codestral है न Devestral।
API में
devstral-2512,devstral-latest,devstral-medium-latestजैसे कई नाम हैं।मैंने सोचा
devstral-latestसही होगा, इसलिए सपोर्ट टीम से पूछा, तो 12 घंटे बाद उन्होंने “devstral 2 तो devstral 2 है” कहते हुए AI-जनरेटेड IntelliJ सेटअप गाइड भेज दी।समस्या यह है कि उस गाइड में दिखाया गया स्क्रीन वास्तव में मौजूद ही नहीं है
devstral-2512,devstral-latest,devstral-medium-latest— ये सभी devstral 2 हैं।labs-devstral-small-2512औरdevstral-small-latestdevstral small 2 हैं,devstral-medium-2507devstral 1.0 है, औरdevstral-small-2507devstral small 1.1 हैशायद यह हर एंटरप्राइज़ के लिए कस्टम वर्कफ़्लो देना चाहती है।
या फिर Google की तरह विभागों के बीच संचार की समस्या भी हो सकती है
मॉडल की गुणवत्ता कमज़ोर है, लेकिन यूरोप के भीतर वही शायद सबसे अच्छा विकल्प है।
हाँ, चीन के मॉडल यूरोपीय सर्वरों पर चलाए जा सकते हैं, यह अलग बात है
Mistral को कम करके नहीं आँकना चाहिए। जनरल-purpose service LLM के रूप में यह काफ़ी सस्ता है,
और विशाल मॉडल्स की बजाय कस्टम मॉडलिंग पर फोकस करने की इसकी रणनीति अंततः सफल हो सकती है।
खासकर ज़्यादा रेगुलेटेड EU माहौल में यह ताकत बन सकती है।
दुनिया सिर्फ़ code generation तक सीमित नहीं है
लेकिन यह कम entry barrier वाली रणनीति है, इसलिए इसे आसानी से कॉपी भी किया जा सकता है।
अगर वे ERP, CRM जैसे हर उत्पाद के लिए बहुत से pre-trained models तैयार करें,
और फिर ग्राहक की customization data को शामिल करने वाले follow-up models बेचें,
तो वही असली moat होगा।
चुपचाप contracts जीतना ही असली कुंजी है
तो कस्टम मॉडलिंग उस व्यापक ज्ञान की भरपाई कैसे करेगी, यह सवाल बना रहता है
सिर्फ़ dataset अपलोड कीजिए और सीधे endpoint पर मॉडल इस्तेमाल कीजिए।
सीमाएँ हैं, लेकिन इससे accessibility काफ़ी बढ़ जाती है
यह लोकल पर भी चलता है, इसलिए डेवलपर के पास control बना रहता है
मॉडल की गुणवत्ता LLMs में सबसे निचले स्तर पर है
मैं “pre-training” और “post-training” के मतलब को लेकर उत्सुक था।
वास्तव में इतना पर्याप्त clean dataset होना मुश्किल लगता है,
इसलिए यह समझना कठिन है कि वे जिस pre-training की बात कर रहे हैं, वह सचमुच foundational model training है या सिर्फ़ SFT (supervised fine-tuning)।
हो सकता है वे अपने आंतरिक डेटा के आधार पर synthetic data बनाकर low-resolution knowledge distillation कर रहे हों
लक्ष्य अब भी next-token prediction ही रहता है, इसलिए इसे “continued pre-training” कहा जाता है।
post-training में SFT, DPO, RL जैसी सभी human feedback-आधारित प्रक्रियाएँ आती हैं
जबकि post-training का मतलब RAG की तरह prompt में डेटा जोड़ना है
Forge के विवरण को देखें तो कहा गया है कि कंपनी के आंतरिक दस्तावेज़ों या codebase पर मॉडल को ट्रेन करके
domain knowledge को उसमें समाहित किया जा सकता है।
लेकिन मेरे हिसाब से knowledge acquisition के लिए fine-tuning से ज़्यादा RAG प्रभावी है।
fine-tuning मॉडल के “tone” को बदलने के लिए तो अच्छा है, लेकिन उसमें नया ज्ञान डालना कठिन है
मैं Mistral के इस दृष्टिकोण का समर्थन करता हूँ।
विशाल मॉडल्स की दौड़ में उतरने की बजाय customer-specific engineering और EU बाज़ार पर ध्यान देना समझदारी है
दूसरे मॉडल अक्सर पाठक की समझ के स्तर को लेकर ज़रूरत से ज़्यादा चिंतित रहते हैं,
लेकिन Mistral गहरी और तकनीकी चर्चाओं में भी अच्छी तरह साथ देता है
.aiके बाद अब.euका दौर आएगा।ai.euडोमेन का भी इंतज़ार हैहाल में Mistral वाकई बहुत दिलचस्प प्रयोग कर रहा है।
OpenAI या Anthropic से प्रतिस्पर्धा करना आसान नहीं है,
लेकिन product design की मौलिकता साफ़ दिखाई देती है।
व्यक्तिगत रूप से तो मुझे वहाँ काम करने का मन करता है
Mistral हाल में कई शानदार फ़ीचर्स ला रहा है।
यह frontier model नहीं है, लेकिन छोटी कंपनियों के लिए खुद मॉडल ट्रेन करना आसान नहीं होता,
इसलिए ऐसे टूल्स एक बड़ा अवसर हैं।
खासकर unsloth जैसे टूल्स के साथ training काफ़ी अधिक व्यावहारिक लगती है
मैं सोचता हूँ कि वास्तव में कितने enterprise use cases में fine-tuning की ज़रूरत पड़ती होगी।
क्या सिर्फ़ RAG ही काफ़ी नहीं होगा?
तो log analysis, tool use, और domain knowledge adaptation जैसे कामों में network LLM calls कम किए जा सकते हैं
जबकि fine-tuning मॉडल की reasoning ability को ही बेहतर बनाता है
यह दृष्टिकोण AI revenue structure के बारे में दिलचस्प संकेत देता है।
GPU की संख्या शायद entry barrier नहीं बनेगी।
बल्कि विशेषज्ञतापूर्ण और proprietary data ही असली moat बनेगा।
कंपनियों के आंतरिक डेटा में ऐसा ज्ञान होता है जिसे बदला नहीं जा सकता।
Mistral ठीक उसी पर दाँव लगा रहा है
लेकिन एक अर्थ में हम 3.5 अरब वर्षों के evolution data पर प्रशिक्षित प्राणी भी हैं
AI से पैसा कमाने का यह सबसे समझदार रास्ता है।
MongoDB भी VoyageAI के ज़रिए
enterprise RAG और custom model consulting बाज़ार में प्रवेश कर रहा है