- GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan आदि प्रमुख large language models के parameter (मापदंड) आकार और संरचना पर वस्तुनिष्ठ जानकारी और उनके विकासक्रम का संकलन
- GPT-2 (2019) में 130M~1.6B parameters, GPT-3 (2020) में 175B parameters, और Llama-3.1 (2024) में 405B parameters हैं, जिससे बड़े मॉडलों का आकार तेज़ी से बढ़ता दिखता है
- MoE(Mixture-of-Experts) संरचना के आने से GPT-3-स्तर या उससे बड़े मॉडल open source / download के लिए उपलब्ध होने लगे; प्रतिनिधि उदाहरणों में DeepSeek V3 Base(671B), ERNIE-4.5(424B), Mixtral-8x22B(141B) जैसे कई विशाल मॉडल शामिल हैं
- Dense(सभी parameters का उपयोग) मॉडल और MoE(केवल कुछ expert parameters सक्रिय) मॉडल की तुलना अधिक जटिल हो गई है, और वास्तविक "intelligence" की तुलना आसान नहीं है
- हाल में multimodal·multilingual support, नई architectures, synthetic data के उपयोग जैसे कई विकास रुझान उभरे हैं
- यह दस्तावेज़ पिछले कुछ वर्षों में large language models (LLM) के base model आकार में आए बदलावों से जुड़ी तथ्यात्मक जानकारी को संकलित करता है
- इसका फोकस chatbot·assistant नहीं, बल्कि text generation engine के मूल मॉडल पर है
इतिहास
- GPT-2(-medium, -large, -xl) (2019): क्रमशः 137M, 380M, 812M, 1.61B parameters
- लगभग 40GB के WebText dataset (अनुमानित 1B tokens) पर train किया गया
- उपयोग की गई sites की सूची
domains.txt में देखी जा सकती है
- GPT-3(davinci, davinci-002) (2020): 175B parameters
- CommonCrawl, WebText2, Books1·2, Wikipedia आदि सहित लगभग 400B tokens के data पर train किया गया
- हज़ारों बड़े A100 GPU पर कई महीनों की training की आवश्यकता थी
- GPT-3.5, GPT-4 (2022, 2023): architecture और data से जुड़ी आधिकारिक जानकारी सार्वजनिक नहीं
Llama
- Llama Meta (पूर्व Facebook) द्वारा विकसित large language models की एक series है, जिसे open source बनाने और अपेक्षाकृत कम resources पर उपयोग योग्य संरचना के कारण ध्यान मिला
- model size (parameter count), training data और architecture के विकासक्रम ने LLM open source ट्रेंड को आगे बढ़ाया
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B: 7B, 13B, 33B, 65B parameters उपलब्ध
- training data: 1.4T tokens का विशाल text corpus (Books3, CommonCrawl आदि)
- Llama 65B उस समय open models में सबसे बड़ा था
- Books3 copyright से जुड़ी कानूनी बहसों का एक अहम कारण बना बड़ा dataset है
- विशेषताएँ
- अपेक्षाकृत छोटे GPU setup पर भी चल सकता है (65B भी 8 GPU पर काम करता है)
- open weights वितरण के कारण कई derivative models और community experiments फैले
-
Llama 2 (2023 की दूसरी छमाही)
- जारी करते समय 7B, 13B, 70B parameters उपलब्ध थे
- conversational (chatbot) versions भी जारी हुए, fine-tuning और RLHF सहित समर्थन
- community और commercial use तक की अनुमति देने वाला license (हालाँकि कुछ सीमाओं के साथ)
-
Llama 3.1 (2024)
- 405B: 405B dense (सभी parameters उपयोग करने वाला) model
- training data: 2.87T tokens + 800B long context + 40M annealing (high-quality code/math आदि अतिरिक्त) → कुल 3.67T tokens
- architecture
- Transformer आधारित, inference के दौरान सभी parameters का एक साथ उपयोग करने वाला dense model
- high-quality code·math data जोड़कर प्रमुख benchmarks पर score अधिकतम करने के लिए annealing
- विशेषताएँ
- बड़े dense models में download के लिए उपलब्ध नवीनतम model (open source)
- Meta सार्वजनिक रूप से dataset composition नहीं बताता, और इसमें Books3 जैसे copyright-विवादित data शामिल होने की संभावना है
- कुछ evaluations में "assistant tendency" अधिक होने के कारण, शुद्ध text engine के रूप में इसकी भूमिका में थोड़ा अंतर दिखता है
-
Llama 4 (2025)
- सबसे बड़ा model: 2T parameter वाला MoE(Mixture-of-Experts) model
- A288B 16E: 288B active parameters, 16 experts, कुल 2T parameters में से केवल एक हिस्सा सक्रिय
- स्थिति
- 2T model सार्वजनिक नहीं है (आंतरिक प्रयोग के लिए), केवल derivative / smaller versions बाहरी रूप से जारी हुए (maverick, scout आदि)
- derivative models को मूल model की तुलना में कम "intelligence" वाला माना गया है
- release प्रक्रिया के दौरान benchmark score manipulation विवाद (lmarena मामला) आदि से भरोसा घटा और team breakup की अटकलें उठीं
- MoE संरचना की विशेषताएँ
- केवल कुछ expert parameters सक्रिय करके, dense model की तुलना में समान parameter count पर बेहतर compute efficiency मिलती है
- बहुत बड़े models भी व्यावहारिक उपयोग में लाए जा सकते हैं (distributed environment·कम resources में उपयोग)
-
Llama का महत्व और प्रभाव
- Llama series ने open source ecosystem के विस्तार और large language models के व्यापक प्रसार को आगे बढ़ाया
- Llama-3.1 405B के जारी होने के बाद GPT-3/4-स्तर के बड़े models को download और experiment करना व्यावहारिक हुआ
- MoE संरचना अपनाने से विशाल models की training और distribution सक्रिय हुई (DeepSeek, Mixtral आदि पर भी प्रभाव)
- लेकिन हाल के models में benchmark optimization (annealing), assistant tendency को मज़बूत करने आदि के कारण "pure language model" के रूप में उनकी प्रकृति बदलने पर चर्चा है
The desert – open source बड़े मॉडलों का खाली दौर और बदलाव
- इसका मतलब उस लंबे खाली दौर से है जब GPT-3-स्तर (175B parameter class) या उससे बड़े large language models open source में उपलब्ध नहीं थे
- इस अवधि (2020~2023 के मध्य) में 70B या उससे छोटे llama जैसे मॉडल ही सार्वजनिक थे,
- कुछ projects में छोटे Llama (जैसे 70B) को GPT-3 द्वारा बनाए गए synthetic data से fine-tune करके performance बढ़ाने की कोशिश की गई
- लेकिन जब AI द्वारा बनाए गए text को फिर AI training में इस्तेमाल किया जाता है, तो data quality गिरने (data "degeneration") की समस्या हो सकती है
- GPT-3-स्तर के open-weight models के लंबे समय तक अनुपस्थित रहने के पीछे,
- training cost (हज़ारों से लेकर दसियों हज़ार GPU infrastructure), data acquisition, और बड़े parameter architecture को distribute करने की कठिनाई जैसे कई कारण साथ काम कर रहे थे
- Llama-3.1 405B (405B dense parameters) के सार्वजनिक होने के साथ सचमुच विशाल models का open source दौर शुरू हुआ
- उससे ठीक पहले (दिसंबर 2023) Mistral का Mixtral-8x7B (MoE structure, कुल 56B parameters), और अप्रैल 2024 में Mixtral-8x22B (कुल 141B, active 39B parameters) आदि
- MoE(Mixture-of-Experts) architecture का उपयोग कर GPT-3-स्तर के बड़े models को अपेक्षाकृत कम resources में train और distribute करना संभव बनाया गया
- MoE संरचना कई expert networks रखती है, और एक inference में उनमें से केवल कुछ ही सक्रिय होते हैं
- इससे dense संरचना की तुलना में कम resources (memory·compute) में बड़े models चलाना संभव होता है
- GPU count और memory limits के कारण, बड़े open models के लोकप्रिय होने में MoE ने निर्णायक भूमिका निभाई
नवीनतम MoE(Mixture-of-Experts) बड़े models
Deepseek V3 Base (2024)
- 671B parameters (MoE), 37B active, 14.8T high-quality tokens पर training
- R1 (reasoning-केंद्रित model) भी आया, और download के लिए उपलब्ध models में पहली बार GPT-4-स्तर की performance के क़रीब पहुँचा
- release के तुरंत बाद NVIDIA(NVDA) के stock price में अस्थायी गिरावट आने जैसी बाज़ार पर बड़ी प्रतिक्रिया देखी गई
- इसके बाद चीन सहित उभरते बड़े MoE models तेज़ी से सामने आने लगे
- कुछ models ने multimodal·multilingual support के लिए training में विभिन्न प्रकार के नए data शामिल किए
Databricks (DBRX, मार्च 2024)
- कुल 132B parameters, 36B active, 12T tokens
- 16 experts में से 4 चुने जाते हैं (Mistral·Grok की तुलना में अधिक सूक्ष्म विभाजन)
Minimax (जनवरी 2025)
- कुल 456B parameters, 45.9B active, अपने reward labeler से training data quality control
Dots (जून 2025)
- कुल 143B parameters, 14B active, 11.2T tokens, 32K context
- top-6/128 expert संरचना, Qwen2.5-72B जैसी performance
Hunyuan (जून 2025)
- 80B MoE, 13B active, 20T tokens, 256K context
- 8 non-shared experts सक्रिय, shared experts हमेशा सक्रिय
Ernie (जून 2025)
- कुल 424B parameters, 47B active, कई ट्रिलियन tokens
निष्कर्ष और आगे की दिशा
- 2024~2025 के अनुसार, GPT-3-स्तर (175B) या उससे बड़े अनेक विशाल models सार्वजनिक हो रहे हैं
- 405B नवीनतम dense base model है, लेकिन नवीनतम MoE models भी लगातार बड़े और विविध हो रहे हैं
- Dense vs MoE performance comparison अभी भी अस्पष्ट है; वास्तविक "intelligence" के लिए किस संरचना और आकार की ज़रूरत है, इस पर और चर्चा चाहिए
- नई संरचनाएँ (RWKV, byte-latent, bitnet), synthetic data का उपयोग आदि पर प्रयोग हो रहे हैं, लेकिन pure text engine के रूप में मूलभूत प्रगति अब भी चुनौती बनी हुई है
- हाल के अधिकांश बड़े models को "AI assistant" भूमिका के लिए fine-tune किया जा रहा है; ऐसे में वैकल्पिक LLM खोज की आवश्यकता का समय है
1 टिप्पणियां
Hacker News राय
यह शुद्ध तकनीकी राय से ज़्यादा, इस बात पर अब भी हैरानी होती है कि इन डाउनलोड किए जा सकने वाले मॉडलों के अंदर कितना डेटा संकुचित है। कल एक ऐसी फ्लाइट में, जहाँ वायरलेस इंटरनेट काम नहीं कर रहा था, मैंने Ollama के जरिए gemma3:12b मॉडल (8.1GB) डाउनलोड किया और बच्चों के साथ तरह-तरह के सवाल पूछे। हाल की वीडियो गेम्स, जानवरों, इतिहास वगैरह पर कई सवालों के जवाब यह परफेक्ट तो नहीं दे पाया, लेकिन इतना सारा मानव ज्ञान इतनी छोटी फ़ाइल में समाया है और इसे ऑफलाइन भी इस्तेमाल किया जा सकता है—यह बात सच में कमाल की लगी। यह lossy compression है, लेकिन मानव ज्ञान को इस हद तक छोटा करके समेट पाना चौंकाने वाला है
यह सोचना बहुत दिलचस्प है कि language model कितने शक्तिशाली compression tool हो सकते हैं। अगर किसी मॉडल को assistant उपयोग के लिए train किया जाए, तो वह सामान्य टेक्स्ट की तुलना में assistant बातचीत के रिकॉर्ड को बेहतर compress करता है। UncheatableEval नाम का एक evaluation है, जिसमें language model की compression क्षमता को अलग-अलग कार्यों पर परखा जा सकता है। यह evaluation मापदंड वास्तव में ऐसा test है जिसे 'cheat' नहीं किया जा सकता। मुझे लगता है कि compression performance एक ऐसा असली benchmark है जिसमें गेमिंग या शॉर्टकट की गुंजाइश नहीं होती
ऑफलाइन विभिन्न सामग्री डाउनलोड करके इस्तेमाल करने के लिए Kiwix project की सिफारिश करता हूँ। यह उन जगहों के लिए पहले से सामग्री लोड किए हुए डिवाइस भी देता है जहाँ इंटरनेट कनेक्शन अस्थिर हो या हो ही नहीं
संदर्भ के लिए, English Wikipedia में (26 जून 2025 के अनुसार) 70 लाख से अधिक लेख और 6.3 करोड़ पेज हैं। सिर्फ टेक्स्ट लगभग 156GB है, और सभी versions को जोड़ें तो पूरा database लगभग 26TB तक पहुँचता है
8.1GB सच में बहुत बड़ी मात्रा है। यह 64,800,000,000 bits है; 100 bits, 1,000 bits की कल्पना की जा सकती है, लेकिन 10 हज़ार, 10 लाख, 6.4 करोड़, और उससे 1,000 गुना बड़ा यह अंक वास्तव में कितना विशाल है, यह महसूस होता है
information theory और compression के नज़रिए से language model पर शोध करने वाला क्षेत्र अभी छोटा है, लेकिन efficiency और scalability के लिए यह लगातार ज़्यादा महत्वपूर्ण होता जा रहा है। आज इसी पर एक चर्चा हुई, रुचि हो तो देख सकते हैं
Deepseek v1 में लगभग 670 अरब parameters हैं, और इसका physical size 1.4TB के आसपास है। मेरा अनुमान है कि अब तक digitize की गई सारी किताबों को compress करें तो वह कुछ TB होंगी, public web लगभग 50TB के आसपास होगा, और सभी English electronic texts को zip करें तो वह O(100TB) के आसपास रहेगा। मौजूदा model size अभी कुल का लगभग 1% है, और लगता है कि अब हम ऐसे चरण में आ गए हैं जहाँ सिर्फ size बढ़ाने से performance पहले जैसी उम्मीद के मुताबिक नहीं बढ़ती (gpt4.5 vs 4o देखें)। इसी वजह से हाल में 'reasoning model' के कारण computing cost inference time की ओर शिफ्ट हो रही है। अतिरिक्त उपयोगिता पाने के लिए आगे चलकर संभव है कि विकास specialized model की दिशा में हो, जो खास domains पर केंद्रित हों। मुझे लगता है कि उच्च-गुणवत्ता वाले open source models के लिए 1TB inference VRAM मध्यम अवधि का लक्ष्य हो सकता है। यह SME स्तर पर भी पहुँच के भीतर का spec है (अनुमानित लगभग 250B parameters)
अगर images और videos भी जोड़ दिए जाएँ, तो ऊपर के अनुमान कहीं पुराने "640KB काफी होना चाहिए" जैसे कथन की तरह लग सकते हैं। आगे चलकर अगर robots खुद दुनिया का अन्वेषण करके data इकट्ठा करें, तो और अधिक जानकारी जमा होगी। गंभीरता से कहूँ तो image और interaction data जोड़ने से text generation में भी काफी उपयोगिता मिलेगी
मैंने वास्तविक आँकड़ों के साथ एक बार हिसाब लगाया था। 15.7 करोड़ papers और 5.2 करोड़ books मानकर, औसतन हर paper में 10 हज़ार शब्द और हर book में 1 लाख शब्द माने, और sample book data से compression ratio निकाला। uncompressed आकार लगभग 30TB, compressed होने पर लगभग 5.5TB आता है। इसे 2TB microSD के 3 कार्ड्स (कुल 750 डॉलर) में रखा जा सकता है
एक छोटी-सी आपत्ति है: किसी fixed storage capacity के लिए big O notation (O(100TB)) का इस्तेमाल मुझे उपयुक्त नहीं लगता
क्या 50TB का अनुमान U.S. Library of Congress के हिसाब से है? पूरा इंटरनेट तो इससे कहीं बड़ा होगा
यह जानना चाहूँगा कि 'सारी digitized किताबें कुछ TB में compress हो जाएँगी, public web 50TB है'—ये आँकड़े कहाँ से आए। अगर कोई source है तो देखना चाहूँगा। मैंने कभी पढ़ा था कि सदी के अंत तक के सभी लिखित अभिलेख लगभग 50MB थे, लेकिन source नहीं मिल पा रहा, तो हो सकता है मैं गलत याद कर रहा हूँ
Gemma, Gemini series models (Google) इसमें नहीं हैं। और T5 series ने transfer learning और इस क्षेत्र के प्रसार में महत्वपूर्ण भूमिका निभाई थी, उसका ज़िक्र न होना भी खलता है। T5 को कई concepts की शुरुआत कहा जा सकता है
अगर इसे विज़ुअली देखना चाहें, तो साल-दर-साल कुल parameters का graph यहाँ है Total Parameters vs. Release Year by Family
यह graph बहुत साफ़ दिखाता है कि GPT-3 कितनी बड़ी छलांग थी, और उसके बाद लंबे समय तक कोई भी उस स्तर तक नहीं पहुँच पाया
बहुत शानदार सामग्री है। इसे बनाने के लिए धन्यवाद। मैंने अपनी पोस्ट की comments में chart का screenshot, link और credit जोड़ दिया है
यह सच में बहुत अच्छा लेख है। लेकिन इसमें यह मान लिया गया है कि सिर्फ ऐसे ultra-large language models ही सबसे बड़ा innovation हैं। बड़े खिलाड़ी इतने समय से काफ़ी शांत रहे हैं, और बाहर से देखने पर OpenAI ने अपने व्यवहार से बस हल्का-सा संकेत दिया है। उन्होंने इससे भी बड़े models बनाए, लेकिन परिणाम निराशाजनक रहे, इसलिए प्रयोग चुपचाप बंद कर दिए। वास्तव में संभव है कि सबसे शक्तिशाली frontier reasoning models, सार्वजनिक रूप से ज्ञात विशाल मॉडलों की तुलना में छोटे हों
स्थिति विडंबनापूर्ण है। open source community ने GPT-3 (175B) की बराबरी करने के लिए 30~70B models, RLHF, synthetic data जैसी कई कोशिशें कीं, लेकिन अंतर बना रहा। अंततः यह सामने आया कि model का मूल size वास्तव में बहुत महत्वपूर्ण है, और तभी सार्वजनिक labs के बाहर भी GPT-4 स्तर का reasoning दिखा जब सच में विशाल dense (405B) या MoE models (DeepSeek V3, DBRX आदि) आए
"open-source models को GPT-3 स्तर तक लाने के लिए ज़्यादातर 70B-स्तर के Llama को GPT-3 द्वारा जनरेट किए गए synthetic data पर train किया गया"—इस टिप्पणी से मैं सहमत नहीं हूँ। अगर synthetic data हमेशा performance गिराता, तो AI labs इसे कभी इस्तेमाल ही न करते। वास्तव में synthetic data का उपयोग करके बेहतर models बनाए जा रहे हैं। हाँ, कुछ papers में दिखाया गया है कि बहुत जानबूझकर ऐसे setup में, जहाँ model अपनी ही output पर training loop चलाता है, performance गिर सकती है; लेकिन वह इस बात से अलग है कि AI labs वास्तविक दुनिया में synthetic data का इस्तेमाल कैसे करती हैं। शायद ऐसे papers लोकप्रिय इसलिए हो जाते हैं क्योंकि 'AI अपनी ही पूँछ खाकर नष्ट हो रहा है' जैसी अवधारणा बहुत आकर्षक लगती है
यह देखकर अफ़सोस होता है कि लोग LLM को लगातार lossy compression कहते रहते हैं। मोटे तौर पर यह तुलना ठीक हो सकती है, लेकिन अधिक सटीक और दिलचस्प बात यह है कि LLM lossless compression algorithm की तरह भी काम कर सकता है। इसके दो उदाहरण हैं। 1) किसी भी text को LLM की log-likelihood के क़रीब लागत पर arithmetic coding से encode किया जा सकता है (शर्त: sender और receiver दोनों के पास वही LLM parameters हों) 2) LLM और SGD (training code) का उपयोग करके lossless compression लागू किया जा सकता है (जहाँ model parameters को description length में नहीं गिना जाता)। Jack Rae की “compression for AGI” सामग्री देखी जा सकती है
"1.61B" जैसे numbers से यह समझना मुश्किल है कि फ़ाइल वास्तव में कितनी बड़ी होगी या कितनी VRAM चाहिए होगी। मैं जानना चाहता हूँ कि वास्तविक storage और hardware requirements क्या हैं, अभी खरीदूँ तो कहाँ तक model चला सकता हूँ, और 10 साल बाद कौन-से models चला पाऊँगा
प्रति parameter 1 byte (f8) मानें तो 1.6GB, 2 bytes (f16) मानें तो 2.3GB होगा। GPU पर load करने के अलावा अतिरिक्त memory overhead भी होता है, इसलिए मोटे तौर पर parameter count का 4 गुना मानना अच्छा है। यानी 2B parameters के लिए 8GB VRAM की सिफारिश
ज़्यादातर models को 16-bit (2-byte) में train किया जाता है। 1 अरब parameters वाला model 2GB होता है। वास्तविक उपयोग में छोटा 8-bit quantization भी काफ़ी होता है, और आम तौर पर 16-bit से 8-bit पर आने पर performance loss बहुत कम होता है। इसलिए सीधी गणना में 1B model = 1GB, 20B model = 20GB माना जा सकता है। इससे भी कम bits (5-bit, 4-bit आदि) पर, अगर performance drop ज़्यादा न हो, तो उपयोग के हिसाब से व्यावहारिक रूप से इस्तेमाल किया जा सकता है। यहाँ तक कि ऐसे उदाहरण भी हैं जहाँ 4-bit में सीधे train किया गया model, 16-bit से quantize किए गए model से बेहतर quality दिखाता है। बड़े models में bottleneck VRAM capacity नहीं बल्कि bandwidth होती है। इसलिए ज़्यादा VRAM वाला GPU महत्वपूर्ण है। भले ही 128GB system RAM हो, अगर GPU-CPU bandwidth कम है और model GPU memory से बाहर चला जाता है, तो CPU पर चलाना और धीमा हो सकता है। GPU (जैसे RTX 5090) में 32GB VRAM और लगभग 1Tb/s bandwidth है। Apple M series 512Gb/s देती है, AMD Strix Halo 128GB unified memory और 256Gb/s bandwidth देता है। consumer hardware पर LLM चलाने के वास्तविक अनुभवों के लिए Reddit r/LocalLLaMA देख सकते हैं। बस ध्यान रहे, वहाँ कुछ काफ़ी असामान्य प्रयोग भी मिलेंगे। 10 साल बाद की स्थिति का अनुमान लगाना मुश्किल है। TSMC, Samsung, Intel—सभी hyperscaler मांग के अनुसार flagship GPUs के बड़े पैमाने पर उत्पादन पर केंद्रित हैं, और semiconductor उद्योग भी राजनीति, व्यापार, AI, black swan जैसी कई अनिश्चितताओं से घिरा है