जनरेटिव मॉडलों की वर्तमान स्थिति

xguru · 2025-01-06T10:21:01+09:00

2024 के पूरे वर्ष में टेक्स्ट और इमेज जनरेशन, दोनों क्षेत्रों में बड़ा विकास हुआ। शुरुआती दौर में जहाँ OpenAI का दबदबा था, वहीं पिछले साल के अंत तक Anthropic, DeepSeek, Qwen जैसे विभिन्न रिसर्च लैब प्रतिस्पर्धात्मक रूप से अपना विस्तार कर रहे थे। 2024~2025 के रिसर्च ट्रेंड्स को समेटते हुए, आगे जिन क्षेत्रों से उम्मीद है उनका संक्षिप्त सार। “सिर्फ closed source से बनाई गई moat लंबे समय तक नहीं टिकती। OpenAI भी दूसरों की पीछा-करने की रफ्तार को रोक नहीं पाएगा। आखिरकार अपनी organization और culture को बढ़ाकर ऐसे लोगों को तैयार करना, जो innovation कर सकें, वही असली moat है।” ─ Liang Wenfeng, CEO of DeepSeek # Language बड़े भाषा मॉडल(LLM) मौजूदा AI उछाल का केंद्र हैं, और इन्हीं पर सबसे अधिक रिसर्च और निवेश हो रहा है। 2024 में मॉडल परफॉर्मेंस और नए scaling paradigm, दोनों में बड़ी प्रगति हुई। Architecture नए architecture (Mamba, xLSTM आदि) आज़माए गए, लेकिन कम-से-कम फिलहाल decoder-only Transformer के मुख्यधारा में बने रहने की संभावना है। Dense Transformer Llama 3 इसका प्रतिनिधि उदाहरण है, और Meta vanilla Dense Transformer को चरम स्तर तक optimize कर रही है। Noam Transformer कहलाने वाला रूप (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE आदि) व्यावहारिक रूप से standard बन चुका है। DeepSeek द्वारा पेश किया गया Multi Latent Attention(MLA) जैसी विधियों पर और अधिक ध्यान जाएगा, और RoPE को बदलने या संशोधित करने वाली तकनीकें भी सामने आ सकती हैं। Mixture-of-Experts GPT-4 के एक विशाल MoE होने की चर्चा फैलने के साथ, 2024 में यह फिर उभरकर सामने आया। open source क्षेत्र में Mistral का Mixtral, DeepSeek v2·v3 आदि इसके प्रमुख उदाहरण हैं। MoE की कमी यह है कि इसकी serving आसान नहीं है, लेकिन DeepSeek इस पर सक्रिय रूप से रिसर्च कर रहा है। आगे routing mechanism, हर layer पर MoE लागू करने के तरीके, expert interpretability आदि को लेकर कई दिशाओं में रिसर्च की उम्मीद है। Tokenization कई लोगों का मानना है कि Byte Pair Encoding की जगह किसी बड़े innovation की जरूरत है, लेकिन अभी कोई बड़ी समस्या न होने से इसका उपयोग जारी है। Meta ने दो प्रयास सुझाए, जिनसे रुचि बढ़ी: CoT को latent space में प्रोसेस करना (byte-based), या Transformer को bytes इकाई पर train करना। Byte Latent Transformer(BLT) में byte input प्रोसेसिंग के लिए Encoder/Decoder संरचना का उपयोग किया जाता है। यह चिंता भी है कि कहीं byte decoder की quality bottleneck न बन जाए। Reasoning 2024 की दूसरी छमाही में मॉडल की गणित, विज्ञान और coding reasoning क्षमता में तेज़ सुधार हुआ (o1, o3, DeepSeek r1 आदि)। यह “inference-time compute” नामक नए scaling paradigm से जुड़ा है। इसमें मॉडल बहुत लंबा Chain of Thought बनाता है, और उसी प्रक्रिया को स्वयं verify और उपयोग करता है। OpenAI के o1, o3 कैसे बनाए गए यह सार्वजनिक नहीं है, लेकिन “Let’s Verify Step by Step” पेपर जैसी RL approaches का उपयोग हुआ हो, इसकी संभावना अधिक है। आगे Anthropic या अन्य लैब्स से भी इसी तरह के reasoner आने की उम्मीद है। यह भी रुचि का विषय है कि क्या यह STEM-केंद्रित दृष्टि से आगे बढ़कर creative writing जैसे व्यापक domains में भी लागू होगा। Distillation o1 के लॉन्च के समय OpenAI ने Chain of Thought सार्वजनिक नहीं किया; इसके पीछे यह अनुमान है कि मॉडल आउटपुट से दोबारा training करने के मामले (जैसे DeepSeek v3) परफॉर्मेंस सुधार में बहुत मददगार हैं। DeepSeek v3 में reasoner-विशिष्ट लंबा CoT ठीक-ठीक पुनर्निर्मित नहीं होता, लेकिन ऐसा लगता है कि अंदरूनी तौर पर यह modes अलग करता है और जरूरत पड़ने पर reasoning करता है। छोटे मॉडल (o1-mini आदि) क्या बड़े मॉडलों के परफॉर्मेंस के करीब पहुँचते हैं, या भीतर कोई गुप्त distillation technique है, यह भी रोचक रिसर्च विषय है। # Image इमेज क्षेत्र में कई छोटे और मध्यम रिसर्च लैब्स उतर चुके हैं, इसलिए innovation तेज़ी से आगे बढ़ रहा है। मौजूदा प्रमुख मॉडल (Flux, Stable Diffusion 3, MidJourney, Sora आदि) Diffusion Transformer आधारित हैं, और Flow Matching framework मुख्यधारा में है। Architecture Diffusion Transformer में adaptive normalization, MM-DIT संरचना आदि के संयोजन वाला रूप आम तौर पर उपयोग में है। 2025 में CLIP की जगह अधिक compact LLM को text encoder के रूप में इस्तेमाल करने की कोशिशें बढ़ने की संभावना है। Framework पारंपरिक probabilistic approach के बजाय Flow Matching पद्धति को प्राथमिकता देने का रुझान बन चुका है। AutoRegressive मॉडल फिर से उभर सकते हैं, और Visual Autoregressive Modelling पेपर ने काफी ध्यान आकर्षित किया है। xAI द्वारा सार्वजनिक की गई इमेज जनरेशन तकनीक भी autoregressive मानी जा रही है, लेकिन इसके ठोस कारण ज्ञात नहीं हैं। # Multimodality OpenAI, Anthropic आदि पहले से ही मॉडल में इमेज input देने की सुविधा देते रहे हैं, लेकिन 2024 की पहली छमाही में अधिक खुले रूप की multimodal रिसर्च तेज़ हुई। Visual Language Models Qwen, PaliGemma जैसे कई VLM सामने आए और इमेज captioning तथा document parsing में उपयोग हुए। Vision Transformer और pre-trained LLM को जोड़ने वाली संरचना standard बन गई है। 2025 में ऐसे VLM के Omni-Models में एकीकृत होने की संभावना है। Omni-Modal Models OpenAI ने GPT-4o के साथ इमेज तक generate करने का उदाहरण दिखाया, लेकिन इसे पूरी तरह सार्वजनिक नहीं किया गया। Chameleon आदि में image tokenizer + detokenizer का उपयोग करने वाले शुरुआती fusion मॉडल आज़माए गए। non-text output को भी discrete token के रूप में संभालने के तरीके पर पक्ष-विपक्ष की बहस है। यह अफवाह है कि Llama 4 को शुरू से ही omni-modal रूप में train किया जा रहा है, इसलिए काफी उम्मीदें हैं। # Agents and Human-AI Interfaces “AI Agent” की परिभाषा अस्पष्ट है, लेकिन यहाँ फिलहाल उस तरीके को agent कहा गया है जिसमें LLM को tools उपयोग करने की अनुमति देकर लक्ष्य स्वयं हासिल करने दिया जाता है। SWE-Bench के मानक से देखें तो 2025 के अंत तक code debugging और feature implementation एक निश्चित स्तर तक automated हो सकते हैं। लेकिन यह अभी engineers के replacement स्तर तक नहीं पहुँचेगा; पहले adoption उन क्षेत्रों में होगा जहाँ error tolerance अधिक है, जैसे travel itinerary या information search। Cursor जैसे editor-प्रकार UI agent उपयोग के लिए अधिक उपयुक्त हो सकते हैं। agent calls की token लागत अधिक होती है, इसलिए पूरी तरह autonomous agents लागत की तुलना में कितने प्रभावी होंगे, यह अभी स्पष्ट नहीं है। # 2025 AI की प्रगति बहुत तेज़ है, यह बात अब परिचित लगती है, लेकिन वास्तविकता में बदलाव इतने बड़े हैं कि उसकी रफ्तार का अंदाज़ा लगाना भी मुश्किल है। इस लेख में टेक्स्ट और इमेज केंद्रित मौजूदा स्थिति तथा 2025 की अपेक्षित दिशाओं को संक्षेप में लिया गया है। जिन क्षेत्रों को कवर नहीं किया गया लेकिन जो उल्लेखनीय हैं, उनमें शामिल हैं: training optimization (Muon, NanoGPT speedruns) video models (consistency और reasoning speed की समस्याओं का समाधान) quantization (1-bit quantization, FP8 से कम precision आदि) model interpretability रिसर्च evaluation और benchmark (उम्मीद है कि SWE-Bench जैसे वास्तविक कार्य-आधारित मूल्यांकन बढ़ेंगे) उम्मीद है कि 2025 में और अधिक प्रगति होगी।

(nrehiew.github.io)

20 पॉइंट द्वारा xguru 2025-01-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

2024 के पूरे वर्ष में टेक्स्ट और इमेज जनरेशन, दोनों क्षेत्रों में बड़ा विकास हुआ।
शुरुआती दौर में जहाँ OpenAI का दबदबा था, वहीं पिछले साल के अंत तक Anthropic, DeepSeek, Qwen जैसे विभिन्न रिसर्च लैब प्रतिस्पर्धात्मक रूप से अपना विस्तार कर रहे थे।
2024~2025 के रिसर्च ट्रेंड्स को समेटते हुए, आगे जिन क्षेत्रों से उम्मीद है उनका संक्षिप्त सार।

“सिर्फ closed source से बनाई गई moat लंबे समय तक नहीं टिकती।
OpenAI भी दूसरों की पीछा-करने की रफ्तार को रोक नहीं पाएगा।
आखिरकार अपनी organization और culture को बढ़ाकर ऐसे लोगों को तैयार करना, जो innovation कर सकें, वही असली moat है।”
─ Liang Wenfeng, CEO of DeepSeek

# Language

बड़े भाषा मॉडल(LLM) मौजूदा AI उछाल का केंद्र हैं, और इन्हीं पर सबसे अधिक रिसर्च और निवेश हो रहा है।
2024 में मॉडल परफॉर्मेंस और नए scaling paradigm, दोनों में बड़ी प्रगति हुई।
Architecture
- नए architecture (Mamba, xLSTM आदि) आज़माए गए, लेकिन कम-से-कम फिलहाल decoder-only Transformer के मुख्यधारा में बने रहने की संभावना है।
- Dense Transformer
  - Llama 3 इसका प्रतिनिधि उदाहरण है, और Meta vanilla Dense Transformer को चरम स्तर तक optimize कर रही है।
  - Noam Transformer कहलाने वाला रूप (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE आदि) व्यावहारिक रूप से standard बन चुका है।
  - DeepSeek द्वारा पेश किया गया Multi Latent Attention(MLA) जैसी विधियों पर और अधिक ध्यान जाएगा, और RoPE को बदलने या संशोधित करने वाली तकनीकें भी सामने आ सकती हैं।
- Mixture-of-Experts
  - GPT-4 के एक विशाल MoE होने की चर्चा फैलने के साथ, 2024 में यह फिर उभरकर सामने आया।
  - open source क्षेत्र में Mistral का Mixtral, DeepSeek v2·v3 आदि इसके प्रमुख उदाहरण हैं।
  - MoE की कमी यह है कि इसकी serving आसान नहीं है, लेकिन DeepSeek इस पर सक्रिय रूप से रिसर्च कर रहा है।
  - आगे routing mechanism, हर layer पर MoE लागू करने के तरीके, expert interpretability आदि को लेकर कई दिशाओं में रिसर्च की उम्मीद है।
Tokenization
- कई लोगों का मानना है कि Byte Pair Encoding की जगह किसी बड़े innovation की जरूरत है, लेकिन अभी कोई बड़ी समस्या न होने से इसका उपयोग जारी है।
- Meta ने दो प्रयास सुझाए, जिनसे रुचि बढ़ी: CoT को latent space में प्रोसेस करना (byte-based), या Transformer को bytes इकाई पर train करना।
- Byte Latent Transformer(BLT) में byte input प्रोसेसिंग के लिए Encoder/Decoder संरचना का उपयोग किया जाता है।
- यह चिंता भी है कि कहीं byte decoder की quality bottleneck न बन जाए।
Reasoning
- 2024 की दूसरी छमाही में मॉडल की गणित, विज्ञान और coding reasoning क्षमता में तेज़ सुधार हुआ (o1, o3, DeepSeek r1 आदि)।
- यह “inference-time compute” नामक नए scaling paradigm से जुड़ा है।
  - इसमें मॉडल बहुत लंबा Chain of Thought बनाता है, और उसी प्रक्रिया को स्वयं verify और उपयोग करता है।
- OpenAI के o1, o3 कैसे बनाए गए यह सार्वजनिक नहीं है, लेकिन “Let’s Verify Step by Step” पेपर जैसी RL approaches का उपयोग हुआ हो, इसकी संभावना अधिक है।
- आगे Anthropic या अन्य लैब्स से भी इसी तरह के reasoner आने की उम्मीद है।
- यह भी रुचि का विषय है कि क्या यह STEM-केंद्रित दृष्टि से आगे बढ़कर creative writing जैसे व्यापक domains में भी लागू होगा।
Distillation
- o1 के लॉन्च के समय OpenAI ने Chain of Thought सार्वजनिक नहीं किया; इसके पीछे यह अनुमान है कि मॉडल आउटपुट से दोबारा training करने के मामले (जैसे DeepSeek v3) परफॉर्मेंस सुधार में बहुत मददगार हैं।
- DeepSeek v3 में reasoner-विशिष्ट लंबा CoT ठीक-ठीक पुनर्निर्मित नहीं होता, लेकिन ऐसा लगता है कि अंदरूनी तौर पर यह modes अलग करता है और जरूरत पड़ने पर reasoning करता है।
- छोटे मॉडल (o1-mini आदि) क्या बड़े मॉडलों के परफॉर्मेंस के करीब पहुँचते हैं, या भीतर कोई गुप्त distillation technique है, यह भी रोचक रिसर्च विषय है।

# Image

इमेज क्षेत्र में कई छोटे और मध्यम रिसर्च लैब्स उतर चुके हैं, इसलिए innovation तेज़ी से आगे बढ़ रहा है।
मौजूदा प्रमुख मॉडल (Flux, Stable Diffusion 3, MidJourney, Sora आदि) Diffusion Transformer आधारित हैं, और Flow Matching framework मुख्यधारा में है।
Architecture
- Diffusion Transformer में adaptive normalization, MM-DIT संरचना आदि के संयोजन वाला रूप आम तौर पर उपयोग में है।
- 2025 में CLIP की जगह अधिक compact LLM को text encoder के रूप में इस्तेमाल करने की कोशिशें बढ़ने की संभावना है।
Framework
- पारंपरिक probabilistic approach के बजाय Flow Matching पद्धति को प्राथमिकता देने का रुझान बन चुका है।
- AutoRegressive मॉडल फिर से उभर सकते हैं, और Visual Autoregressive Modelling पेपर ने काफी ध्यान आकर्षित किया है।
- xAI द्वारा सार्वजनिक की गई इमेज जनरेशन तकनीक भी autoregressive मानी जा रही है, लेकिन इसके ठोस कारण ज्ञात नहीं हैं।

# Multimodality

OpenAI, Anthropic आदि पहले से ही मॉडल में इमेज input देने की सुविधा देते रहे हैं, लेकिन 2024 की पहली छमाही में अधिक खुले रूप की multimodal रिसर्च तेज़ हुई।
Visual Language Models
- Qwen, PaliGemma जैसे कई VLM सामने आए और इमेज captioning तथा document parsing में उपयोग हुए।
- Vision Transformer और pre-trained LLM को जोड़ने वाली संरचना standard बन गई है।
- 2025 में ऐसे VLM के Omni-Models में एकीकृत होने की संभावना है।
Omni-Modal Models
- OpenAI ने GPT-4o के साथ इमेज तक generate करने का उदाहरण दिखाया, लेकिन इसे पूरी तरह सार्वजनिक नहीं किया गया।
- Chameleon आदि में image tokenizer + detokenizer का उपयोग करने वाले शुरुआती fusion मॉडल आज़माए गए।
- non-text output को भी discrete token के रूप में संभालने के तरीके पर पक्ष-विपक्ष की बहस है।
- यह अफवाह है कि Llama 4 को शुरू से ही omni-modal रूप में train किया जा रहा है, इसलिए काफी उम्मीदें हैं।

# Agents and Human-AI Interfaces

“AI Agent” की परिभाषा अस्पष्ट है, लेकिन यहाँ फिलहाल उस तरीके को agent कहा गया है जिसमें LLM को tools उपयोग करने की अनुमति देकर लक्ष्य स्वयं हासिल करने दिया जाता है।
SWE-Bench के मानक से देखें तो 2025 के अंत तक code debugging और feature implementation एक निश्चित स्तर तक automated हो सकते हैं।
लेकिन यह अभी engineers के replacement स्तर तक नहीं पहुँचेगा; पहले adoption उन क्षेत्रों में होगा जहाँ error tolerance अधिक है, जैसे travel itinerary या information search।
Cursor जैसे editor-प्रकार UI agent उपयोग के लिए अधिक उपयुक्त हो सकते हैं।
agent calls की token लागत अधिक होती है, इसलिए पूरी तरह autonomous agents लागत की तुलना में कितने प्रभावी होंगे, यह अभी स्पष्ट नहीं है।

# 2025

AI की प्रगति बहुत तेज़ है, यह बात अब परिचित लगती है, लेकिन वास्तविकता में बदलाव इतने बड़े हैं कि उसकी रफ्तार का अंदाज़ा लगाना भी मुश्किल है।
इस लेख में टेक्स्ट और इमेज केंद्रित मौजूदा स्थिति तथा 2025 की अपेक्षित दिशाओं को संक्षेप में लिया गया है। जिन क्षेत्रों को कवर नहीं किया गया लेकिन जो उल्लेखनीय हैं, उनमें शामिल हैं:
- training optimization (Muon, NanoGPT speedruns)
- video models (consistency और reasoning speed की समस्याओं का समाधान)
- quantization (1-bit quantization, FP8 से कम precision आदि)
- model interpretability रिसर्च
- evaluation और benchmark (उम्मीद है कि SWE-Bench जैसे वास्तविक कार्य-आधारित मूल्यांकन बढ़ेंगे)
उम्मीद है कि 2025 में और अधिक प्रगति होगी।

2 टिप्पणियां

lonzino 2025-01-06

धन्यवाद

zkdlfrlwl2 2025-01-06

साफ़-सुथरी प्रस्तुति के लिए धन्यवाद