2025 AI इंजीनियर रीडिंग लिस्ट
(latent.space)- AI इंजीनियरों के लिए 50 पेपर, मॉडल और ब्लॉग को 10 क्षेत्रों में बाँटकर चुना गया
- इसमें LLMs, बेंचमार्क, prompting, RAG, एजेंट, code generation, vision, speech, diffusion और fine-tuning क्षेत्र शामिल हैं
सेक्शन 1: फ्रंटियर LLMs
- OpenAI मॉडल
- GPT1 (पेपर), GPT2 (पेपर), GPT3 (पेपर), Codex (पेपर), InstructGPT (पेपर), GPT4 (पेपर)
- GPT3.5 (ChatGPT परिचय), 4o (GPT-4o परिचय), o1 (o1 प्रीव्यू), o3 (सिस्टम कार्ड)
- Anthropic और Google मॉडल
- Claude 3 (पेपर), Gemini 1 (पेपर)
- Claude 3.5 Sonnet (विवरण), Gemini 2.0 Flash (आधिकारिक ब्लॉग), Flash Thinking (Gemini API दस्तावेज़), Gemma 2 (पेपर)
- Meta से जुड़े LLaMA परिवार
- DeepSeek मॉडल
- Apple Intelligence
- Apple Intelligence (पेपर) - हर Mac और iPhone में शामिल मॉडल
- ध्यान देने योग्य अतिरिक्त मॉडल और रिसर्च
- LLM मॉडल
- AI2 परिवार: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- अन्य: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws रिसर्च
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- अत्याधुनिक मॉडल:
- Reasoning मॉडल रिसर्च:
- LLM मॉडल
सेक्शन 2: बेंचमार्क और मूल्यांकन
- MMLU
- MuSR (पेपर): लंबे context के भीतर मूल्यांकन
- MATH (पेपर): गणित प्रतियोगिता समस्याओं का संग्रह
- state-of-the-art शोध FrontierMath (पेपर) और उच्च-कठिनाई वाली समस्याओं पर फोकस करता है
- उपसमुच्चय: MATH Level 5, AIME, AMC10/AMC12
- IFEval (पेपर): प्रमुख instruction-following evaluation बेंचमार्क
- ARC AGI (आधिकारिक पेज): अमूर्त तर्क और "IQ टेस्ट" बेंचमार्क
- तेज़ी से saturated हो जाने वाले अन्य बेंचमार्क की तुलना में यह लंबे समय तक उपयोगी बना रहता है
- अतिरिक्त संदर्भ सामग्री
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: बेंचमार्क पर गहन विश्लेषण
- LLM संबंधित सामग्री: LLM-as-Judge, Applied LLMs
- डेटासेट संसाधन: Datasets
सेक्शन 3: प्रॉम्प्टिंग, ICL और Chain-of-Thought
- GPT-3 और In-Context Learning (ICL)
- GPT-3 पेपर(पेपर): In-Context Learning (ICL) की अवधारणा का परिचय
- ICL का प्रॉम्प्टिंग से गहरा संबंध है, जिसके जरिए LLM context के भीतर सीख और लागू कर सकता है
- Prompt Injection: प्रॉम्प्ट में हेरफेर और सुरक्षा समस्याएँ (Lilian Weng की समीक्षा, Simon Willison की सीरीज़)
- The Prompt Report: प्रॉम्प्टिंग से संबंधित शोधपत्रों का सर्वे
- अवलोकन: प्रॉम्प्टिंग तकनीकों की समग्र प्रगति और नवीनतम ट्रेंड्स का सारांश (संबंधित पॉडकास्ट)
- Chain-of-Thought (CoT):
- Tree of Thought:
- Lookahead और Backtracking की अवधारणाओं का परिचय
- जटिल समस्या-समाधान के लिए प्रभावी तरीका (संबंधित पॉडकास्ट)
- Prompt Tuning:
- Automatic Prompt Engineering:
- वह तरीका जिसमें LLM खुद प्रॉम्प्ट जनरेट और optimize करता है
- DSPy framework (पेपर) में लागू
- केवल शोधपत्र ही नहीं, बल्कि व्यावहारिक गाइड भी उपयोगी हैं:
- Lilian Weng का Prompt Engineering ब्लॉग
- Eugene Yan की Prompting गाइड
- Anthropic के tutorial और workshop:
सेक्शन 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: information retrieval की बुनियाद पर आधारित एक क्लासिक संदर्भ पुस्तक
- RAG एक information retrieval (IR) समस्या है, इसलिए यह 60+ वर्षों के इतिहास वाले इस क्षेत्र से गहराई से जुड़ा है
- प्रमुख तकनीकें:
- TF-IDF, BM25: टेक्स्ट-आधारित सर्च
- FAISS, HNSW: vector search और nearest-neighbor search
- Meta RAG (2020 का पेपर) : RAG शब्द का पहला उल्लेख
- HyDE (दस्तावेज़)
- Chunking (शोध)
- Rerankers (Cohere ब्लॉग)
- multimodal data processing (YouTube)
- MTEB: embedding evaluation benchmark
- विवाद और सीमाएँ (संबंधित चर्चा)
- embedding models के उदाहरण:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (HuggingFace ब्लॉग)
- GraphRAG: Microsoft का RAG और knowledge graph integration
- GraphRAG:
- knowledge graph को RAG workflow में integrate करके private data से बेहतर परिणाम देना
- open source किया गया (Microsoft ब्लॉग)
- संबंधित शोध:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: OpenAI द्वारा सुझाया गया सरल RAG evaluation तरीका
- Nvidia FACTS Framework (पेपर)
- Extrinsic Hallucinations in LLMs (Lilian Weng का सर्वे)
- Jason Wei का Recall vs Precision (ट्वीट)
- सीखने की सामग्री और RAG का प्रैक्टिकल काम
- LlamaIndex (दस्तावेज़, कोर्स)
- LangChain (दस्तावेज़, ट्यूटोरियल वीडियो)
- RAG vs Long Context Debate:
- पेपर: RAG और long-context approach की तुलना
सेक्शन 5: एजेंट
- SWE-Bench:
- एजेंट evaluation के लिए एक प्रमुख benchmark (कोडिंग-केंद्रित)
- Anthropic, Devin, OpenAI आदि द्वारा अपनाया गया, इसलिए इस पर काफी ध्यान गया
- संबंधित सामग्री:
- तुलना: WebArena (GitHub), SWE-Gym (संबंधित ट्वीट)
- ReAct:
- tool use और function calling LLM रिसर्च का शुरुआती बिंदु
- संबंधित रिसर्च:
- Gorilla (leaderboard)
- Toolformer (पेपर)
- HuggingGPT (पेपर)
- MemGPT:
- long-term memory emulation अप्रोच
- प्रमुख उपयोग:
- संबंधित सिस्टम:
- Voyager:
- Nvidia का cognitive architecture अप्रोच:
- curriculum, skill library, sandbox का उपयोग करके performance सुधार
- कॉन्सेप्ट विस्तार:
- Agent Workflow Memory (पेपर)
- Nvidia का cognitive architecture अप्रोच:
- Anthropic की Building Effective Agents:
- 2024 के agent design की मुख्य बातों का सार
- प्रमुख विषय:
- chaining, routing, parallelization, orchestration, evaluation, optimization
- संबंधित सामग्री:
- Lilian Weng की agent research
- Shunyu Yao की LLM agent research
- Chip Huyen का 2025 agent overview
- अतिरिक्त learning materials और lectures
- 2024 का latest agent design: NeurIPS सार
- UC Berkeley MOOC: LLM Agents lecture
- agent definition पर चर्चा: ज़रूरत पड़ने पर यह परिभाषा देखें
सेक्शन 6: कोड जनरेशन(CodeGen)
- The Stack paper
- The Pile के code-centric open dataset pair के रूप में शुरुआत
- बाद का काम:
- The Stack v2: बेहतर dataset
- StarCoder: optimized code generation model
- open code model papers
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- बहुत से लोग Claude 3.5 Sonnet को सर्वश्रेष्ठ code model मानते हैं, लेकिन इसका कोई आधिकारिक पेपर नहीं है
- HumanEval/Codex
- कोडिंग डोमेन का एक ज़रूरी benchmark (अब यह saturation की स्थिति में है)
- आधुनिक alternative benchmarks:
- SWE-Bench
- agent-केंद्रित evaluation के लिए प्रसिद्ध है, लेकिन यह महंगा है और मॉडल की तुलना में एजेंट evaluation पर अधिक केंद्रित है
- AlphaCodeium
- Google के AlphaCode और AlphaCode2 performance पर आधारित
- Flow Engineering का उपयोग करके मौजूदा मॉडलों की performance में बड़ा सुधार
- CriticGPT
- code generation के दौरान उत्पन्न होने वाली security समस्याओं की पहचान पर फोकस
- OpenAI का CriticGPT security issues की पहचान करने के लिए प्रशिक्षित है
- Anthropic SAEs (Safety-relevant Activation Ensembles) का उपयोग करके समस्या पैदा करने वाले LLM features का विश्लेषण करता है (रिसर्च)
- code generation के दौरान उत्पन्न होने वाली security समस्याओं की पहचान पर फोकस
- इंडस्ट्री में code generation का फोकस रिसर्च से practical use की ओर शिफ्ट हो रहा है:
सेक्शन 7: विज़न
- Non-LLM आधारित विज़न रिसर्च
- YOLO:
- संदर्भ: YOLO के विभिन्न versions और उसके evolution lineage पर ध्यान दें (संबंधित चर्चा)
- CLIP:
- ViT-आधारित multimodal मॉडल की सफलता का एक उदाहरण
- नवीनतम मॉडल:
- CLIP अब भी महत्वपूर्ण background knowledge है
- MMVP benchmark:
- CLIP की सीमाओं का मूल्यांकन करता है
- multimodal version: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- image और video segmentation का प्रतिनिधि मॉडल
- follow-up रिसर्च: SAM 2 (संबंधित पॉडकास्ट)
- पूरक मॉडल: GroundingDINO
- Early Fusion vs Late Fusion:
- अप्रकाशित नवीनतम कार्य:
- GPT4V System Card और उससे निकला रिसर्च (पेपर)
- OpenAI 4o:
- नवीनतम मॉडल:
सेक्शन 8: आवाज़
- Whisper:
- OpenAI का सफल ASR मॉडल
- प्रमुख versions:
- Whisper v2 (संबंधित चर्चा)
- Whisper v3 (संबंधित चर्चा)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (विश्लेषण)
- Whisper कई open weight मॉडल प्रदान करता है, लेकिन कुछ versions के लिए paper उपलब्ध नहीं है
- AudioPaLM:
- Google का AudioPaLM, PaLM से Gemini में संक्रमण से पहले का रिसर्च है
- संदर्भ: Meta की Llama 3 speech exploration (पेपर)
- NaturalSpeech:
- प्रमुख TTS रिसर्च में से एक
- हाल ही में v3 (पेपर) तक अपडेट किया गया
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- OpenAI के real-time speech API के लिए अनौपचारिक दस्तावेज़
- नवीनतम agents और real-time कार्यों के लिए महत्वपूर्ण टूल
- बड़ी रिसर्च labs के बाहर भी विभिन्न solutions की सिफारिश:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- संदर्भ: State of Voice AI 2024
- NotebookLM speech model:
- मॉडल सार्वजनिक नहीं है, लेकिन modeling process की विस्तृत व्याख्या उपलब्ध है
- Gemini 2.0: आवाज़ और विज़न को स्वाभाविक रूप से एकीकृत करने वाला multimodal मॉडल
- 2025 के बाद: आवाज़ और विज़न modalities का fusion एक स्पष्ट दिशा के रूप में विकसित हो रहा है
अनुभाग 9: इमेज/वीडियो diffusion
- Latent Diffusion:
- Stable Diffusion का मुख्य पेपर
- विस्तारित संस्करण:
- SD2 (आधिकारिक घोषणा)
- SDXL और SD3
- वर्तमान में टीम BFL Flux विकसित कर रही है
- OpenAI DALL-E सीरीज़:
- Google Imagen सीरीज़:
- Consistency Models:
- Sora:
- OpenAI का text-to-video conversion tool (कोई आधिकारिक पेपर नहीं)
- संदर्भ:
- DiT पेपर (उसी लेखक द्वारा)
- OpenSora: open weights आधारित प्रतिस्पर्धी मॉडल
- Lilian Weng का सारांश
- ComfyUI:
- vision model user interface के रूप में ध्यान आकर्षित कर रहा है (संबंधित इंटरव्यू)
- विशेषज्ञता वाले क्षेत्र:
- Text Diffusion: टेक्स्ट-आधारित diffusion model
- Music Diffusion: संगीत निर्माण diffusion
- Autoregressive Image Generation: autoregressive image generation
- Open Weights प्रतिस्पर्धा:
- नवीनतम रुझानों को समझना:
- Stable Diffusion और DALL-E models का उपयोग
- टेक्स्ट और वीडियो modalities के fusion पर शोध
अनुभाग 10: मॉडल फाइनट्यूनिंग(Finetuning)
- LoRA/QLoRA:
- कम लागत वाले मॉडल फाइनट्यूनिंग का मानक
- प्रमुख अनुप्रयोग:
- local models और OpenAI के 4o में भी सपोर्ट (पॉडकास्ट देखें)
- FSDP+QLoRA: शैक्षणिक सामग्री
- DPO:
- OpenAI के Preference Finetuning में सपोर्ट
- PPO (पेपर) के विकल्प के रूप में लोकप्रिय, लेकिन प्रदर्शन थोड़ा कम
- ReFT:
- मौजूदा कुछ layers को फाइनट्यून करने के बजाय मॉडल के features पर फोकस
- एक कुशल फाइनट्यूनिंग approach
- Orca 3/AgentInstruct:
- synthetic data generation के लिए उपयुक्त तरीका
- संबंधित शोध:
- NeurIPS के Synthetic Data Picks
- RL tuning:
- OpenAI का RL Finetuning for o1 विवादास्पद है, लेकिन महत्वपूर्ण सामग्री है
- संबंधित शोध:
- Let’s Verify Step By Step
- Noam Brown का व्याख्यान
- Unsloth notebooks:
- GitHub पर hands-on notebooks उपलब्ध
- HuggingFace गाइड:
- How to fine-tune open LLMs: फाइनट्यूनिंग की पूरी प्रक्रिया पर गहन गाइड
AI इंजीनियरों के लिए 2025 रीडिंग लिस्ट का समापन
- यह सूची विशाल और डराने वाली लग सकती है, लेकिन बीच में छोड़ देना भी ठीक है। महत्वपूर्ण बात है फिर से शुरू करना
- नवीनतम जानकारी बनाए रखने के लिए इसे 2025 में भी लगातार अपडेट किया जाएगा
- आप अपनी खुद की learning method बना सकते हैं, लेकिन 1 घंटे में पेपर कैसे पढ़ें मददगार हो सकता है
- पढ़ाई और learning tips यहाँ देखे जा सकते हैं
- कम्युनिटी के साथ सीखना
- Discord और Telegram groups:
- Krispin का Discord group: https://app.discuna.com/invite/ai_engineer
- NYC में सक्रिय Fed of Flow AI का Telegram group: AI NYC Telegram
- Latent Space Discord कम्युनिटी में शामिल हों: Discord invite link
- नोट्स और highlights साझा करना:
- पाठक Niels द्वारा शुरू किया गया ब्लॉग: 2025 AI Engineer Reading List नोट्स
- Discord और Telegram groups:
3 टिप्पणियां
ऐसा लगता है कि अगर ध्यान से देखें, तो अब भी बहुत सारी ऐसी सामग्री मौजूद है जिन्हें विस्तार से पढ़ना चाहिए।
Hacker News राय
ज़्यादातर पेपर गहरी समझ से ज़्यादा ज्ञान हासिल करने पर केंद्रित होते हैं। अगर आप विषय से परिचित नहीं हैं, तो पेपरों की बजाय टेक्स्टबुक से शुरुआत करना बेहतर है। Bishop की नई "Deep Learning: Foundations and Concepts (2024)" और Chip Huyen की "AI Engineering (2024)" अच्छी सामग्री हैं। "Dive into Deep Learning" या fast.ai की सामग्री भी सुझाई जाती है
"AI Engineer" नाम की नौकरी क्या है, यह स्पष्ट नहीं है, लेकिन यह भी सवाल है कि क्या रिसर्च पेपर पढ़ना वास्तव में ज़रूरी है। अगर आप AI के cutting edge पर काम नहीं कर रहे, तो पेपर पढ़ना शायद उतना मायने नहीं रखता। LLM के responses को समझना और user-friendly apps बनाना ज़्यादा महत्वपूर्ण है। OpenAI या Groq की API इस्तेमाल करते समय "multi head attention" और "single head attention" के बीच का अंतर जानना बहुत उपयोगी नहीं है
ऐसी सूची बनाना कठिन काम है। चुनी गई चीज़ों के अलावा भी कई उपयुक्त उम्मीदवार हैं, इसलिए इसे एक curriculum की तरह देखना चाहिए, और मौजूदा संबंधित पेपरों को स्थिर reference नहीं बल्कि बदलते हुए pointers की तरह समझना चाहिए। एक खास reading list को paper club में कवर किया जाता है
ज़्यादातर open source models की instruction fine-tuning विधियाँ Alpaca से निकली हैं। Alpaca और synthetic data generation पर पेपर भी शामिल किए जाने चाहिए
AI और LLM पेपर पढ़ने और समझने में समय बर्बाद करने के बजाय, ELIZA के बारे में पढ़ना और उसे खुद बनाकर देखना बेहतर है। tensors, vectors, fields, linguistics, computer architecture, और networks पर ध्यान देना चाहिए
यह reading list लगभग 1 साल पुरानी है। 2025 में KTO, RLOO, DPO जैसी तकनीकों पर ध्यान देना चाहिए। 2025 में सिर्फ distillation और optimization पर फोकस करना चाहिए। CoT नया नहीं है, और modified CoT ही मुख्य बात है
यह दिलचस्प है कि "AI" शब्द हाल की DL प्रगति द्वारा लगभग पूरी तरह absorb कर लिया गया है। Russell & Norvig, Minsky, Shannon, Lenat आदि का कोई ज़िक्र नहीं है। अगर आपको AI के व्यापक विषयों का परिचय चाहिए, तो ज़्यादातर graduate courses में वही किताब इस्तेमाल होती है
बेहतरीन सर्वे है। नीचे दिए गए course के साथ मिलाकर देखने पर सबसे अच्छा परिणाम मिल सकता है
शानदार सूची है
Eliza को खुद बनाकर देखने का क्या मतलब है?