- AI इंजीनियरों के लिए 50 पेपर, मॉडल और ब्लॉग को 10 क्षेत्रों में बाँटकर चुना गया
- इसमें LLMs, बेंचमार्क, prompting, RAG, एजेंट, code generation, vision, speech, diffusion और fine-tuning क्षेत्र शामिल हैं
सेक्शन 1: फ्रंटियर LLMs
- OpenAI मॉडल
- Anthropic और Google मॉडल
- Meta से जुड़े LLaMA परिवार
- DeepSeek मॉडल
- Apple Intelligence
- Apple Intelligence (पेपर) - हर Mac और iPhone में शामिल मॉडल
- ध्यान देने योग्य अतिरिक्त मॉडल और रिसर्च
- LLM मॉडल
- AI2 परिवार: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- अन्य: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws रिसर्च
- अत्याधुनिक मॉडल:
- Reasoning मॉडल रिसर्च:
सेक्शन 2: बेंचमार्क और मूल्यांकन
- MMLU
- MMLU (पेपर): बहु-विषयक ज्ञान बेंचमार्क का मानक
- 2025 के state-of-the-art शोध में MMLU Pro (पेपर), GPQA Diamond (पेपर), BIG-Bench Hard (पेपर) का उपयोग होता है
- GPQA (पेपर): प्रश्न निर्माण और सही उत्तर के मूल्यांकन पर केंद्रित
- BIG-Bench (पेपर): कई तरह की समस्याओं को शामिल करने वाला बड़े पैमाने का बेंचमार्क
- MuSR (पेपर): लंबे context के भीतर मूल्यांकन
- संबंधित शोध: LongBench (पेपर), BABILong (पेपर), RULER (परिचय)
- समस्या-समाधान: Lost in the Middle (पेपर), Needle in a Haystack (GitHub)
- MATH (पेपर): गणित प्रतियोगिता समस्याओं का संग्रह
- state-of-the-art शोध FrontierMath (पेपर) और उच्च-कठिनाई वाली समस्याओं पर फोकस करता है
- उपसमुच्चय: MATH Level 5, AIME, AMC10/AMC12
- IFEval (पेपर): प्रमुख instruction-following evaluation बेंचमार्क
- Apple द्वारा आधिकारिक रूप से अपनाया गया (लिंक)
- संबंधित बेंचमार्क: MT-Bench (पेपर)
- ARC AGI (आधिकारिक पेज): अमूर्त तर्क और "IQ टेस्ट" बेंचमार्क
- तेज़ी से saturated हो जाने वाले अन्य बेंचमार्क की तुलना में यह लंबे समय तक उपयोगी बना रहता है
- अतिरिक्त संदर्भ सामग्री
सेक्शन 3: प्रॉम्प्टिंग, ICL और Chain-of-Thought
- GPT-3 और In-Context Learning (ICL)
- GPT-3 पेपर(पेपर): In-Context Learning (ICL) की अवधारणा का परिचय
- ICL का प्रॉम्प्टिंग से गहरा संबंध है, जिसके जरिए LLM context के भीतर सीख और लागू कर सकता है
- Prompt Injection: प्रॉम्प्ट में हेरफेर और सुरक्षा समस्याएँ (Lilian Weng की समीक्षा, Simon Willison की सीरीज़)
- The Prompt Report: प्रॉम्प्टिंग से संबंधित शोधपत्रों का सर्वे
- अवलोकन: प्रॉम्प्टिंग तकनीकों की समग्र प्रगति और नवीनतम ट्रेंड्स का सारांश (संबंधित पॉडकास्ट)
- Chain-of-Thought (CoT):
- चरण-दर-चरण सोच प्रक्रिया का मॉडलिंग
- संबंधित शोध:
- Scratchpads (पेपर)
- Let’s Think Step By Step (पेपर)
- Tree of Thought:
- Lookahead और Backtracking की अवधारणाओं का परिचय
- जटिल समस्या-समाधान के लिए प्रभावी तरीका (संबंधित पॉडकास्ट)
- Prompt Tuning:
- बिना प्रॉम्प्ट के भी model performance को adjust किया जा सकता है:
- Prefix-Tuning (पेपर)
- Entropy-आधारित decoding adjustment (GitHub)
- Representation Engineering (ब्लॉग)
- Automatic Prompt Engineering:
- वह तरीका जिसमें LLM खुद प्रॉम्प्ट जनरेट और optimize करता है
- DSPy framework (पेपर) में लागू
- केवल शोधपत्र ही नहीं, बल्कि व्यावहारिक गाइड भी उपयोगी हैं:
सेक्शन 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: information retrieval की बुनियाद पर आधारित एक क्लासिक संदर्भ पुस्तक
- RAG एक information retrieval (IR) समस्या है, इसलिए यह 60+ वर्षों के इतिहास वाले इस क्षेत्र से गहराई से जुड़ा है
- प्रमुख तकनीकें:
- TF-IDF, BM25: टेक्स्ट-आधारित सर्च
- FAISS, HNSW: vector search और nearest-neighbor search
- Meta RAG (2020 का पेपर) : RAG शब्द का पहला उल्लेख
- MTEB: embedding evaluation benchmark
- GraphRAG: Microsoft का RAG और knowledge graph integration
- GraphRAG:
- knowledge graph को RAG workflow में integrate करके private data से बेहतर परिणाम देना
- open source किया गया (Microsoft ब्लॉग)
- संबंधित शोध:
- RAGAS: OpenAI द्वारा सुझाया गया सरल RAG evaluation तरीका
- सीखने की सामग्री और RAG का प्रैक्टिकल काम
सेक्शन 5: एजेंट
- SWE-Bench:
- एजेंट evaluation के लिए एक प्रमुख benchmark (कोडिंग-केंद्रित)
- Anthropic, Devin, OpenAI आदि द्वारा अपनाया गया, इसलिए इस पर काफी ध्यान गया
- संबंधित सामग्री:
- तुलना: WebArena (GitHub), SWE-Gym (संबंधित ट्वीट)
- ReAct:
- tool use और function calling LLM रिसर्च का शुरुआती बिंदु
- संबंधित रिसर्च:
- MemGPT:
- long-term memory emulation अप्रोच
- प्रमुख उपयोग:
- संबंधित सिस्टम:
- Voyager:
- Nvidia का cognitive architecture अप्रोच:
- curriculum, skill library, sandbox का उपयोग करके performance सुधार
- कॉन्सेप्ट विस्तार:
- Agent Workflow Memory (पेपर)
- Anthropic की Building Effective Agents:
- 2024 के agent design की मुख्य बातों का सार
- प्रमुख विषय:
- chaining, routing, parallelization, orchestration, evaluation, optimization
- संबंधित सामग्री:
- अतिरिक्त learning materials और lectures
सेक्शन 6: कोड जनरेशन(CodeGen)
- The Stack paper
- The Pile के code-centric open dataset pair के रूप में शुरुआत
- बाद का काम:
- open code model papers
- HumanEval/Codex
- कोडिंग डोमेन का एक ज़रूरी benchmark (अब यह saturation की स्थिति में है)
- आधुनिक alternative benchmarks:
- SWE-Bench
- agent-केंद्रित evaluation के लिए प्रसिद्ध है, लेकिन यह महंगा है और मॉडल की तुलना में एजेंट evaluation पर अधिक केंद्रित है
- AlphaCodeium
- Google के AlphaCode और AlphaCode2 performance पर आधारित
- Flow Engineering का उपयोग करके मौजूदा मॉडलों की performance में बड़ा सुधार
- CriticGPT
- code generation के दौरान उत्पन्न होने वाली security समस्याओं की पहचान पर फोकस
- OpenAI का CriticGPT security issues की पहचान करने के लिए प्रशिक्षित है
- Anthropic SAEs (Safety-relevant Activation Ensembles) का उपयोग करके समस्या पैदा करने वाले LLM features का विश्लेषण करता है (रिसर्च)
- इंडस्ट्री में code generation का फोकस रिसर्च से practical use की ओर शिफ्ट हो रहा है:
- Devin जैसे code agents का उपयोग (वीडियो)
- code generation पर व्यावहारिक सलाह (YouTube)
सेक्शन 7: विज़न
- Non-LLM आधारित विज़न रिसर्च
- YOLO:
- रियल-टाइम object detection मॉडल के लिए प्रसिद्ध
- अब v11 तक विकसित हो चुका है (GitHub)
- हालिया रिसर्च: DETR आधारित transformer मॉडल्स ने YOLO से बेहतर प्रदर्शन दिखाया है
- संदर्भ: YOLO के विभिन्न versions और उसके evolution lineage पर ध्यान दें (संबंधित चर्चा)
- CLIP:
- ViT-आधारित multimodal मॉडल की सफलता का एक उदाहरण
- नवीनतम मॉडल:
- CLIP अब भी महत्वपूर्ण background knowledge है
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- अप्रकाशित नवीनतम कार्य:
- GPT4V System Card और उससे निकला रिसर्च (पेपर)
- OpenAI 4o:
- नवीनतम मॉडल:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- अन्य मॉडल:
सेक्शन 8: आवाज़
- Whisper:
- OpenAI का सफल ASR मॉडल
- प्रमुख versions:
- Whisper कई open weight मॉडल प्रदान करता है, लेकिन कुछ versions के लिए paper उपलब्ध नहीं है
- AudioPaLM:
- Google का AudioPaLM, PaLM से Gemini में संक्रमण से पहले का रिसर्च है
- संदर्भ: Meta की Llama 3 speech exploration (पेपर)
- NaturalSpeech:
- प्रमुख TTS रिसर्च में से एक
- हाल ही में v3 (पेपर) तक अपडेट किया गया
- Kyutai Moshi:
- full-duplex speech-to-text open weight मॉडल
- उच्च-गुणवत्ता डेमो (YouTube)
- संदर्भ मॉडल: Hume OCTAVE (ब्लॉग)
- OpenAI Realtime API: The Missing Manual:
- OpenAI के real-time speech API के लिए अनौपचारिक दस्तावेज़
- नवीनतम agents और real-time कार्यों के लिए महत्वपूर्ण टूल
- बड़ी रिसर्च labs के बाहर भी विभिन्न solutions की सिफारिश:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- संदर्भ: State of Voice AI 2024
- NotebookLM speech model:
- Gemini 2.0: आवाज़ और विज़न को स्वाभाविक रूप से एकीकृत करने वाला multimodal मॉडल
- 2025 के बाद: आवाज़ और विज़न modalities का fusion एक स्पष्ट दिशा के रूप में विकसित हो रहा है
अनुभाग 9: इमेज/वीडियो diffusion
- Latent Diffusion:
- Stable Diffusion का मुख्य पेपर
- विस्तारित संस्करण:
- वर्तमान में टीम BFL Flux विकसित कर रही है
- OpenAI DALL-E सीरीज़:
- Google Imagen सीरीज़:
- Consistency Models:
- diffusion models के distillation पर काम
- विस्तार:
- Sora:
- OpenAI का text-to-video conversion tool (कोई आधिकारिक पेपर नहीं)
- संदर्भ:
- ComfyUI:
- vision model user interface के रूप में ध्यान आकर्षित कर रहा है (संबंधित इंटरव्यू)
- विशेषज्ञता वाले क्षेत्र:
- Open Weights प्रतिस्पर्धा:
- नवीनतम रुझानों को समझना:
- Stable Diffusion और DALL-E models का उपयोग
- टेक्स्ट और वीडियो modalities के fusion पर शोध
अनुभाग 10: मॉडल फाइनट्यूनिंग(Finetuning)
- LoRA/QLoRA:
- कम लागत वाले मॉडल फाइनट्यूनिंग का मानक
- प्रमुख अनुप्रयोग:
- DPO:
- ReFT:
- मौजूदा कुछ layers को फाइनट्यून करने के बजाय मॉडल के features पर फोकस
- एक कुशल फाइनट्यूनिंग approach
- Orca 3/AgentInstruct:
- synthetic data generation के लिए उपयुक्त तरीका
- संबंधित शोध:
- RL tuning:
- Unsloth notebooks:
- GitHub पर hands-on notebooks उपलब्ध
- HuggingFace गाइड:
AI इंजीनियरों के लिए 2025 रीडिंग लिस्ट का समापन
- यह सूची विशाल और डराने वाली लग सकती है, लेकिन बीच में छोड़ देना भी ठीक है। महत्वपूर्ण बात है फिर से शुरू करना
- नवीनतम जानकारी बनाए रखने के लिए इसे 2025 में भी लगातार अपडेट किया जाएगा
- आप अपनी खुद की learning method बना सकते हैं, लेकिन 1 घंटे में पेपर कैसे पढ़ें मददगार हो सकता है
- पढ़ाई और learning tips यहाँ देखे जा सकते हैं
- कम्युनिटी के साथ सीखना
- Discord और Telegram groups:
- नोट्स और highlights साझा करना:
3 टिप्पणियां
ऐसा लगता है कि अगर ध्यान से देखें, तो अब भी बहुत सारी ऐसी सामग्री मौजूद है जिन्हें विस्तार से पढ़ना चाहिए।
Hacker News राय
ज़्यादातर पेपर गहरी समझ से ज़्यादा ज्ञान हासिल करने पर केंद्रित होते हैं। अगर आप विषय से परिचित नहीं हैं, तो पेपरों की बजाय टेक्स्टबुक से शुरुआत करना बेहतर है। Bishop की नई "Deep Learning: Foundations and Concepts (2024)" और Chip Huyen की "AI Engineering (2024)" अच्छी सामग्री हैं। "Dive into Deep Learning" या fast.ai की सामग्री भी सुझाई जाती है
"AI Engineer" नाम की नौकरी क्या है, यह स्पष्ट नहीं है, लेकिन यह भी सवाल है कि क्या रिसर्च पेपर पढ़ना वास्तव में ज़रूरी है। अगर आप AI के cutting edge पर काम नहीं कर रहे, तो पेपर पढ़ना शायद उतना मायने नहीं रखता। LLM के responses को समझना और user-friendly apps बनाना ज़्यादा महत्वपूर्ण है। OpenAI या Groq की API इस्तेमाल करते समय "multi head attention" और "single head attention" के बीच का अंतर जानना बहुत उपयोगी नहीं है
ऐसी सूची बनाना कठिन काम है। चुनी गई चीज़ों के अलावा भी कई उपयुक्त उम्मीदवार हैं, इसलिए इसे एक curriculum की तरह देखना चाहिए, और मौजूदा संबंधित पेपरों को स्थिर reference नहीं बल्कि बदलते हुए pointers की तरह समझना चाहिए। एक खास reading list को paper club में कवर किया जाता है
ज़्यादातर open source models की instruction fine-tuning विधियाँ Alpaca से निकली हैं। Alpaca और synthetic data generation पर पेपर भी शामिल किए जाने चाहिए
AI और LLM पेपर पढ़ने और समझने में समय बर्बाद करने के बजाय, ELIZA के बारे में पढ़ना और उसे खुद बनाकर देखना बेहतर है। tensors, vectors, fields, linguistics, computer architecture, और networks पर ध्यान देना चाहिए
यह reading list लगभग 1 साल पुरानी है। 2025 में KTO, RLOO, DPO जैसी तकनीकों पर ध्यान देना चाहिए। 2025 में सिर्फ distillation और optimization पर फोकस करना चाहिए। CoT नया नहीं है, और modified CoT ही मुख्य बात है
यह दिलचस्प है कि "AI" शब्द हाल की DL प्रगति द्वारा लगभग पूरी तरह absorb कर लिया गया है। Russell & Norvig, Minsky, Shannon, Lenat आदि का कोई ज़िक्र नहीं है। अगर आपको AI के व्यापक विषयों का परिचय चाहिए, तो ज़्यादातर graduate courses में वही किताब इस्तेमाल होती है
बेहतरीन सर्वे है। नीचे दिए गए course के साथ मिलाकर देखने पर सबसे अच्छा परिणाम मिल सकता है
शानदार सूची है
Eliza को खुद बनाकर देखने का क्या मतलब है?