2025 AI इंजीनियर रीडिंग लिस्ट

(latent.space)

45 पॉइंट द्वारा GN⁺ 2025-01-14 | 3 टिप्पणियां | WhatsApp पर शेयर करें

AI इंजीनियरों के लिए 50 पेपर, मॉडल और ब्लॉग को 10 क्षेत्रों में बाँटकर चुना गया
इसमें LLMs, बेंचमार्क, prompting, RAG, एजेंट, code generation, vision, speech, diffusion और fine-tuning क्षेत्र शामिल हैं

सेक्शन 1: फ्रंटियर LLMs

OpenAI मॉडल
- GPT1 (पेपर), GPT2 (पेपर), GPT3 (पेपर), Codex (पेपर), InstructGPT (पेपर), GPT4 (पेपर)
- GPT3.5 (ChatGPT परिचय), 4o (GPT-4o परिचय), o1 (o1 प्रीव्यू), o3 (सिस्टम कार्ड)
Anthropic और Google मॉडल
- Claude 3 (पेपर), Gemini 1 (पेपर)
- Claude 3.5 Sonnet (विवरण), Gemini 2.0 Flash (आधिकारिक ब्लॉग), Flash Thinking (Gemini API दस्तावेज़), Gemma 2 (पेपर)
Meta से जुड़े LLaMA परिवार
- LLaMA 1 (पेपर), LLaMA 2 (पेपर), LLaMA 3 (पेपर)
- विस्तारित मॉडल: Mistral 7B (पेपर), Mixtral (पेपर), Pixtral (पेपर)
DeepSeek मॉडल
- DeepSeek V1 (पेपर), Coder (पेपर), MoE (पेपर), V2 (पेपर), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (पेपर) - हर Mac और iPhone में शामिल मॉडल
ध्यान देने योग्य अतिरिक्त मॉडल और रिसर्च
- LLM मॉडल
  - AI2 परिवार: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - अन्य: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws रिसर्च
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- अत्याधुनिक मॉडल:
  - o1, o3, R1, QwQ, QVQ, f1
- Reasoning मॉडल रिसर्च:
  - Let’s Verify Step By Step, STaR, Noam Brown का व्याख्यान

सेक्शन 2: बेंचमार्क और मूल्यांकन

MMLU
- MMLU (पेपर): बहु-विषयक ज्ञान बेंचमार्क का मानक
  - 2025 के state-of-the-art शोध में MMLU Pro (पेपर), GPQA Diamond (पेपर), BIG-Bench Hard (पेपर) का उपयोग होता है
- GPQA (पेपर): प्रश्न निर्माण और सही उत्तर के मूल्यांकन पर केंद्रित
- BIG-Bench (पेपर): कई तरह की समस्याओं को शामिल करने वाला बड़े पैमाने का बेंचमार्क
MuSR (पेपर): लंबे context के भीतर मूल्यांकन
- संबंधित शोध: LongBench (पेपर), BABILong (पेपर), RULER (परिचय)
- समस्या-समाधान: Lost in the Middle (पेपर), Needle in a Haystack (GitHub)
MATH (पेपर): गणित प्रतियोगिता समस्याओं का संग्रह
- state-of-the-art शोध FrontierMath (पेपर) और उच्च-कठिनाई वाली समस्याओं पर फोकस करता है
- उपसमुच्चय: MATH Level 5, AIME, AMC10/AMC12
IFEval (पेपर): प्रमुख instruction-following evaluation बेंचमार्क
- Apple द्वारा आधिकारिक रूप से अपनाया गया (लिंक)
- संबंधित बेंचमार्क: MT-Bench (पेपर)
ARC AGI (आधिकारिक पेज): अमूर्त तर्क और "IQ टेस्ट" बेंचमार्क
- तेज़ी से saturated हो जाने वाले अन्य बेंचमार्क की तुलना में यह लंबे समय तक उपयोगी बना रहता है
अतिरिक्त संदर्भ सामग्री
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: बेंचमार्क पर गहन विश्लेषण
- LLM संबंधित सामग्री: LLM-as-Judge, Applied LLMs
- डेटासेट संसाधन: Datasets

सेक्शन 3: प्रॉम्प्टिंग, ICL और Chain-of-Thought

GPT-3 और In-Context Learning (ICL)
- GPT-3 पेपर(पेपर): In-Context Learning (ICL) की अवधारणा का परिचय
- ICL का प्रॉम्प्टिंग से गहरा संबंध है, जिसके जरिए LLM context के भीतर सीख और लागू कर सकता है
- Prompt Injection: प्रॉम्प्ट में हेरफेर और सुरक्षा समस्याएँ (Lilian Weng की समीक्षा, Simon Willison की सीरीज़)
The Prompt Report: प्रॉम्प्टिंग से संबंधित शोधपत्रों का सर्वे
- अवलोकन: प्रॉम्प्टिंग तकनीकों की समग्र प्रगति और नवीनतम ट्रेंड्स का सारांश (संबंधित पॉडकास्ट)
Chain-of-Thought (CoT):
- चरण-दर-चरण सोच प्रक्रिया का मॉडलिंग
- संबंधित शोध:
  - Scratchpads (पेपर)
  - Let’s Think Step By Step (पेपर)
Tree of Thought:
- Lookahead और Backtracking की अवधारणाओं का परिचय
- जटिल समस्या-समाधान के लिए प्रभावी तरीका (संबंधित पॉडकास्ट)
Prompt Tuning:
- बिना प्रॉम्प्ट के भी model performance को adjust किया जा सकता है:
  - Prefix-Tuning (पेपर)
  - Entropy-आधारित decoding adjustment (GitHub)
  - Representation Engineering (ब्लॉग)
Automatic Prompt Engineering:
- वह तरीका जिसमें LLM खुद प्रॉम्प्ट जनरेट और optimize करता है
- DSPy framework (पेपर) में लागू
केवल शोधपत्र ही नहीं, बल्कि व्यावहारिक गाइड भी उपयोगी हैं:
- Lilian Weng का Prompt Engineering ब्लॉग
- Eugene Yan की Prompting गाइड
- Anthropic के tutorial और workshop:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

सेक्शन 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: information retrieval की बुनियाद पर आधारित एक क्लासिक संदर्भ पुस्तक
- RAG एक information retrieval (IR) समस्या है, इसलिए यह 60+ वर्षों के इतिहास वाले इस क्षेत्र से गहराई से जुड़ा है
- प्रमुख तकनीकें:
  - TF-IDF, BM25: टेक्स्ट-आधारित सर्च
  - FAISS, HNSW: vector search और nearest-neighbor search
Meta RAG (2020 का पेपर) : RAG शब्द का पहला उल्लेख
- HyDE (दस्तावेज़)
- Chunking (शोध)
- Rerankers (Cohere ब्लॉग)
- multimodal data processing (YouTube)
MTEB: embedding evaluation benchmark
- विवाद और सीमाएँ (संबंधित चर्चा)
- embedding models के उदाहरण:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (HuggingFace ब्लॉग)
GraphRAG: Microsoft का RAG और knowledge graph integration
- GraphRAG:
  - knowledge graph को RAG workflow में integrate करके private data से बेहतर परिणाम देना
  - open source किया गया (Microsoft ब्लॉग)
- संबंधित शोध:
  - ColBERT, ColPali, ColQwen
RAGAS: OpenAI द्वारा सुझाया गया सरल RAG evaluation तरीका
- Nvidia FACTS Framework (पेपर)
- Extrinsic Hallucinations in LLMs (Lilian Weng का सर्वे)
- Jason Wei का Recall vs Precision (ट्वीट)
सीखने की सामग्री और RAG का प्रैक्टिकल काम
- LlamaIndex (दस्तावेज़, कोर्स)
- LangChain (दस्तावेज़, ट्यूटोरियल वीडियो)
- RAG vs Long Context Debate:
  - पेपर: RAG और long-context approach की तुलना

सेक्शन 5: एजेंट

SWE-Bench:
- एजेंट evaluation के लिए एक प्रमुख benchmark (कोडिंग-केंद्रित)
- Anthropic, Devin, OpenAI आदि द्वारा अपनाया गया, इसलिए इस पर काफी ध्यान गया
- संबंधित सामग्री:
  - SWE-Agent (पेपर)
  - SWE-Bench Multimodal (पेपर)
  - Konwinski Prize (वेबसाइट)
- तुलना: WebArena (GitHub), SWE-Gym (संबंधित ट्वीट)
ReAct:
- tool use और function calling LLM रिसर्च का शुरुआती बिंदु
- संबंधित रिसर्च:
  - Gorilla (leaderboard)
  - Toolformer (पेपर)
  - HuggingGPT (पेपर)
MemGPT:
- long-term memory emulation अप्रोच
- प्रमुख उपयोग:
  - ChatGPT की memory और control features
  - LangGraph की episodic memory
- संबंधित सिस्टम:
  - MetaGPT (पेपर)
  - AutoGen (पेपर)
  - Smallville (GitHub)
Voyager:
- Nvidia का cognitive architecture अप्रोच:
  - curriculum, skill library, sandbox का उपयोग करके performance सुधार
- कॉन्सेप्ट विस्तार:
  - Agent Workflow Memory (पेपर)
Anthropic की Building Effective Agents:
- 2024 के agent design की मुख्य बातों का सार
- प्रमुख विषय:
  - chaining, routing, parallelization, orchestration, evaluation, optimization
- संबंधित सामग्री:
  - Lilian Weng की agent research
  - Shunyu Yao की LLM agent research
  - Chip Huyen का 2025 agent overview
अतिरिक्त learning materials और lectures
- 2024 का latest agent design: NeurIPS सार
- UC Berkeley MOOC: LLM Agents lecture
- agent definition पर चर्चा: ज़रूरत पड़ने पर यह परिभाषा देखें

सेक्शन 6: कोड जनरेशन(CodeGen)

The Stack paper
- The Pile के code-centric open dataset pair के रूप में शुरुआत
- बाद का काम:
  - The Stack v2: बेहतर dataset
  - StarCoder: optimized code generation model
open code model papers
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- बहुत से लोग Claude 3.5 Sonnet को सर्वश्रेष्ठ code model मानते हैं, लेकिन इसका कोई आधिकारिक पेपर नहीं है
HumanEval/Codex
- कोडिंग डोमेन का एक ज़रूरी benchmark (अब यह saturation की स्थिति में है)
- आधुनिक alternative benchmarks:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - agent-केंद्रित evaluation के लिए प्रसिद्ध है, लेकिन यह महंगा है और मॉडल की तुलना में एजेंट evaluation पर अधिक केंद्रित है
AlphaCodeium
- Google के AlphaCode और AlphaCode2 performance पर आधारित
- Flow Engineering का उपयोग करके मौजूदा मॉडलों की performance में बड़ा सुधार
CriticGPT
- code generation के दौरान उत्पन्न होने वाली security समस्याओं की पहचान पर फोकस
  - OpenAI का CriticGPT security issues की पहचान करने के लिए प्रशिक्षित है
  - Anthropic SAEs (Safety-relevant Activation Ensembles) का उपयोग करके समस्या पैदा करने वाले LLM features का विश्लेषण करता है (रिसर्च)
इंडस्ट्री में code generation का फोकस रिसर्च से practical use की ओर शिफ्ट हो रहा है:
- Devin जैसे code agents का उपयोग (वीडियो)
- code generation पर व्यावहारिक सलाह (YouTube)

सेक्शन 7: विज़न

Non-LLM आधारित विज़न रिसर्च
- YOLO:
  - रियल-टाइम object detection मॉडल के लिए प्रसिद्ध
  - अब v11 तक विकसित हो चुका है (GitHub)
  - हालिया रिसर्च: DETR आधारित transformer मॉडल्स ने YOLO से बेहतर प्रदर्शन दिखाया है
- संदर्भ: YOLO के विभिन्न versions और उसके evolution lineage पर ध्यान दें (संबंधित चर्चा)
CLIP:
- ViT-आधारित multimodal मॉडल की सफलता का एक उदाहरण
- नवीनतम मॉडल:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP अब भी महत्वपूर्ण background knowledge है
MMVP benchmark:
- CLIP की सीमाओं का मूल्यांकन करता है
- multimodal version: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- image और video segmentation का प्रतिनिधि मॉडल
- follow-up रिसर्च: SAM 2 (संबंधित पॉडकास्ट)
- पूरक मॉडल: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (पॉडकास्ट)
- Early Fusion:
  - Meta का Flamingo
  - Chameleon
  - Apple का AIMv2
  - Reka का Core
- संदर्भ सामग्री: multimodal विज़न रिसर्च का प्रवाह
अप्रकाशित नवीनतम कार्य:
- GPT4V System Card और उससे निकला रिसर्च (पेपर)
- OpenAI 4o:
  - 4o Vision fine-tuning
- नवीनतम मॉडल:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - अन्य मॉडल:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

सेक्शन 8: आवाज़

Whisper:
- OpenAI का सफल ASR मॉडल
- प्रमुख versions:
  - Whisper v2 (संबंधित चर्चा)
  - Whisper v3 (संबंधित चर्चा)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (विश्लेषण)
- Whisper कई open weight मॉडल प्रदान करता है, लेकिन कुछ versions के लिए paper उपलब्ध नहीं है
AudioPaLM:
- Google का AudioPaLM, PaLM से Gemini में संक्रमण से पहले का रिसर्च है
- संदर्भ: Meta की Llama 3 speech exploration (पेपर)
NaturalSpeech:
- प्रमुख TTS रिसर्च में से एक
- हाल ही में v3 (पेपर) तक अपडेट किया गया
Kyutai Moshi:
- full-duplex speech-to-text open weight मॉडल
- उच्च-गुणवत्ता डेमो (YouTube)
- संदर्भ मॉडल: Hume OCTAVE (ब्लॉग)
OpenAI Realtime API: The Missing Manual:
- OpenAI के real-time speech API के लिए अनौपचारिक दस्तावेज़
- नवीनतम agents और real-time कार्यों के लिए महत्वपूर्ण टूल
बड़ी रिसर्च labs के बाहर भी विभिन्न solutions की सिफारिश:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- संदर्भ: State of Voice AI 2024
- NotebookLM speech model:
  - मॉडल सार्वजनिक नहीं है, लेकिन modeling process की विस्तृत व्याख्या उपलब्ध है
Gemini 2.0: आवाज़ और विज़न को स्वाभाविक रूप से एकीकृत करने वाला multimodal मॉडल
- 2025 के बाद: आवाज़ और विज़न modalities का fusion एक स्पष्ट दिशा के रूप में विकसित हो रहा है

अनुभाग 9: इमेज/वीडियो diffusion

Latent Diffusion:
- Stable Diffusion का मुख्य पेपर
- विस्तारित संस्करण:
  - SD2 (आधिकारिक घोषणा)
  - SDXL और SD3
- वर्तमान में टीम BFL Flux विकसित कर रही है
OpenAI DALL-E सीरीज़:
- DALL-E, DALL-E-2, DALL-E-3
Google Imagen सीरीज़:
- Imagen, Imagen 2, Imagen 3
- संदर्भ: Ideogram
Consistency Models:
- diffusion models के distillation पर काम
- विस्तार:
  - LCMs
  - नवीनतम अपडेट: sCMs
Sora:
- OpenAI का text-to-video conversion tool (कोई आधिकारिक पेपर नहीं)
- संदर्भ:
  - DiT पेपर (उसी लेखक द्वारा)
  - OpenSora: open weights आधारित प्रतिस्पर्धी मॉडल
  - Lilian Weng का सारांश
ComfyUI:
- vision model user interface के रूप में ध्यान आकर्षित कर रहा है (संबंधित इंटरव्यू)
विशेषज्ञता वाले क्षेत्र:
- Text Diffusion: टेक्स्ट-आधारित diffusion model
- Music Diffusion: संगीत निर्माण diffusion
- Autoregressive Image Generation: autoregressive image generation
Open Weights प्रतिस्पर्धा:
- Text-to-Video Arena
नवीनतम रुझानों को समझना:
- Stable Diffusion और DALL-E models का उपयोग
- टेक्स्ट और वीडियो modalities के fusion पर शोध

अनुभाग 10: मॉडल फाइनट्यूनिंग(Finetuning)

LoRA/QLoRA:
- कम लागत वाले मॉडल फाइनट्यूनिंग का मानक
- प्रमुख अनुप्रयोग:
  - local models और OpenAI के 4o में भी सपोर्ट (पॉडकास्ट देखें)
  - FSDP+QLoRA: शैक्षणिक सामग्री
DPO:
- OpenAI के Preference Finetuning में सपोर्ट
- PPO (पेपर) के विकल्प के रूप में लोकप्रिय, लेकिन प्रदर्शन थोड़ा कम
ReFT:
- मौजूदा कुछ layers को फाइनट्यून करने के बजाय मॉडल के features पर फोकस
- एक कुशल फाइनट्यूनिंग approach
Orca 3/AgentInstruct:
- synthetic data generation के लिए उपयुक्त तरीका
- संबंधित शोध:
  - NeurIPS के Synthetic Data Picks
RL tuning:
- OpenAI का RL Finetuning for o1 विवादास्पद है, लेकिन महत्वपूर्ण सामग्री है
- संबंधित शोध:
  - Let’s Verify Step By Step
  - Noam Brown का व्याख्यान
Unsloth notebooks:
- GitHub पर hands-on notebooks उपलब्ध
HuggingFace गाइड:
- How to fine-tune open LLMs: फाइनट्यूनिंग की पूरी प्रक्रिया पर गहन गाइड

AI इंजीनियरों के लिए 2025 रीडिंग लिस्ट का समापन

यह सूची विशाल और डराने वाली लग सकती है, लेकिन बीच में छोड़ देना भी ठीक है। महत्वपूर्ण बात है फिर से शुरू करना
नवीनतम जानकारी बनाए रखने के लिए इसे 2025 में भी लगातार अपडेट किया जाएगा
आप अपनी खुद की learning method बना सकते हैं, लेकिन 1 घंटे में पेपर कैसे पढ़ें मददगार हो सकता है
पढ़ाई और learning tips यहाँ देखे जा सकते हैं
कम्युनिटी के साथ सीखना
- Discord और Telegram groups:
  - Krispin का Discord group: https://app.discuna.com/invite/ai_engineer
  - NYC में सक्रिय Fed of Flow AI का Telegram group: AI NYC Telegram
  - Latent Space Discord कम्युनिटी में शामिल हों: Discord invite link
- नोट्स और highlights साझा करना:
  - पाठक Niels द्वारा शुरू किया गया ब्लॉग: 2025 AI Engineer Reading List नोट्स

3 टिप्पणियां

kipsong133 2025-01-16

ऐसा लगता है कि अगर ध्यान से देखें, तो अब भी बहुत सारी ऐसी सामग्री मौजूद है जिन्हें विस्तार से पढ़ना चाहिए।

GN⁺ 2025-01-14

Hacker News राय

ज़्यादातर पेपर गहरी समझ से ज़्यादा ज्ञान हासिल करने पर केंद्रित होते हैं। अगर आप विषय से परिचित नहीं हैं, तो पेपरों की बजाय टेक्स्टबुक से शुरुआत करना बेहतर है। Bishop की नई "Deep Learning: Foundations and Concepts (2024)" और Chip Huyen की "AI Engineering (2024)" अच्छी सामग्री हैं। "Dive into Deep Learning" या fast.ai की सामग्री भी सुझाई जाती है
"AI Engineer" नाम की नौकरी क्या है, यह स्पष्ट नहीं है, लेकिन यह भी सवाल है कि क्या रिसर्च पेपर पढ़ना वास्तव में ज़रूरी है। अगर आप AI के cutting edge पर काम नहीं कर रहे, तो पेपर पढ़ना शायद उतना मायने नहीं रखता। LLM के responses को समझना और user-friendly apps बनाना ज़्यादा महत्वपूर्ण है। OpenAI या Groq की API इस्तेमाल करते समय "multi head attention" और "single head attention" के बीच का अंतर जानना बहुत उपयोगी नहीं है
ऐसी सूची बनाना कठिन काम है। चुनी गई चीज़ों के अलावा भी कई उपयुक्त उम्मीदवार हैं, इसलिए इसे एक curriculum की तरह देखना चाहिए, और मौजूदा संबंधित पेपरों को स्थिर reference नहीं बल्कि बदलते हुए pointers की तरह समझना चाहिए। एक खास reading list को paper club में कवर किया जाता है
ज़्यादातर open source models की instruction fine-tuning विधियाँ Alpaca से निकली हैं। Alpaca और synthetic data generation पर पेपर भी शामिल किए जाने चाहिए
AI और LLM पेपर पढ़ने और समझने में समय बर्बाद करने के बजाय, ELIZA के बारे में पढ़ना और उसे खुद बनाकर देखना बेहतर है। tensors, vectors, fields, linguistics, computer architecture, और networks पर ध्यान देना चाहिए
यह reading list लगभग 1 साल पुरानी है। 2025 में KTO, RLOO, DPO जैसी तकनीकों पर ध्यान देना चाहिए। 2025 में सिर्फ distillation और optimization पर फोकस करना चाहिए। CoT नया नहीं है, और modified CoT ही मुख्य बात है
यह दिलचस्प है कि "AI" शब्द हाल की DL प्रगति द्वारा लगभग पूरी तरह absorb कर लिया गया है। Russell & Norvig, Minsky, Shannon, Lenat आदि का कोई ज़िक्र नहीं है। अगर आपको AI के व्यापक विषयों का परिचय चाहिए, तो ज़्यादातर graduate courses में वही किताब इस्तेमाल होती है
बेहतरीन सर्वे है। नीचे दिए गए course के साथ मिलाकर देखने पर सबसे अच्छा परिणाम मिल सकता है
शानदार सूची है

francomoon7 2025-01-16

Eliza को खुद बनाकर देखने का क्या मतलब है?