- बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की ऊपरी सीमा तय करती है
- इसके लिए सिस्टेमैटिक डेटा इंजीनियरिंग ज्ञान देने वाली एक open source guidebook
- प्रीट्रेनिंग डेटा क्लीनिंग, मल्टीमॉडल अलाइनमेंट, RAG डेटा पाइपलाइन, सिंथेटिक डेटा जनरेशन आदि पूरी प्रक्रिया को कवर करती है
- 5 भागों में 13 चैप्टर की संरचना. अतिरिक्त रूप से 5 प्रैक्टिकल capstone projects, executable code और architecture design शामिल हैं, जो hands-on learning में मदद करते हैं
- Ray, Spark, CLIP, DVC आदि modern tech stack का उपयोग करके text·image·video डेटा प्रोसेस किया जाता है
- LLM researcher, data engineer, MLOps specialist आदि AI डेटा पाइपलाइन बनाने वालों के लिए एक व्यावहारिक संदर्भ पुस्तक के रूप में उपयोगी
परिचय
- बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की सीमा तय करती है
- LLM डेटा इंजीनियरिंग पर सिस्टेमैटिक सामग्री की कमी को पूरा करने के लिए इसे बनाया गया है
- यह पुस्तक प्रीट्रेनिंग डेटा क्लीनिंग से लेकर मल्टीमॉडल अलाइनमेंट, RAG, सिंथेटिक डेटा जनरेशन तक पूरे tech stack को कवर करती है
- Common Crawl जैसे बड़े noisy डेटा से high-quality corpus निकालना
- image-text, video, audio डेटा का संग्रह, क्लीनिंग और अलाइनमेंट
- SFT, RLHF, CoT डेटा का स्वचालित निर्माण
- enterprise document parsing और semantic unit splitting सहित RAG pipeline बनाना
- 5 end-to-end capstone projects के माध्यम से प्रैक्टिकल-केंद्रित learning प्रदान की गई है
- ऑनलाइन पढ़ें: https://datascale-ai.github.io/data_engineering_book/en/
पुस्तक की संरचना
- पूरी संरचना raw data से application तक की complete data engineering pipeline पर आधारित है
- कुल 6 भाग, 13 अध्याय और 5 प्रोजेक्ट शामिल हैं
- Part 1: इंफ्रास्ट्रक्चर और मुख्य अवधारणाएँ
- Part 2: टेक्स्ट प्रीट्रेनिंग डेटा इंजीनियरिंग
- Part 3: मल्टीमॉडल डेटा इंजीनियरिंग
- Part 4: अलाइनमेंट और सिंथेटिक डेटा इंजीनियरिंग
- Part 5: एप्लिकेशन-स्तर डेटा इंजीनियरिंग
- Part 6: capstone projects (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
मुख्य विशेषताएँ
व्यापक सिद्धांत
- Data-Centric AI दर्शन को पूरे पुस्तक में दर्शाया गया है
- प्रीट्रेनिंग → fine-tuning → RLHF → RAG तक जाने वाले LLM डेटा lifecycle को कवर करती है
- scaling laws, डेटा क्वालिटी मूल्यांकन, मल्टीमॉडल अलाइनमेंट जैसे उन्नत विषय शामिल हैं
आधुनिक tech stack
- distributed computing: Ray Data, Spark
- data storage: Parquet, WebDataset, Vector Databases
- text processing: Trafilatura, KenLM, MinHash LSH
- multimodal processing: CLIP, ColPali, img2dataset
- data version management: DVC, LakeFS
समृद्ध capstone projects
- Mini-C4: Trafilatura + Ray + MinHash से high-quality text corpus बनाना
- Legal Expert SFT: Self-Instruct + CoT आधारित domain instruction dataset
- LLaVA Multimodal: Bbox अलाइनमेंट और multi-image interleaving से visual instruction dataset बनाना
- Math Textbook: Evol-Instruct + sandbox verification से reasoning dataset बनाना
- Financial Report RAG: ColPali + Qwen-VL से multimodal question-answering system लागू करना
लोकल डेवलपमेंट
- आवश्यक environment: Python 3.8 या उससे ऊपर, MkDocs Material, mkdocs-static-i18n
- इंस्टॉलेशन और प्रीव्यू
git clone से repository clone करने के बाद dependencies install करें
mkdocs serve चलाने पर लोकल प्रीव्यू उपलब्ध है (चीनी·अंग्रेज़ी स्विचिंग समर्थन सहित)
- static site build:
mkdocs build चलाने पर site/ डायरेक्टरी में परिणाम बनता है
प्रोजेक्ट संरचना
docs/ फ़ोल्डर में चीनी (zh/) और अंग्रेज़ी (en/) कंटेंट शामिल है
images/, stylesheets/, javascripts/ आदि resource directories शामिल हैं
.github/workflows/ में CI/CD configuration शामिल है
mkdocs.yml से site configuration manage की जाती है
- लाइसेंस MIT License है
लक्षित पाठक
- LLM research/development engineer, data engineer, MLOps engineer, technical AI PM, LLM डेटा पाइपलाइन researcher
लाइसेंस
1 टिप्पणियां
Hacker News की राय
मैं इस किताब को बहुत आभार के साथ पढ़ रहा हूँ। अनुवाद की गुणवत्ता बेहद उच्च है
मैं LLM training में बिल्कुल नया हूँ, और Apple Silicon पर Python code generation के लिए नई architecture के साथ प्रयोग कर रहा हूँ
लेकिन data tools code-केंद्रित नहीं हैं, बल्कि सामान्य text या image पर ज़्यादा केंद्रित हैं, इसलिए यह थोड़ा निराशाजनक लगता है
SGlang MacOS पर नहीं चलता, इसलिए मैं EBNF constrained output का उपयोग करके synthetic data generation नहीं कर पा रहा हूँ
मैं Python code corpus खुद डाउनलोड करके APFS समस्याएँ, sharding, custom classification·cleaning·mixing आदि संभाल रहा हूँ, लेकिन यह हैरानी की बात है कि code के लिए pre-tagged dataset नहीं हैं
अगर यह LLM के लिए data engineering जैसे उभरते क्षेत्र पर किताब है, तो इसमें पूरे ML lifecycle के लिए storage format जैसी उभरती category का भी ज़िक्र होना चाहिए
उदाहरण के लिए, Lance analytics tasks और vector workloads दोनों के लिए optimized columnar storage है, जो versioning और random access को support करता है
यह sampling, efficient filtering, और multimodal data (जैसे video) को संभालने के लिए बहुत महत्वपूर्ण है
इसी तरह के उदाहरणों में vortex, Meta का nimble आदि हैं
मुझे लगता है शीर्षक ‘Data Engineering for LLMs’ ज़्यादा उपयुक्त होगा
यह अनुवाद की समस्या भी हो सकती है, लेकिन शुरुआत में “Modern Data Stack” की व्याख्या भरोसा नहीं जगाती थी
1_2_data_infra.md वाला हिस्सा कुछ धुँधला लगा,
लेकिन उसके बाद के data cleaning और RAG pipeline सेक्शन कहीं ज़्यादा स्पष्ट थे
English version README_en.md में है
पोस्ट spam filter में फँस गई थी, लेकिन लेखक ने email से बताया, इसलिए मैंने उन्हें comment में background साझा करने का निमंत्रण दिया। अब ऊपर उसी के अनुसार बदलाव कर दिया गया है
यह बहुत दिलचस्प लगा, इसलिए मैंने इसे bookmark कर लिया। लेकिन मैं सोच रहा था कि क्या README ChatGPT से लिखा गया है
“Data is the new oil, but only if you know how to refine it.” यह पंक्ति प्रभावशाली लगी
petroleum भी refine किए बिना बेकार है, इसलिए इसे “डेटा नया तेल है, और refine करने पर ही उसका मूल्य बनता है” जैसा कहना ज़्यादा स्वाभाविक लगेगा
‘Vector DB vs Keyword Search’ सेक्शन दिलचस्प लगा। RAG pipeline प्रयोगों में सीमा कहाँ खींची जाती है, यह जानने की जिज्ञासा है
हमारे अनुभव में BM25 जैसी keyword search entity names·ID के लिए मज़बूत थी, जबकि vector search conceptual queries के लिए बेहतर थी। जानना चाहता हूँ कि क्या किताब में hybrid search या reranking भी शामिल है
मुख्य बात reranking है। सिर्फ results को जोड़ देना काफी नहीं, बल्कि cross-encoder (जैसे Cohere या custom model) से scores फिर से देने चाहिए
शुद्ध semantic search तब फायदेमंद होती है जब query ज़्यादातर abstract concepts पर आधारित हो
हर chapter की diagrams अंग्रेज़ी में हैं (README_en.md की images अपवाद हैं)
सिर्फ Parquet आधुनिक data engineering के लिए पर्याप्त नहीं है। Delta और Iceberg भी शामिल होने चाहिए