- बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की ऊपरी सीमा तय करती है
- इसके लिए सिस्टेमैटिक डेटा इंजीनियरिंग ज्ञान देने वाली एक open source guidebook
- प्रीट्रेनिंग डेटा क्लीनिंग, मल्टीमॉडल अलाइनमेंट, RAG डेटा पाइपलाइन, सिंथेटिक डेटा जनरेशन आदि पूरी प्रक्रिया को कवर करती है
- 5 भागों में 13 चैप्टर की संरचना. अतिरिक्त रूप से 5 प्रैक्टिकल capstone projects, executable code और architecture design शामिल हैं, जो hands-on learning में मदद करते हैं
- Ray, Spark, CLIP, DVC आदि modern tech stack का उपयोग करके text·image·video डेटा प्रोसेस किया जाता है
- LLM researcher, data engineer, MLOps specialist आदि AI डेटा पाइपलाइन बनाने वालों के लिए एक व्यावहारिक संदर्भ पुस्तक के रूप में उपयोगी
परिचय
- बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की सीमा तय करती है
- LLM डेटा इंजीनियरिंग पर सिस्टेमैटिक सामग्री की कमी को पूरा करने के लिए इसे बनाया गया है
- यह पुस्तक प्रीट्रेनिंग डेटा क्लीनिंग से लेकर मल्टीमॉडल अलाइनमेंट, RAG, सिंथेटिक डेटा जनरेशन तक पूरे tech stack को कवर करती है
- Common Crawl जैसे बड़े noisy डेटा से high-quality corpus निकालना
- image-text, video, audio डेटा का संग्रह, क्लीनिंग और अलाइनमेंट
- SFT, RLHF, CoT डेटा का स्वचालित निर्माण
- enterprise document parsing और semantic unit splitting सहित RAG pipeline बनाना
- 5 end-to-end capstone projects के माध्यम से प्रैक्टिकल-केंद्रित learning प्रदान की गई है
- ऑनलाइन पढ़ें: https://datascale-ai.github.io/data_engineering_book/en/
पुस्तक की संरचना
- पूरी संरचना raw data से application तक की complete data engineering pipeline पर आधारित है
- कुल 6 भाग, 13 अध्याय और 5 प्रोजेक्ट शामिल हैं
- Part 1: इंफ्रास्ट्रक्चर और मुख्य अवधारणाएँ
- Part 2: टेक्स्ट प्रीट्रेनिंग डेटा इंजीनियरिंग
- Part 3: मल्टीमॉडल डेटा इंजीनियरिंग
- Part 4: अलाइनमेंट और सिंथेटिक डेटा इंजीनियरिंग
- Part 5: एप्लिकेशन-स्तर डेटा इंजीनियरिंग
- Part 6: capstone projects (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
मुख्य विशेषताएँ
व्यापक सिद्धांत
- Data-Centric AI दर्शन को पूरे पुस्तक में दर्शाया गया है
- प्रीट्रेनिंग → fine-tuning → RLHF → RAG तक जाने वाले LLM डेटा lifecycle को कवर करती है
- scaling laws, डेटा क्वालिटी मूल्यांकन, मल्टीमॉडल अलाइनमेंट जैसे उन्नत विषय शामिल हैं
आधुनिक tech stack
- distributed computing: Ray Data, Spark
- data storage: Parquet, WebDataset, Vector Databases
- text processing: Trafilatura, KenLM, MinHash LSH
- multimodal processing: CLIP, ColPali, img2dataset
- data version management: DVC, LakeFS
समृद्ध capstone projects
- Mini-C4: Trafilatura + Ray + MinHash से high-quality text corpus बनाना
- Legal Expert SFT: Self-Instruct + CoT आधारित domain instruction dataset
- LLaVA Multimodal: Bbox अलाइनमेंट और multi-image interleaving से visual instruction dataset बनाना
- Math Textbook: Evol-Instruct + sandbox verification से reasoning dataset बनाना
- Financial Report RAG: ColPali + Qwen-VL से multimodal question-answering system लागू करना
लोकल डेवलपमेंट
- आवश्यक environment: Python 3.8 या उससे ऊपर, MkDocs Material, mkdocs-static-i18n
- इंस्टॉलेशन और प्रीव्यू
git clone से repository clone करने के बाद dependencies install करें
mkdocs serve चलाने पर लोकल प्रीव्यू उपलब्ध है (चीनी·अंग्रेज़ी स्विचिंग समर्थन सहित)
- static site build:
mkdocs build चलाने पर site/ डायरेक्टरी में परिणाम बनता है
प्रोजेक्ट संरचना
docs/ फ़ोल्डर में चीनी (zh/) और अंग्रेज़ी (en/) कंटेंट शामिल है
images/, stylesheets/, javascripts/ आदि resource directories शामिल हैं
.github/workflows/ में CI/CD configuration शामिल है
mkdocs.yml से site configuration manage की जाती है
- लाइसेंस MIT License है
लक्षित पाठक
- LLM research/development engineer, data engineer, MLOps engineer, technical AI PM, LLM डेटा पाइपलाइन researcher
लाइसेंस
अभी कोई टिप्पणी नहीं है.