• बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की ऊपरी सीमा तय करती है
  • इसके लिए सिस्टेमैटिक डेटा इंजीनियरिंग ज्ञान देने वाली एक open source guidebook
  • प्रीट्रेनिंग डेटा क्लीनिंग, मल्टीमॉडल अलाइनमेंट, RAG डेटा पाइपलाइन, सिंथेटिक डेटा जनरेशन आदि पूरी प्रक्रिया को कवर करती है
  • 5 भागों में 13 चैप्टर की संरचना. अतिरिक्त रूप से 5 प्रैक्टिकल capstone projects, executable code और architecture design शामिल हैं, जो hands-on learning में मदद करते हैं
  • Ray, Spark, CLIP, DVC आदि modern tech stack का उपयोग करके text·image·video डेटा प्रोसेस किया जाता है
  • LLM researcher, data engineer, MLOps specialist आदि AI डेटा पाइपलाइन बनाने वालों के लिए एक व्यावहारिक संदर्भ पुस्तक के रूप में उपयोगी

परिचय

  • बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की सीमा तय करती है
    • LLM डेटा इंजीनियरिंग पर सिस्टेमैटिक सामग्री की कमी को पूरा करने के लिए इसे बनाया गया है
  • यह पुस्तक प्रीट्रेनिंग डेटा क्लीनिंग से लेकर मल्टीमॉडल अलाइनमेंट, RAG, सिंथेटिक डेटा जनरेशन तक पूरे tech stack को कवर करती है
    • Common Crawl जैसे बड़े noisy डेटा से high-quality corpus निकालना
    • image-text, video, audio डेटा का संग्रह, क्लीनिंग और अलाइनमेंट
    • SFT, RLHF, CoT डेटा का स्वचालित निर्माण
    • enterprise document parsing और semantic unit splitting सहित RAG pipeline बनाना
  • 5 end-to-end capstone projects के माध्यम से प्रैक्टिकल-केंद्रित learning प्रदान की गई है
  • ऑनलाइन पढ़ें: https://datascale-ai.github.io/data_engineering_book/en/

पुस्तक की संरचना

  • पूरी संरचना raw data से application तक की complete data engineering pipeline पर आधारित है
  • कुल 6 भाग, 13 अध्याय और 5 प्रोजेक्ट शामिल हैं
    • Part 1: इंफ्रास्ट्रक्चर और मुख्य अवधारणाएँ
    • Part 2: टेक्स्ट प्रीट्रेनिंग डेटा इंजीनियरिंग
    • Part 3: मल्टीमॉडल डेटा इंजीनियरिंग
    • Part 4: अलाइनमेंट और सिंथेटिक डेटा इंजीनियरिंग
    • Part 5: एप्लिकेशन-स्तर डेटा इंजीनियरिंग
    • Part 6: capstone projects (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

मुख्य विशेषताएँ

व्यापक सिद्धांत

  • Data-Centric AI दर्शन को पूरे पुस्तक में दर्शाया गया है
  • प्रीट्रेनिंग → fine-tuning → RLHF → RAG तक जाने वाले LLM डेटा lifecycle को कवर करती है
  • scaling laws, डेटा क्वालिटी मूल्यांकन, मल्टीमॉडल अलाइनमेंट जैसे उन्नत विषय शामिल हैं

आधुनिक tech stack

  • distributed computing: Ray Data, Spark
  • data storage: Parquet, WebDataset, Vector Databases
  • text processing: Trafilatura, KenLM, MinHash LSH
  • multimodal processing: CLIP, ColPali, img2dataset
  • data version management: DVC, LakeFS

समृद्ध capstone projects

  • Mini-C4: Trafilatura + Ray + MinHash से high-quality text corpus बनाना
  • Legal Expert SFT: Self-Instruct + CoT आधारित domain instruction dataset
  • LLaVA Multimodal: Bbox अलाइनमेंट और multi-image interleaving से visual instruction dataset बनाना
  • Math Textbook: Evol-Instruct + sandbox verification से reasoning dataset बनाना
  • Financial Report RAG: ColPali + Qwen-VL से multimodal question-answering system लागू करना

लोकल डेवलपमेंट

  • आवश्यक environment: Python 3.8 या उससे ऊपर, MkDocs Material, mkdocs-static-i18n
  • इंस्टॉलेशन और प्रीव्यू
    • git clone से repository clone करने के बाद dependencies install करें
    • mkdocs serve चलाने पर लोकल प्रीव्यू उपलब्ध है (चीनी·अंग्रेज़ी स्विचिंग समर्थन सहित)
  • static site build: mkdocs build चलाने पर site/ डायरेक्टरी में परिणाम बनता है

प्रोजेक्ट संरचना

  • docs/ फ़ोल्डर में चीनी (zh/) और अंग्रेज़ी (en/) कंटेंट शामिल है
  • images/, stylesheets/, javascripts/ आदि resource directories शामिल हैं
  • .github/workflows/ में CI/CD configuration शामिल है
  • mkdocs.yml से site configuration manage की जाती है
  • लाइसेंस MIT License है

लक्षित पाठक

  • LLM research/development engineer, data engineer, MLOps engineer, technical AI PM, LLM डेटा पाइपलाइन researcher

लाइसेंस

  • MIT License लागू है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.