बड़े मॉडलों के लिए डेटा इंजीनियरिंग: आर्किटेक्चर, एल्गोरिद्म और प्रोजेक्ट

(github.com/datascale-ai)

15 पॉइंट द्वारा GN⁺ 2026-02-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की ऊपरी सीमा तय करती है
इसके लिए सिस्टेमैटिक डेटा इंजीनियरिंग ज्ञान देने वाली एक open source guidebook
प्रीट्रेनिंग डेटा क्लीनिंग, मल्टीमॉडल अलाइनमेंट, RAG डेटा पाइपलाइन, सिंथेटिक डेटा जनरेशन आदि पूरी प्रक्रिया को कवर करती है
5 भागों में 13 चैप्टर की संरचना. अतिरिक्त रूप से 5 प्रैक्टिकल capstone projects, executable code और architecture design शामिल हैं, जो hands-on learning में मदद करते हैं
Ray, Spark, CLIP, DVC आदि modern tech stack का उपयोग करके text·image·video डेटा प्रोसेस किया जाता है
LLM researcher, data engineer, MLOps specialist आदि AI डेटा पाइपलाइन बनाने वालों के लिए एक व्यावहारिक संदर्भ पुस्तक के रूप में उपयोगी

परिचय

बड़े मॉडलों के युग में डेटा क्वालिटी मॉडल प्रदर्शन की सीमा तय करती है
- LLM डेटा इंजीनियरिंग पर सिस्टेमैटिक सामग्री की कमी को पूरा करने के लिए इसे बनाया गया है
यह पुस्तक प्रीट्रेनिंग डेटा क्लीनिंग से लेकर मल्टीमॉडल अलाइनमेंट, RAG, सिंथेटिक डेटा जनरेशन तक पूरे tech stack को कवर करती है
- Common Crawl जैसे बड़े noisy डेटा से high-quality corpus निकालना
- image-text, video, audio डेटा का संग्रह, क्लीनिंग और अलाइनमेंट
- SFT, RLHF, CoT डेटा का स्वचालित निर्माण
- enterprise document parsing और semantic unit splitting सहित RAG pipeline बनाना
5 end-to-end capstone projects के माध्यम से प्रैक्टिकल-केंद्रित learning प्रदान की गई है
ऑनलाइन पढ़ें: https://datascale-ai.github.io/data_engineering_book/en/

पुस्तक की संरचना

पूरी संरचना raw data से application तक की complete data engineering pipeline पर आधारित है
कुल 6 भाग, 13 अध्याय और 5 प्रोजेक्ट शामिल हैं
- Part 1: इंफ्रास्ट्रक्चर और मुख्य अवधारणाएँ
- Part 2: टेक्स्ट प्रीट्रेनिंग डेटा इंजीनियरिंग
- Part 3: मल्टीमॉडल डेटा इंजीनियरिंग
- Part 4: अलाइनमेंट और सिंथेटिक डेटा इंजीनियरिंग
- Part 5: एप्लिकेशन-स्तर डेटा इंजीनियरिंग
- Part 6: capstone projects (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

मुख्य विशेषताएँ

व्यापक सिद्धांत

Data-Centric AI दर्शन को पूरे पुस्तक में दर्शाया गया है
प्रीट्रेनिंग → fine-tuning → RLHF → RAG तक जाने वाले LLM डेटा lifecycle को कवर करती है
scaling laws, डेटा क्वालिटी मूल्यांकन, मल्टीमॉडल अलाइनमेंट जैसे उन्नत विषय शामिल हैं

आधुनिक tech stack

distributed computing: Ray Data, Spark
data storage: Parquet, WebDataset, Vector Databases
text processing: Trafilatura, KenLM, MinHash LSH
multimodal processing: CLIP, ColPali, img2dataset
data version management: DVC, LakeFS

समृद्ध capstone projects

Mini-C4: Trafilatura + Ray + MinHash से high-quality text corpus बनाना
Legal Expert SFT: Self-Instruct + CoT आधारित domain instruction dataset
LLaVA Multimodal: Bbox अलाइनमेंट और multi-image interleaving से visual instruction dataset बनाना
Math Textbook: Evol-Instruct + sandbox verification से reasoning dataset बनाना
Financial Report RAG: ColPali + Qwen-VL से multimodal question-answering system लागू करना

लोकल डेवलपमेंट

आवश्यक environment: Python 3.8 या उससे ऊपर, MkDocs Material, mkdocs-static-i18n
इंस्टॉलेशन और प्रीव्यू
- git clone से repository clone करने के बाद dependencies install करें
- mkdocs serve चलाने पर लोकल प्रीव्यू उपलब्ध है (चीनी·अंग्रेज़ी स्विचिंग समर्थन सहित)
static site build: mkdocs build चलाने पर site/ डायरेक्टरी में परिणाम बनता है

प्रोजेक्ट संरचना

docs/ फ़ोल्डर में चीनी (zh/) और अंग्रेज़ी (en/) कंटेंट शामिल है
images/, stylesheets/, javascripts/ आदि resource directories शामिल हैं
.github/workflows/ में CI/CD configuration शामिल है
mkdocs.yml से site configuration manage की जाती है
लाइसेंस MIT License है

लक्षित पाठक

LLM research/development engineer, data engineer, MLOps engineer, technical AI PM, LLM डेटा पाइपलाइन researcher

लाइसेंस

MIT License लागू है

ऑनलाइन पढ़ें: https://datascale-ai.github.io/data_engineering_book/en/

1 टिप्पणियां

GN⁺ 2026-02-16

Hacker News की राय

मैं इस किताब को बहुत आभार के साथ पढ़ रहा हूँ। अनुवाद की गुणवत्ता बेहद उच्च है
मैं LLM training में बिल्कुल नया हूँ, और Apple Silicon पर Python code generation के लिए नई architecture के साथ प्रयोग कर रहा हूँ
लेकिन data tools code-केंद्रित नहीं हैं, बल्कि सामान्य text या image पर ज़्यादा केंद्रित हैं, इसलिए यह थोड़ा निराशाजनक लगता है
SGlang MacOS पर नहीं चलता, इसलिए मैं EBNF constrained output का उपयोग करके synthetic data generation नहीं कर पा रहा हूँ
मैं Python code corpus खुद डाउनलोड करके APFS समस्याएँ, sharding, custom classification·cleaning·mixing आदि संभाल रहा हूँ, लेकिन यह हैरानी की बात है कि code के लिए pre-tagged dataset नहीं हैं
अगर यह LLM के लिए data engineering जैसे उभरते क्षेत्र पर किताब है, तो इसमें पूरे ML lifecycle के लिए storage format जैसी उभरती category का भी ज़िक्र होना चाहिए
उदाहरण के लिए, Lance analytics tasks और vector workloads दोनों के लिए optimized columnar storage है, जो versioning और random access को support करता है
यह sampling, efficient filtering, और multimodal data (जैसे video) को संभालने के लिए बहुत महत्वपूर्ण है
इसी तरह के उदाहरणों में vortex, Meta का nimble आदि हैं
मुझे लगता है शीर्षक ‘Data Engineering for LLMs’ ज़्यादा उपयुक्त होगा
- यह अच्छी बात है। सामग्री के हिसाब से ‘Data Engineering for LLMs’ कहीं ज़्यादा सटीक है, इसलिए मैं इसे तुरंत project lead तक पहुँचाऊँगा
यह अनुवाद की समस्या भी हो सकती है, लेकिन शुरुआत में “Modern Data Stack” की व्याख्या भरोसा नहीं जगाती थी
1_2_data_infra.md वाला हिस्सा कुछ धुँधला लगा,
लेकिन उसके बाद के data cleaning और RAG pipeline सेक्शन कहीं ज़्यादा स्पष्ट थे
- ईमानदार feedback के लिए धन्यवाद
English version README_en.md में है
- धन्यवाद! मैंने ऊपर का लिंक उसी से बदल दिया है। मूल रूप से submit किया गया URL data_engineering_book था
  पोस्ट spam filter में फँस गई थी, लेकिन लेखक ने email से बताया, इसलिए मैंने उन्हें comment में background साझा करने का निमंत्रण दिया। अब ऊपर उसी के अनुसार बदलाव कर दिया गया है
- direct link साझा करने के लिए धन्यवाद
यह बहुत दिलचस्प लगा, इसलिए मैंने इसे bookmark कर लिया। लेकिन मैं सोच रहा था कि क्या README ChatGPT से लिखा गया है
- हाँ। हम एक चीनी टीम हैं, और English translation के लिए हमने GPT का इस्तेमाल किया। यह थोड़ा ‘नकली गर्मजोशी’ जैसा लगा—इस feedback के लिए धन्यवाद। आगे हम इसे और neutral और concise tone में सुधारेंगे
- मुझे भी ऐसा ही लगा। बहुत सारी summary tables और कृत्रिम भाषा की वजह से यह LLM द्वारा लिखा हुआ लगता था। GPT न भी होता, तब भी इसे पूरी तरह rewrite करने की ज़रूरत है
“Data is the new oil, but only if you know how to refine it.” यह पंक्ति प्रभावशाली लगी
petroleum भी refine किए बिना बेकार है, इसलिए इसे “डेटा नया तेल है, और refine करने पर ही उसका मूल्य बनता है” जैसा कहना ज़्यादा स्वाभाविक लगेगा
‘Vector DB vs Keyword Search’ सेक्शन दिलचस्प लगा। RAG pipeline प्रयोगों में सीमा कहाँ खींची जाती है, यह जानने की जिज्ञासा है
हमारे अनुभव में BM25 जैसी keyword search entity names·ID के लिए मज़बूत थी, जबकि vector search conceptual queries के लिए बेहतर थी। जानना चाहता हूँ कि क्या किताब में hybrid search या reranking भी शामिल है
- अच्छा सवाल है। वास्तविक production में BM25+vector का hybrid approach ज़्यादातर मामलों में प्रभावी रहा। लगभग 70/30 के अनुपात में keyword exact matching के लिए फायदेमंद था
  मुख्य बात reranking है। सिर्फ results को जोड़ देना काफी नहीं, बल्कि cross-encoder (जैसे Cohere या custom model) से scores फिर से देने चाहिए
  शुद्ध semantic search तब फायदेमंद होती है जब query ज़्यादातर abstract concepts पर आधारित हो
- इस insight के लिए धन्यवाद। ऐसे patterns को हम आगे के updates में शामिल करेंगे। अभी Lunar New Year holiday चल रही है, इसलिए थोड़ी देरी हो सकती है
हर chapter की diagrams अंग्रेज़ी में हैं (README_en.md की images अपवाद हैं)
- बताने के लिए धन्यवाद! मैंने उस अंतर को नोटिस किया और README_en.md की diagrams तुरंत ठीक कर दीं। अब वे सही तरह दिखेंगी
सिर्फ Parquet आधुनिक data engineering के लिए पर्याप्त नहीं है। Delta और Iceberg भी शामिल होने चाहिए
- feedback के लिए धन्यवाद! मैंने यह बात उस section के जिम्मेदार व्यक्ति तक पहुँचा दी है। अभी Lunar New Year छुट्टियाँ चल रही हैं, इसलिए update थोड़ा देर से आ सकता है। नया साल मुबारक हो

बड़े मॉडलों के लिए डेटा इंजीनियरिंग: आर्किटेक्चर, एल्गोरिद्म और प्रोजेक्ट

परिचय

पुस्तक की संरचना

मुख्य विशेषताएँ

व्यापक सिद्धांत

आधुनिक tech stack

समृद्ध capstone projects

लोकल डेवलपमेंट

प्रोजेक्ट संरचना

लक्षित पाठक

लाइसेंस

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय