Python Data Science Handbook

(jakevdp.github.io)

43 पॉइंट द्वारा GN⁺ 2025-12-04 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Python-आधारित data science के मुख्य tools और techniques को कवर करने वाली एक ऑनलाइन handbook, जिसकी पूरी सामग्री website और GitHub पर सार्वजनिक है
Jupyter notebook format में उपलब्ध होने के कारण hands-on learning संभव है, और इसमें code तथा text दोनों शामिल हैं
text को CC-BY-NC-ND license और code examples को MIT license के तहत वितरित किया गया है, इसलिए गैर-व्यावसायिक उपयोग के लिए इसे स्वतंत्र रूप से इस्तेमाल किया जा सकता है
IPython, NumPy, Pandas, Matplotlib, Scikit-Learn आदि data analysis और machine learning की मुख्य libraries को व्यवस्थित रूप से कवर किया गया है
data science के शुरुआती छात्रों से लेकर practitioners तक, Python ecosystem के standard workflow को सीखने के लिए यह उपयोगी सामग्री है

अवलोकन

इस site में Jake VanderPlas की 『Python Data Science Handbook』 की पूरी सामग्री शामिल है
- मूल पुस्तक O’Reilly से प्रकाशित हुई थी, और web version मुफ्त में उपलब्ध है
- सारी सामग्री GitHub repository में Jupyter notebook के रूप में दी गई है
text को CC-BY-NC-ND license और code examples को MIT license के तहत वितरित किया गया है
- गैर-व्यावसायिक उपयोग और code reuse संभव है
यदि पाठक इसे उपयोगी पाएँ, तो वे मूल पुस्तक खरीदकर लेखक का समर्थन कर सकते हैं

विषय-सूची संरचना

पुस्तक कुल 5 मुख्य अध्यायों और एक appendix से मिलकर बनी है

अध्याय 1: IPython – सामान्य Python से आगे

IPython environment की सुविधाओं और उपयोग के तरीके समझाए गए हैं
- help system, keyboard shortcuts, magic commands, shell command integration आदि शामिल हैं
- code execution history, debugging, और performance measurement features को कवर किया गया है

अध्याय 2: NumPy परिचय

NumPy arrays का उपयोग करके numerical computing की बुनियाद को कवर किया गया है
- data types, broadcasting, boolean masks, sorting, structured arrays आदि शामिल हैं
- array-based operations और aggregation functions के उपयोग की व्याख्या की गई है

अध्याय 3: Pandas के साथ data manipulation

Pandas के मुख्य objects और data processing features को कवर किया गया है
- indexing, missing values handling, grouping, pivot tables, time series processing आदि शामिल हैं
- eval() और query() के जरिए high-performance operations का परिचय भी दिया गया है

अध्याय 4: Matplotlib के साथ visualization

Matplotlib और Seaborn का उपयोग करके data visualization के तरीके समझाए गए हैं
- line graphs, scatter plots, histograms, density plots आदि कई graph types शामिल हैं
- legend, color bars, stylesheets, 3D graphs, geographic data visualization जैसी advanced features को कवर किया गया है

अध्याय 5: मशीन लर्निंग

Scikit-Learn को केंद्र में रखकर machine learning के मूल concepts और algorithms को कवर किया गया है
- hyperparameters, model validation, feature engineering जैसी मुख्य प्रक्रियाएँ शामिल हैं
- Naive Bayes, linear regression, SVM, random forest, PCA, k-means, GMM आदि प्रमुख models समझाए गए हैं
- face recognition pipeline के उदाहरण से वास्तविक application case दिखाया गया है

appendix: figure code

मुख्य सामग्री में उपयोग किए गए visualization code को एकत्र करके दिया गया है
- हर figure को दोबारा बनाना और संशोधित करना संभव है

उपयोगिता

data science सीखने वालों को Python ecosystem की समग्र समझ प्रदान करता है
hands-on notebook format के कारण शिक्षा, शोध, और prototyping में उपयोग किया जा सकता है
open source license के तहत उपलब्ध होने से निरंतर विस्तार और community contribution आसान है

2 टिप्पणियां

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Python लाइब्रेरी का उपयोग करके डेटा विश्लेषण
यह Pandas बनाने वाले Wes McKinney की लिखी किताब है, और डेटा साइंस की शुरुआती किताब के तौर पर यह भी अच्छी है। मैंने यह किताब तब देखी थी जब इसका दूसरा संस्करण पहली बार आया था... अभी खोजकर देखा तो पता चला कि तीसरा संस्करण भी आ चुका है।

GN⁺ 2025-12-04

Hacker News राय

मुझे Jake VanderPlas का Statistics for Hackers टॉक बहुत पसंद आया था
प्रेज़ेंटेशन स्लाइड्स देखें
- इसे साझा करने के लिए धन्यवाद। इससे फिर याद आया कि probability की जगह frequency के आधार पर सोचना कितनी गलतियों को कम कर सकता है
  उदाहरण के लिए, अगर किसी बीमारी की prevalence 1/10,000 है और test accuracy 99% है, तब भी positive result का मतलब 99% संभावना से बीमारी होना नहीं है
इस तरह की किताबें हमेशा दिलचस्प लगती हैं
ये data manipulation, visualization, machine learning जैसे कई विषयों को विस्तृत लेकिन सतही रूप में कवर करती हैं, जबकि हर विषय अपने आप में एक पूरी किताब हो सकता है
programming सिखाने और concepts·theory का परिचय देने के बीच संतुलन बनाना मुश्किल होता है, लेकिन यह किताब एक introductory book के रूप में अच्छा संतुलन बनाती दिखती है
2017~2018 में जब मैंने data science शुरू की थी, तब यह किताब सच में आग🔥 की तरह उपयोगी थी
Jake एक शानदार शिक्षक थे
आज के समय में Pandas को चुनना दिलचस्प है
शायद फोकस नए tools की बजाय सामान्य concepts समझाने पर था
- किताब मूल रूप से 2016 में प्रकाशित हुई थी, इसलिए संभव है कि यह अभी भी पहला edition हो
- मुझे अब भी लगता है कि Pandas industry standard है। Polars या Spark ज़्यादा data engineering performance पर केंद्रित हैं, और पूरी data science को कवर करने के लिए उतने उपयुक्त नहीं हैं
- किताब काफ़ी पुरानी है, इसलिए शायद “आज के समय में” कहना सही न हो
- मुझे समझ नहीं आता कि Pandas में दिक्कत क्या है
अपनी पहली नौकरी में मैंने Kernel Density Estimation(KDE) से जुड़ी एक blog post का सहारा लिया था, और वह बेहद उपयोगी थी
तभी से मुझे Jake का काम पसंद आने लगा
किताब का online version learningds.org पर उपलब्ध है
इसका लाइसेंस CC-BY-NC-ND है
मुझे समझ नहीं आता कि लोग Pandas से नफ़रत क्यों करते हैं
यह perfect tool नहीं है, लेकिन हमारे codebase में Pandas की हज़ारों lines हैं और इससे production bug लगभग कभी नहीं हुआ
हम Pandas के साथ static schema wrapper और type checker इस्तेमाल करके इसे स्थिर रूप से चला रहे हैं
- जिज्ञासा है कि क्या यह आपका खुद का schema wrapper है, या PyPI पर कोई ऐसा package है जिसकी आप सिफारिश करेंगे
वे एक बेहतरीन लेखक थे, और उनका blog याद आता है
खासकर pivot table पर उनका लेख बहुत प्रभावशाली था, और लगता है कि उसका कंटेंट अब किताब में शामिल है
- वे Python visualization library Altair (Vega-Lite आधारित) के निर्माता भी हैं
  इसे Altair आधिकारिक साइट पर देखा जा सकता है
यह किताब 8 साल पहले लिखी गई थी, लेकिन इसी लेखक का 2nd edition भी मौजूद है
- GitHub repository में 2nd edition का notebook version है
  वहाँ इसे “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…” के रूप में दिखाया गया है
  इसे मूल लिंक वाले 2016 edition से तुलना की जा सकती है
2020~2021 में data science सीखते समय यह उन बहुत कम किताबों में से एक थी जिन्हें मैंने शुरू से अंत तक पूरा पढ़ा था
आज भी इसकी सिफारिश की जा सकती है