- कंप्यूटर विज़न की बुनियाद को इमेज प्रोसेसिंग और मशीन लर्निंग के दृष्टिकोण से कवर करने वाली शुरुआती और मध्यवर्ती पाठकों के लिए पुस्तक
- मुख्य अवधारणाओं पर ध्यान केंद्रित करने के लिए हर अध्याय को छोटा और स्पष्ट रखा गया है
- डीप लर्निंग क्रांति के बाद आए बदलावों और क्लासिकल आइडियाज़ के पुनर्गठन की प्रक्रिया को पुस्तक-लेखन के अनुभव के साथ समझाया गया है
- 15 भागों में इमेज प्रोसेसिंग, न्यूरल नेटवर्क, जनरेटिव मॉडल, सीक्वेंस प्रोसेसिंग, सीन अंडरस्टैंडिंग आदि सहित कंप्यूटर विज़न के व्यापक विषयों को शामिल किया गया है
- नवीनतम शोध रुझानों या किसी विशेष अनुप्रयोग से अधिक आवश्यक सिद्धांत और सहज समझ विकसित करने पर केंद्रित संरचना
प्रस्तावना
इस पुस्तक के बारे में
- यह पुस्तक कंप्यूटर विज़न के मुख्य विषयों को इमेज प्रोसेसिंग और मशीन लर्निंग के नज़रिए से प्रस्तुत करती है
- पाठक की सहज समझ विकसित करने के लिए इसमें विभिन्न विज़ुअलाइज़ेशन सामग्री शामिल है
- मुख्य पाठक-वर्ग कंप्यूटर विज़न में प्रवेश करने वाले स्नातक और स्नातकोत्तर छात्र हैं, लेकिन यह अनुभवी प्रैक्टिशनर्स के लिए भी उपयोगी है
- मूल रूप से लक्ष्य बहुत व्यापक सामग्री को कवर करना था, लेकिन कंप्यूटर विज़न क्षेत्र की विशालता के कारण हर अध्याय को 5 पृष्ठों के भीतर सीमित किया गया ताकि मुख्य अवधारणाओं पर ध्यान रखा जा सके
- लेखक ईमानदारी से साझा करते हैं कि छोटी पुस्तक लिखने का लक्ष्य होने के बावजूद अंततः पुस्तक काफी बड़ी हो गई
पुस्तक-लेखन की प्रक्रिया
- लेखन शुरू करते समय की मंशा और वास्तविक प्रक्रिया की गैर-रेखीयता को डेटा के माध्यम से दिखाया गया है, और इसे पूरा होने में 10 साल से अधिक समय लगा
- लेखन के दौरान डीप लर्निंग क्रांति (2012) हुई, जिसके साथ पारंपरिक विधियों और आधुनिक दृष्टिकोणों के समेकन की प्रक्रिया आगे बढ़ी
- शुरुआती डीप लर्निंग लोकप्रियता के कारण पहले के कई विचार कुछ समय के लिए भुला दिए गए, लेकिन समय के साथ मूलभूत अवधारणाएँ फिर से केंद्र में आईं
- लेखक बताते हैं कि यह यात्रा कठिन थी, लेकिन विभिन्न उदाहरणों और प्रयोगों को स्वयं करके उन्होंने बहुत कुछ सीखा
- कंप्यूटर विज़न और AI क्षेत्र की प्रमुख घटनाओं को पुस्तक-लेखन के समयक्रम के साथ बदलते हुए विज़ुअली दिखाया गया है
पुस्तक की संरचना
- पिछले लगभग 10 वर्षों में कंप्यूटर विज़न क्षेत्र ने तेज़ प्रगति की है, और भले ही वर्तमान तरीके अतीत से पूरी तरह अलग लगते हों, पुस्तक ऐतिहासिक निरंतरता पर ज़ोर देती है
- पूरी पुस्तक में एकीकृत थीम और दृष्टिकोण तथा अनेक परिप्रेक्ष्यों के महत्व को बार-बार रेखांकित किया गया है
- पुस्तक 15 भागों में विभाजित है, और हर भाग कंप्यूटर विज़न के एक सुसंगत विषय पर केंद्रित है
प्रत्येक भाग का परिचय
- Part I: कंप्यूटर विज़न समस्याओं के लिए प्रेरणा, सामाजिक संदर्भ, और गणितीय आधार का परिचय
- Part II: इमेज बनने की प्रक्रिया
- Part III: इमेज उदाहरणों के माध्यम से मशीन लर्निंग की बुनियादी अवधारणाओं की व्याख्या
- Part IV: सिग्नल और इमेज प्रोसेसिंग का परिचय
- Part V: उपयोगी linear filters (Gaussian kernel, binary filters, image derivatives, Laplacian, temporal filters) और उनके अनुप्रयोग
- Part VI: multi-scale इमेज प्रतिनिधित्व
- Part VII: कंप्यूटर विज़न के लिए न्यूरल नेटवर्क (convolutional neural networks, recurrent neural networks, transformers)
- Part VIII: इमेज के सांख्यिकीय मॉडल और ग्राफ मॉडल
- Part IX: जनरेटिव मॉडल और representation learning (जैसे vector embeddings) पर केंद्रित आधुनिक दृष्टिकोण
- Part X: learning-based vision systems बनाते समय आने वाली चुनौतियाँ
- Part XI: 3D संरचना पुनर्निर्माण के लिए ज्यामितीय उपकरण
- Part XII: सीक्वेंस प्रोसेसिंग और मोशन मापन
- Part XIII: सीन अंडरस्टैंडिंग और ऑब्जेक्ट डिटेक्शन
- Part XIV: जूनियर शोधकर्ताओं के लिए प्रेज़ेंटेशन, पेपर लेखन, और प्रभावी शोध मानसिकता पर सलाह
- Part XV: Part I में प्रस्तुत समस्याओं को पुस्तक में कवर की गई विभिन्न पद्धतियों से हल करने का प्रयास
क्या शामिल नहीं है
- कंप्यूटर विज़न के नवीनतम रुझान या विविध व्यावहारिक अनुप्रयोग क्षेत्रों (shape analysis, object tracking, action analysis, face recognition आदि) को शामिल नहीं किया गया है
- ऐसे विस्तृत अनुप्रयोगों के लिए सम्मेलन शोधपत्रों या विशेष पुस्तकों का संदर्भ अधिक प्रभावी है
आभार
- कंप्यूटर विज़न शिक्षा और शोध को प्रभावित करने वाले प्रोफेसरों, छात्रों और सहयोगियों के प्रति आभार व्यक्त किया गया है
- विभिन्न सम्मेलनों की शिक्षण सामग्री, प्रयोगों, अध्याय-वार सहयोग, कवर डिज़ाइन आदि में मिले सहयोग के लिए विस्तृत धन्यवाद दिया गया है
- प्रत्येक लेखक ने परिवार और करीबी लोगों के निरंतर समर्थन के लिए भी धन्यवाद व्यक्त किया है
उद्धरण जानकारी
- पुस्तक का उद्धरण देने के लिए उपयोगी BibTeX प्रारूप प्रदान किया गया है
शिक्षकों के लिए संसाधन
- पुस्तक का मुद्रित संस्करण MIT Press से खरीदा जा सकता है
- पुस्तक से जुड़े लेक्चर स्लाइड्स ऑनलाइन उपलब्ध कराए गए हैं
संदर्भ ग्रंथसूची
- कंप्यूटर विज़न, मशीन लर्निंग, सिग्नल प्रोसेसिंग, ज्यामिति, विज़न साइंस आदि से संबंधित प्रमुख क्लासिकल और नवीन पुस्तकों की सूची दी गई है
1 टिप्पणियां
Hacker News की राय
"On Research, Writing and Speaking" नाम की किताब में एक दिलचस्प हिस्सा है। "यह काफ़ी मुश्किल लग रहा है।" सही बात। अब सिर्फ़ स्मार्ट होने भर से काम नहीं चलता। ग्रेजुएट स्कूल में मेहनत करने वाला व्यक्ति आगे निकल जाता है — यह बात साझा की गई
पिछले 2 वर्षों के तकनीकी बदलावों के कारण, machine learning, खासकर computer vision क्षेत्र की पुरानी सामग्री अभी भी मान्य है या नहीं — इस पर उद्योग में काम कर रहे किसी व्यक्ति से टिप्पणी मांगी गई
यह अब भी पूरी तरह मान्य है। नई techniques भी बुनियादी तौर पर उसी foundation पर बनी प्रगति हैं। बल्कि बुनियादी concepts और पारंपरिक algorithms को ज़्यादा पढ़ना बेहतर है। Hough transform, canny edge, sift, Harris corner जैसी classic techniques को अच्छी तरह समझना ज़रूरी है; तभी किसी को असली expert कहा जा सकता है। सिर्फ़ ट्रेंडिंग tech keywords याद करके API जोड़ने वाले developers से यही कौशल का फर्क पैदा करता है
आज भी ऐसे systems में, जहाँ GPU acceleration मुश्किल है, "classic" computer vision techniques अनिवार्य हैं। मैं resource-constrained environments में Simultaneous localization and mapping समस्याओं पर काम करने वाला practitioner हूँ। Structure from Motion वाला अध्याय ज़रूर पढ़ने का इरादा है
"Writing this book" वाला हिस्सा ऐसा लग सकता है जैसे LLM ने पांडुलिपि का 2/3 हिस्सा लिखा हो। असल मतलब शायद यह है कि LLM के कारण लिखने के लिए सामग्री बढ़ी, इसलिए किताब लंबी हुई — इसे थोड़ा और स्पष्ट करना अच्छा होगा
computer vision क्षेत्र में एक और अच्छी किताब के रूप में नीचे वाली किताब की सिफारिश की गई
इस किताब की इतनी तारीफ़ की गई कि यक़ीन करना मुश्किल है कि यह मुफ़्त में उपलब्ध कराई गई है
बिल्कुल सही बात। क्या किसी ने इसे PDF के रूप में डाउनलोड करने का तरीका ढूँढा है? मेरे हिसाब से पढ़ाई करते समय निजी notes या reference material छोड़ना बहुत ज़रूरी होता है
machine learning, computer vision और robotics community में textbooks को मुफ़्त ऑनलाइन उपलब्ध कराने की संस्कृति वाकई शानदार है। इस क्षेत्र की top-level textbooks भी मुफ़्त ऑनलाइन मिल जाती हैं। दूसरे क्षेत्रों में अमेरिकी professor अक्सर नया edition खरीदने को कहते हैं, जिससे लागत बहुत बढ़ जाती है, लेकिन इस क्षेत्र में कम विकसित देशों सहित दुनिया भर के लोगों के लिए बेहतरीन सामग्री खुली रखी जाती है। lecture materials और videos भी बड़ी मात्रा में साझा किए जाते हैं
machine vision पर एक अच्छी किताब की सिफारिश मांगी गई। राय यह है कि effective machine vision ही नहीं, computer vision का मूल भी camera, optics और lighting के चुनाव में है। अगर input image की quality अच्छी नहीं होगी, तो output भी ख़राब ही होगा