6 पॉइंट द्वारा GN⁺ 2025-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कंप्यूटर विज़न की बुनियाद को इमेज प्रोसेसिंग और मशीन लर्निंग के दृष्टिकोण से कवर करने वाली शुरुआती और मध्यवर्ती पाठकों के लिए पुस्तक
  • मुख्य अवधारणाओं पर ध्यान केंद्रित करने के लिए हर अध्याय को छोटा और स्पष्ट रखा गया है
  • डीप लर्निंग क्रांति के बाद आए बदलावों और क्लासिकल आइडियाज़ के पुनर्गठन की प्रक्रिया को पुस्तक-लेखन के अनुभव के साथ समझाया गया है
  • 15 भागों में इमेज प्रोसेसिंग, न्यूरल नेटवर्क, जनरेटिव मॉडल, सीक्वेंस प्रोसेसिंग, सीन अंडरस्टैंडिंग आदि सहित कंप्यूटर विज़न के व्यापक विषयों को शामिल किया गया है
  • नवीनतम शोध रुझानों या किसी विशेष अनुप्रयोग से अधिक आवश्यक सिद्धांत और सहज समझ विकसित करने पर केंद्रित संरचना

प्रस्तावना

  • सभी पिक्सेल्स को समर्पित

इस पुस्तक के बारे में

  • यह पुस्तक कंप्यूटर विज़न के मुख्य विषयों को इमेज प्रोसेसिंग और मशीन लर्निंग के नज़रिए से प्रस्तुत करती है
  • पाठक की सहज समझ विकसित करने के लिए इसमें विभिन्न विज़ुअलाइज़ेशन सामग्री शामिल है
  • मुख्य पाठक-वर्ग कंप्यूटर विज़न में प्रवेश करने वाले स्नातक और स्नातकोत्तर छात्र हैं, लेकिन यह अनुभवी प्रैक्टिशनर्स के लिए भी उपयोगी है
  • मूल रूप से लक्ष्य बहुत व्यापक सामग्री को कवर करना था, लेकिन कंप्यूटर विज़न क्षेत्र की विशालता के कारण हर अध्याय को 5 पृष्ठों के भीतर सीमित किया गया ताकि मुख्य अवधारणाओं पर ध्यान रखा जा सके
  • लेखक ईमानदारी से साझा करते हैं कि छोटी पुस्तक लिखने का लक्ष्य होने के बावजूद अंततः पुस्तक काफी बड़ी हो गई

पुस्तक-लेखन की प्रक्रिया

  • लेखन शुरू करते समय की मंशा और वास्तविक प्रक्रिया की गैर-रेखीयता को डेटा के माध्यम से दिखाया गया है, और इसे पूरा होने में 10 साल से अधिक समय लगा
  • लेखन के दौरान डीप लर्निंग क्रांति (2012) हुई, जिसके साथ पारंपरिक विधियों और आधुनिक दृष्टिकोणों के समेकन की प्रक्रिया आगे बढ़ी
  • शुरुआती डीप लर्निंग लोकप्रियता के कारण पहले के कई विचार कुछ समय के लिए भुला दिए गए, लेकिन समय के साथ मूलभूत अवधारणाएँ फिर से केंद्र में आईं
  • लेखक बताते हैं कि यह यात्रा कठिन थी, लेकिन विभिन्न उदाहरणों और प्रयोगों को स्वयं करके उन्होंने बहुत कुछ सीखा
  • कंप्यूटर विज़न और AI क्षेत्र की प्रमुख घटनाओं को पुस्तक-लेखन के समयक्रम के साथ बदलते हुए विज़ुअली दिखाया गया है

पुस्तक की संरचना

  • पिछले लगभग 10 वर्षों में कंप्यूटर विज़न क्षेत्र ने तेज़ प्रगति की है, और भले ही वर्तमान तरीके अतीत से पूरी तरह अलग लगते हों, पुस्तक ऐतिहासिक निरंतरता पर ज़ोर देती है
  • पूरी पुस्तक में एकीकृत थीम और दृष्टिकोण तथा अनेक परिप्रेक्ष्यों के महत्व को बार-बार रेखांकित किया गया है
  • पुस्तक 15 भागों में विभाजित है, और हर भाग कंप्यूटर विज़न के एक सुसंगत विषय पर केंद्रित है

प्रत्येक भाग का परिचय

  • Part I: कंप्यूटर विज़न समस्याओं के लिए प्रेरणा, सामाजिक संदर्भ, और गणितीय आधार का परिचय
  • Part II: इमेज बनने की प्रक्रिया
  • Part III: इमेज उदाहरणों के माध्यम से मशीन लर्निंग की बुनियादी अवधारणाओं की व्याख्या
  • Part IV: सिग्नल और इमेज प्रोसेसिंग का परिचय
  • Part V: उपयोगी linear filters (Gaussian kernel, binary filters, image derivatives, Laplacian, temporal filters) और उनके अनुप्रयोग
  • Part VI: multi-scale इमेज प्रतिनिधित्व
  • Part VII: कंप्यूटर विज़न के लिए न्यूरल नेटवर्क (convolutional neural networks, recurrent neural networks, transformers)
  • Part VIII: इमेज के सांख्यिकीय मॉडल और ग्राफ मॉडल
  • Part IX: जनरेटिव मॉडल और representation learning (जैसे vector embeddings) पर केंद्रित आधुनिक दृष्टिकोण
  • Part X: learning-based vision systems बनाते समय आने वाली चुनौतियाँ
  • Part XI: 3D संरचना पुनर्निर्माण के लिए ज्यामितीय उपकरण
  • Part XII: सीक्वेंस प्रोसेसिंग और मोशन मापन
  • Part XIII: सीन अंडरस्टैंडिंग और ऑब्जेक्ट डिटेक्शन
  • Part XIV: जूनियर शोधकर्ताओं के लिए प्रेज़ेंटेशन, पेपर लेखन, और प्रभावी शोध मानसिकता पर सलाह
  • Part XV: Part I में प्रस्तुत समस्याओं को पुस्तक में कवर की गई विभिन्न पद्धतियों से हल करने का प्रयास

क्या शामिल नहीं है

  • कंप्यूटर विज़न के नवीनतम रुझान या विविध व्यावहारिक अनुप्रयोग क्षेत्रों (shape analysis, object tracking, action analysis, face recognition आदि) को शामिल नहीं किया गया है
  • ऐसे विस्तृत अनुप्रयोगों के लिए सम्मेलन शोधपत्रों या विशेष पुस्तकों का संदर्भ अधिक प्रभावी है

आभार

  • कंप्यूटर विज़न शिक्षा और शोध को प्रभावित करने वाले प्रोफेसरों, छात्रों और सहयोगियों के प्रति आभार व्यक्त किया गया है
  • विभिन्न सम्मेलनों की शिक्षण सामग्री, प्रयोगों, अध्याय-वार सहयोग, कवर डिज़ाइन आदि में मिले सहयोग के लिए विस्तृत धन्यवाद दिया गया है
  • प्रत्येक लेखक ने परिवार और करीबी लोगों के निरंतर समर्थन के लिए भी धन्यवाद व्यक्त किया है

उद्धरण जानकारी

  • पुस्तक का उद्धरण देने के लिए उपयोगी BibTeX प्रारूप प्रदान किया गया है

शिक्षकों के लिए संसाधन

  • पुस्तक का मुद्रित संस्करण MIT Press से खरीदा जा सकता है
  • पुस्तक से जुड़े लेक्चर स्लाइड्स ऑनलाइन उपलब्ध कराए गए हैं

संदर्भ ग्रंथसूची

  • कंप्यूटर विज़न, मशीन लर्निंग, सिग्नल प्रोसेसिंग, ज्यामिति, विज़न साइंस आदि से संबंधित प्रमुख क्लासिकल और नवीन पुस्तकों की सूची दी गई है

1 टिप्पणियां

 
GN⁺ 2025-06-16
Hacker News की राय
  • "On Research, Writing and Speaking" नाम की किताब में एक दिलचस्प हिस्सा है। "यह काफ़ी मुश्किल लग रहा है।" सही बात। अब सिर्फ़ स्मार्ट होने भर से काम नहीं चलता। ग्रेजुएट स्कूल में मेहनत करने वाला व्यक्ति आगे निकल जाता है — यह बात साझा की गई

    • यह सचमुच बहुत गहरी बात है। एक बिंदु के बाद सभी को महसूस होता है कि केवल ज्ञान काफ़ी नहीं है। बहुत से लोग यूनिवर्सिटी में दाख़िला लेते समय ऐसी दीवार से टकराते हैं। लेकिन यूनिवर्सिटी में पढ़ाई की सीमा तय होती है, इसलिए किसी न किसी तरह क्षमता के दम पर टिके रहा जा सकता है। दूसरी ओर, PhD कोर्स में पढ़ने की मात्रा की कोई सीमा नहीं होती। न कोई तय reading load होता है, न ही "सिलेबस के बाहर" जैसा कुछ। पढ़ाई, प्रयोग, पेपर पढ़ना आदि जितना कर सकते हैं, उतना अनंत तक करना पड़ता है। सिर्फ़ स्मार्ट होना काफ़ी नहीं; soft skills, network और community context को समझना भी ज़रूरी है। community के लोगों के साथ meetings, भोजन और networking करते हुए संपर्क बनाए रखना पड़ता है। अपने दम पर motivation बनाए रखकर deadlines और routine संभालने पड़ते हैं। औपचारिक classes और exams से मिलने वाली motivation के उलट, यहाँ सब कुछ ख़ुद मैनेज करना होता है। मानदंड अस्पष्ट होते हैं, और अपेक्षाएँ लगभग असीमित। पहले के विपरीत, अस्वीकृति का अनुभव भी हो सकता है। PhD का दौर किसी के लिए भी अपनी सीमाओं को चुनौती देने वाला कठिन समय होता है। अगर लक्ष्य सिर्फ़ डिग्री पूरी करना हो, तो शायद जैसे-तैसे निकाला जा सकता है, लेकिन आमतौर पर academia में करियर का सपना देखने वाले छात्रों के लक्ष्य इससे बड़े होते हैं
  • पिछले 2 वर्षों के तकनीकी बदलावों के कारण, machine learning, खासकर computer vision क्षेत्र की पुरानी सामग्री अभी भी मान्य है या नहीं — इस पर उद्योग में काम कर रहे किसी व्यक्ति से टिप्पणी मांगी गई

    • यह अब भी पूरी तरह मान्य है। नई techniques भी बुनियादी तौर पर उसी foundation पर बनी प्रगति हैं। बल्कि बुनियादी concepts और पारंपरिक algorithms को ज़्यादा पढ़ना बेहतर है। Hough transform, canny edge, sift, Harris corner जैसी classic techniques को अच्छी तरह समझना ज़रूरी है; तभी किसी को असली expert कहा जा सकता है। सिर्फ़ ट्रेंडिंग tech keywords याद करके API जोड़ने वाले developers से यही कौशल का फर्क पैदा करता है

    • आज भी ऐसे systems में, जहाँ GPU acceleration मुश्किल है, "classic" computer vision techniques अनिवार्य हैं। मैं resource-constrained environments में Simultaneous localization and mapping समस्याओं पर काम करने वाला practitioner हूँ। Structure from Motion वाला अध्याय ज़रूर पढ़ने का इरादा है

  • "Writing this book" वाला हिस्सा ऐसा लग सकता है जैसे LLM ने पांडुलिपि का 2/3 हिस्सा लिखा हो। असल मतलब शायद यह है कि LLM के कारण लिखने के लिए सामग्री बढ़ी, इसलिए किताब लंबी हुई — इसे थोड़ा और स्पष्ट करना अच्छा होगा

    • मैंने इसे उस तरह नहीं पढ़ा। बल्कि ऐसा लगता है कि ChatGPT आने के बाद किताब का 1/3 से भी कम हिस्सा लिखा गया। ज़्यादा से ज़्यादा यह ML/AI क्षेत्र की प्रमुख घटनाओं को ग्राफ़ पर दिखाने जैसा लगता है
  • computer vision क्षेत्र में एक और अच्छी किताब के रूप में नीचे वाली किताब की सिफारिश की गई

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • एक और प्रमुख textbook के रूप में Szeliski की "Computer Vision 2nd Ed" (2022) भी सुझाई गई https://szeliski.org/Book/. Forsyth & Ponce की किताब भी अच्छी है, लेकिन थोड़ी पुरानी हो चुकी है। अगर 3D में रुचि है, तो Hartley & Zisserman की Multiple View Geometry अब भी एक classic है
  • इस किताब की इतनी तारीफ़ की गई कि यक़ीन करना मुश्किल है कि यह मुफ़्त में उपलब्ध कराई गई है

    • बिल्कुल सही बात। क्या किसी ने इसे PDF के रूप में डाउनलोड करने का तरीका ढूँढा है? मेरे हिसाब से पढ़ाई करते समय निजी notes या reference material छोड़ना बहुत ज़रूरी होता है

    • machine learning, computer vision और robotics community में textbooks को मुफ़्त ऑनलाइन उपलब्ध कराने की संस्कृति वाकई शानदार है। इस क्षेत्र की top-level textbooks भी मुफ़्त ऑनलाइन मिल जाती हैं। दूसरे क्षेत्रों में अमेरिकी professor अक्सर नया edition खरीदने को कहते हैं, जिससे लागत बहुत बढ़ जाती है, लेकिन इस क्षेत्र में कम विकसित देशों सहित दुनिया भर के लोगों के लिए बेहतरीन सामग्री खुली रखी जाती है। lecture materials और videos भी बड़ी मात्रा में साझा किए जाते हैं

  • machine vision पर एक अच्छी किताब की सिफारिश मांगी गई। राय यह है कि effective machine vision ही नहीं, computer vision का मूल भी camera, optics और lighting के चुनाव में है। अगर input image की quality अच्छी नहीं होगी, तो output भी ख़राब ही होगा

    • क्या कोई ऐसे cases या use examples साझा कर सकता है जहाँ इन तत्वों ने वास्तव में फर्क पैदा किया हो?