कंप्यूटर विज़न की बुनियाद (2024)

(visionbook.mit.edu)

6 पॉइंट द्वारा GN⁺ 2025-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Foundations of Computer Vision इमेज प्रोसेसिंग और मशीन लर्निंग को साथ लेकर चलने वाली कंप्यूटर विज़न की एक बुनियादी पाठ्यपुस्तक है, जिसका लक्षित पाठकवर्ग सिर्फ शुरुआती undergraduate और graduate छात्र ही नहीं बल्कि अनुभवी practitioners भी हैं
नवंबर 2010 में MIT Press को पहली बार प्रस्तावित किए जाने के बाद इसकी रचना 10 साल से अधिक समय तक चलती रही, और छोटे व सारगर्भित अध्याय बनाने का शुरुआती लक्ष्य इस क्षेत्र के बदलते स्वरूप के साथ लगातार फैलता गया
2012 की deep learning क्रांति ने पुराने विचारों को वास्तविक implementations से जोड़ने के लिए ज़रूरी tools दिए, और कुछ शुरुआती अवधारणाएँ जो एक समय पीछे छूट गई थीं, समय के साथ फिर से महत्वपूर्ण हो गईं
यह किताब image formation, learning, signal·image processing, filters, multiscale representations, neural networks, generative models, 3D geometry, motion, scene understanding, और शोधकर्ताओं के लिए सलाह सहित कुल 15 Part में संगठित है
यह नवीनतम computer vision उपलब्धियों की पूरी सूची देने या shape analysis, object tracking, human pose analysis, face recognition जैसे विषयों में बहुत गहराई तक जाने के बजाय, विभिन्न applications को समझने के लिए आवश्यक बुनियादी अवधारणाओं पर ध्यान देती है

यह किताब किन पाठकों के लिए है

Foundations of Computer Vision कंप्यूटर विज़न के बुनियादी विषयों को इमेज प्रोसेसिंग और मशीन लर्निंग के नज़रिए से समझाती है
इसके मुख्य पाठक कंप्यूटर विज़न में प्रवेश करने वाले undergraduate और graduate छात्र हैं, लेकिन इसे अनुभवी practitioners के लिए भी उपयोगी बनाने का लक्ष्य रखा गया है
अवधारणाओं की सहज समझ बनाने के लिए इसमें बहुत-सी visualizations शामिल हैं
शुरुआत में एक बड़ी किताब की योजना थी जो इस क्षेत्र को व्यापक रूप से कवर करे, लेकिन computer vision का दायरा बहुत बड़ा होने के कारण इसे एक छोटी किताब की दिशा में मोड़ा गया
- हर अध्याय को 5 पेज से कम रखने की कोशिश की गई
- इस सीमा ने प्रत्येक विषय में समझ के लिए ज़रूरी महत्वपूर्ण अवधारणाओं पर ध्यान केंद्रित करने में मदद की
- छोटी किताब लिखने का लक्ष्य अंततः पूरा नहीं हो सका

10 साल से अधिक चला लेखन का सफर

इस किताब का विचार पहली बार 24 नवंबर 2010 को MIT Press को प्रस्तावित किया गया था
लेखन प्रक्रिया रैखिक नहीं थी; पांडुलिपि सिर्फ बढ़ती ही नहीं गई, बल्कि एक समय कम हुई और फिर दोबारा बढ़ी
पूरे काम में 10 साल से अधिक समय लगा
लेखन के दौरान बहुत-से उदाहरण बनाए और सुधारे गए, ताकि पाठक उदाहरणों को खुद दोहराकर सीख सकें

deep learning के बाद भी जीवित पुराने विचार

पिछले 10 सालों में computer vision बहुत बदल चुका है, लेकिन आज की विधियों की जड़ें पुराने computer vision और AI के इतिहास में गहराई से जुड़ी हैं
नाम बदल गए हों और कुछ नए विचार सामने आए हों, फिर भी आज की विधियाँ पुराने विचारों से कटी हुई नहीं हैं
यह किताब कई अवधारणाओं के पीछे मौजूद एकीकृत विषयों पर ज़ोर देती है
इसके केंद्रीय रूपकों में से एक है कई view
- किसी वास्तविक भौतिक दृश्य को अलग-अलग कोणों, sensors और समय पर देखना
- कई views को जोड़कर उसके नीचे की वास्तविकता को समझना
- किताब भी कई दृष्टिकोणों को मिलाकर computer vision की बुनियाद खोजने की संरचना अपनाती है
2012 की deep learning क्रांति ने computer vision की नींव को और मजबूत किया और इस क्षेत्र के शुरुआती दौर में प्रस्तावित कई विचारों को काम करने वाली implementations में बदलने के लिए tools दिए
deep learning के बाद कुछ शुरुआती विचार एक समय के लिए भुला दिए गए, लेकिन समय के साथ उनमें से कई फिर लौट आए

15 Part में किताब का दायरा

अधिकांश अध्याय पहले आए विषयों की समझ पर आधारित हैं, इसलिए इसे क्रम से पढ़ना बेहतर है
Part I: vision problems का परिचय, उनका सामाजिक संदर्भ, प्रेरक विषय, सरल vision systems, और बुनियादी गणितीय tools
Part II: image formation की प्रक्रिया
Part III: vision examples के माध्यम से learning की बुनियाद और व्यापक रूप से लागू होने वाली अवधारणाएँ
Part IV: computer vision की नींव बनने वाले signal और image processing का परिचय
Part V: Gaussian kernels, binomial filters, image derivatives, Laplacian filter, temporal filters जैसे linear filters और उनके applications
Part VI: multiscale image representations
Part VII: vision के लिए neural networks
- convolutional neural networks
- recurrent neural networks
- transformers
- विशेष architectures के बजाय मुख्य सिद्धांतों पर ध्यान
Part VIII: images के statistical models और graphical models
Part IX: neural network युग की दो शक्तिशाली modeling approaches
- generative modeling, statistical image models को कवर करती है जो natural image formation और उचित geometric rules का पालन करने वाली synthetic images से जुड़ी हैं
- representation learning, vector embeddings जैसे images के उपयोगी abstract representations खोजती है
Part X: learning-based vision systems बनाते समय आने वाली चुनौतियाँ
Part XI: 2D images से 3D world structure को पुनर्निर्मित करने के लिए geometric tools और उनके उपयोग
Part XII: sequence processing और motion measurement
Part XIII: scene understanding और object detection
Part XIV: प्रस्तुतिकरण, paper writing, और प्रभावी researcher mindset पर junior researchers के लिए सलाह
Part XV: Part I में प्रस्तुत सरल visual system पर वापस लौटते हुए, किताब की तकनीकों को toy problems पर लागू करना

किन बातों को जानबूझकर गहराई से नहीं लिया गया है

यह किताब आधुनिक computer vision की सबसे नई उपलब्धियों की समीक्षा नहीं देती
shape analysis, object tracking, human pose analysis, face recognition जैसे कई applications को गहराई से नहीं कवर करती
ऐसे application विषयों के लिए नवीनतम computer vision conference papers और specialist monographs अधिक उपयुक्त हैं
किताब का फोकस विभिन्न applications के नवीनतम results पर नहीं, बल्कि बुनियादी अवधारणाओं पर है

साथ में उल्लेखित संबंधित किताबें

सामान्य computer vision पाठ्यपुस्तकों के रूप में इन किताबों का उल्लेख है
- Computer Vision: A Modern Approach
- Rick Szeliski की Computer Vision: Algorithms and Applications
physics-based foundations के लिए Horn की Robot Vision का उल्लेख है
David Marr की Vision को ऐसी किताब बताया गया है जिसने computer vision में प्रवेश की प्रेरणा दी, और जिसे उत्कृष्ट अंतर्दृष्टि व लेखन के लिए सराहा गया है
multi-camera vision geometry के लिए Hartley और Zisserman की Multiple View Geometry in Computer Vision का विस्तृत उल्लेख है
3D geometry के संदर्भ में Koenderink की Solid Shape, Faugeras की Three-Dimensional Computer Vision, और Trucco व Verri की Introductory Techniques for 3D Computer Vision का उल्लेख है
learning से संबंधित पाठ्यपुस्तकों में Mackay, Bishop, Murphy, और Goodfellow·Bengio·Courville की किताबों का उल्लेख है
vision के probabilistic models के लिए Prince की पाठ्यपुस्तक का उल्लेख है
human visual perception के लिए Steve Palmer की Vision Science: Photons to Phenomenology को महत्वपूर्ण माना गया है
low-level vision के लिए Granlund और Knutsson की Signal Processing for Computer Vision, और high-level vision के लिए Ullman की High-level Vision का उल्लेख है
प्रकाश और vision पर Minnaert की Light and Color in the Outdoors का उल्लेख है

उद्धरण जानकारी और course materials

किताब के citation के लिए BibTeX entry में निम्न जानकारी शामिल है
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
प्रिंट संस्करण MIT Press से खरीदा जा सकता है
instructors के लिए slides Dropbox से डाउनलोड की जा सकती हैं

1 टिप्पणियां

GN⁺ 2025-06-16

Hacker News की राय

On Research, Writing and Speaking में एक दिलचस्प हिस्सा है: “यह कठिन काम जैसा लगता है।” सही है। अब यह होशियारी का सवाल नहीं रह जाता। इस स्तर पर आपके आसपास के सभी लोग भी होशियार होते हैं। ग्रेजुएट स्कूल में मेहनत करने वाला व्यक्ति आगे निकलता है
- वाकई गहरी बात है। हर कोई उस चरण तक पहुँचता है जहाँ सिर्फ होशियारी के दम पर टिके रहना अब पर्याप्त नहीं होता
  बहुत से लोग यह बात यूनिवर्सिटी में प्रवेश करते समय समझ जाते हैं, लेकिन अंडरग्रेजुएट में सीखने की सामग्री स्पष्ट होती है और उसकी एक सीमा होती है, इसलिए कुछ हद तक काम चल सकता है। इसके उलट PhD में लगभग कोई ऊपरी सीमा नहीं होती, हर हफ्ते पढ़ने के लिए तय संख्या में पेपर नहीं होते, और “यह परीक्षा में नहीं आएगा” जैसी कोई बात नहीं होती। ज्यादा होशियार होने का रिटर्न सपाट नहीं होता; बस कोई छत ही नहीं होती। आप और पढ़ सकते हैं, साहित्य की बाढ़ के साथ बने रह सकते हैं, और प्रयोगों व तरीकों को लगातार बेहतर कर सकते हैं
  साथ ही soft skills और network भी चाहिए। कॉन्फ्रेंस में जाकर community की दिशा समझनी होती है, लोगों से मिलकर coffee पीनी या dinner करना होता है। अंडरग्रेजुएट की तरह निर्देशों का इंतज़ार करने के बजाय खुद पहल करनी होती है, और मौजूदा तरीकों के प्रति पर्याप्त रूप से संशयवादी और आलोचनात्मक रहते हुए ऐसे नए विचार देने होते हैं जो community को समझ में आएँ और स्वीकार्य लगें, साथ ही relevant और दिलचस्प भी हों
  lectures और exams से मिलने वाली बाहरी synchronization के बिना अपना समय खुद manage करना होता है और deadlines व routines तय करने होते हैं। इन चीज़ों की असल में कोई ऊपरी सीमा नहीं होती और अपेक्षाएँ भी अस्पष्ट होती हैं। आप पर्याप्त thorough काम कर चुके हों, फिर भी reviewers को novelty न लगे या वह मौजूदा trend से ठीक से match न करे, इस वजह से पहली बार rejection मिल सकता है
  आखिरकार PhD किसी को भी उसकी मानसिक सीमा तक धकेल सकती है। यह निराशाजनक है, और कई PhD students के लिए बदनाम रूप से कठिन दौर होता है। बेशक अगर लक्ष्य सिर्फ degree हासिल करना है तो “टिके रहने” की strategy भी संभव है, लेकिन academic career की सोच रखने वालों से आम तौर पर minimum standard से अधिक की उम्मीद होती है, और खासकर उन लोगों से जो अंडरग्रेजुएट में अच्छे grades के सहारे टिके रहे थे
- अंडरग्रेजुएट के तीसरे साल में, मेहनत करने पर भी ऐसा लगता था कि classes के साथ नहीं चल पा रहा हूँ। यह एक engineering program था जिसमें high school grades औसतन 90% के आसपास लेकर लोग दाखिल होते थे, और यह इतना कठिन था कि दूसरे साल तक 75% students बीच में छोड़ चुके थे
- काश graduate school के समय किसी ने मुझे यह सब बताया होता। एक सफल graduate student कैसे बनें यह सीखने में बहुत लंबा समय लगा, और सच कहूँ तो school खत्म करने के बाद ही ठीक से समझ आया
इस क्षेत्र की एक और अच्छी किताब यह है: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- एक और representative किताब Szeliski की Computer Vision 2nd Ed का 2022 edition है: https://szeliski.org/Book/
  Forsyth & Ponce भी अच्छी है, लेकिन अब कुछ पुरानी हो चुकी है। 3D की classic किताब अब भी Hartley & Zisserman की Multiple View Geometry है
यह देखकर हैरानी होती है कि यह किताब free में उपलब्ध है। जिसने भी इसे public किया है, लेखक हों या publisher, उनका आभार
- machine learning, computer vision, robotics communities में किताबों को online free उपलब्ध कराने की संस्कृति सच में बहुत अच्छी है। इस क्षेत्र की top-tier textbooks free में देखी जा सकती हैं
  यह अमेरिका में उन दूसरे क्षेत्रों से काफी अलग है जहाँ professors latest edition textbook को सैकड़ों dollars में खरीदने के लिए practically मजबूर करते हैं। इसकी वजह से कम आर्थिक साधन वाले देशों के लोग भी दुनिया में कहीं से भी बेहतरीन resources तक पहुँच सकते हैं। lecture materials और videos भी अक्सर online share किए जाते हैं
- बिल्कुल सही, और मैं भी आभार में शामिल हूँ। हालांकि जानना चाहूँगा कि क्या PDF के रूप में download करने का कोई तरीका मिला है। मेरा मानना है कि study material पढ़ते समय notes और reference marks लगाने की सुविधा होनी चाहिए
“Writing this book” section गलती से ऐसा पढ़ा जा सकता है मानो manuscript के 2/3 हिस्से में LLM इस्तेमाल हुआ हो
शायद मतलब यह है कि LLM ने लिखने के लिए कहीं ज्यादा सामग्री उपलब्ध कराई, लेकिन इसे स्पष्ट कर देना बेहतर होगा
- मुझे ऐसा नहीं पढ़ता। असल में ChatGPT पहला tool था जो लेखन में मदद कर सकता था, और इस किताब का 1/3 से कम हिस्सा ही ChatGPT public होने के बाद लिखा गया था
  देखने में ऐसा लगता है जैसे graph पर machine learning/artificial intelligence क्षेत्र की महत्वपूर्ण घटनाएँ mark की गई हों
इस क्षेत्र में काम करने वाले किसी व्यक्ति के नज़रिए से, यह सामग्री अब भी कितनी valid है, यह जानना चाहूँगा। बाहर से देखने पर लगता है कि computer vision सहित machine learning का बड़ा हिस्सा पिछले 2 वर्षों की प्रगति से पूरी तरह हिल गया है
- यह अब भी बहुत valid है। हाल की techniques में सच में revolutionary कुछ नहीं है, सब उसी foundation पर आधारित हैं। बल्कि मुझे लगता है कि और पुरानी किताबें भी पढ़ लेना अच्छा है
  Hough transform, Canny edge, SIFT, Harris corner जैसे classical तरीकों से बने कई सचमुच profitable computer vision applications हैं। अगर आप बिना basic understanding के buzzwords बोलकर API जोड़ने वाले व्यक्ति जैसे नहीं, बल्कि एक गंभीर expert जैसे दिखना चाहते हैं, तो ये चीज़ें जाननी होंगी
- अब भी बहुत relevant है। academia के बाहर इस्तेमाल होने वाला अधिकांश computer vision अभी भी पुरानी सामग्री या classical computer vision algorithms पर आधारित है
  latest models और techniques इस्तेमाल करने के मौके उम्मीद से कम मिलते हैं। अक्सर वे इतने relevant नहीं होते, या केवल बहुत specific cases में fit बैठते हैं, या शुरुआत से ही इतनी complexity की जरूरत नहीं होती
- खासकर उन systems में जहाँ GPU acceleration आसानी से इस्तेमाल नहीं किया जा सकता, “classical” computer vision से हल करने वाली बहुत सी समस्याएँ अब भी हैं। सीमित compute resources वाले platforms पर simultaneous localization and mapping (SLAM) करने वाला practitioner होने के नाते, मैं Structure from Motion chapter जरूर पढ़ने वाला हूँ
जानना चाहूँगा कि क्या इस किताब पर आधारित कोई computer vision course है। अगर videos जैसे resources हों तो बताइए
machine vision पर कोई अच्छी किताब recommend करवा चाहता हूँ। मेरा मानना है कि effective machine vision, और आगे चलकर computer vision की बुनियाद सही camera, optics और lighting चुनने में है। input खराब हो तो output भी खराब होगा, इसलिए high-quality image जरूरी है
- क्या आप एक-दो ऐसे use cases बता सकते हैं जहाँ इन elements ने वास्तव में बड़ा फर्क पैदा किया हो?

कंप्यूटर विज़न की बुनियाद (2024)

यह किताब किन पाठकों के लिए है

10 साल से अधिक चला लेखन का सफर

deep learning के बाद भी जीवित पुराने विचार

15 Part में किताब का दायरा

किन बातों को जानबूझकर गहराई से नहीं लिया गया है

साथ में उल्लेखित संबंधित किताबें

उद्धरण जानकारी और course materials

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय