मशीन लर्निंग का विज़ुअल परिचय (2015)

(r2d3.us)

6 पॉइंट द्वारा GN⁺ 2026-03-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

यह दृश्य रूप में समझाता है कि कंप्यूटर statistical learning तकनीकों का उपयोग करके डेटा से पैटर्न को अपने-आप पहचानते हैं और prediction करते हैं
housing dataset का उपयोग करके New York और San Francisco के घरों में अंतर करने वाला मॉडल बनाने की प्रक्रिया को step-by-step विज़ुअलाइज़ करता है
decision tree को केंद्र में रखकर, split point, branch, leaf node जैसी अवधारणाओं के माध्यम से learning और prediction की प्रक्रिया को ठोस रूप में दिखाता है
मॉडल की accuracy बढ़ाने की प्रक्रिया में overfitting की समस्या को दृश्य रूप में सामने लाता है, और training data तथा test data के अंतर को समझाता है
यह मशीन लर्निंग की मुख्य अवधारणाओं को सहज रूप से समझने के लिए बनाया गया एक interactive visualization learning resource है

मशीन लर्निंग की बुनियादी अवधारणाएँ

मशीन लर्निंग वह तकनीक है जिसमें कंप्यूटर statistical learning techniques लागू करके डेटा के पैटर्न को अपने-आप पहचानते हैं और उसके आधार पर सटीक prediction करते हैं
उदाहरण के तौर पर housing data का उपयोग करके New York और San Francisco के घरों को classify करने वाला मॉडल बनाया जाता है
इस तरह का classification कार्य मशीन लर्निंग में classification समस्या कहलाता है

सहज विभाजन और feature

San Francisco में पहाड़ियाँ अधिक होने के कारण elevation ऊँचा होता है
- इसलिए घरों की elevation दोनों शहरों को अलग करने का उपयोगी मानदंड हो सकती है
- उदाहरण के लिए, अगर elevation 240 feet से अधिक हो तो उसे San Francisco के रूप में classify किया जा सकता है
इसमें price per square foot जोड़ने पर और अधिक सटीक विभाजन संभव होता है
- अगर elevation 240 feet या उससे कम हो और प्रति वर्गफुट कीमत $1776 या उससे अधिक हो, तो उसे New York के रूप में classify किया जाता है
डेटा के प्रत्येक dimension को feature, predictor, या variable कहा जाता है

boundary और मॉडल learning

elevation और price के आधार पर scatterplot पर boundary को दृश्य रूप में दिखाया जा सकता है
डेटा की boundary को गणितीय रूप से पहचानना statistical learning का मूल है
वास्तविक dataset में 7 dimension होते हैं, और इन्हीं के आधार पर मॉडल को train किया जाता है
- scatterplot matrix के माध्यम से हर variable के बीच संबंधों को दृश्य रूप में देखा जाता है

Decision Tree का काम करने का तरीका

मशीन लर्निंग डेटा में पैटर्न खोजने के लिए statistical learning का उपयोग करती है, और उनमें से एक तरीका decision tree है
decision tree एक बार में एक variable के आधार पर if-then rules लागू करके डेटा को विभाजित करता है
उदाहरण: “अगर elevation किसी निश्चित मान से अधिक हो, तो San Francisco” जैसा नियम लागू करना
ऐसे branch point को split point कहा जाता है, और यही tree की हर branch बनाता है

विभाजन की accuracy और trade-off

शुरुआती विभाजन (जैसे 240 feet का मानदंड) कुछ San Francisco घरों को गलत classify करता है (false negatives)
इसके उलट, अगर सभी San Francisco घरों को शामिल करने की कोशिश करें, तो कुछ New York घर भी शामिल हो जाते हैं (false positives)
best split वह होता है जिसमें हर branch का डेटा यथासंभव homogeneous हो
- इसे मापने के लिए Gini index, cross entropy जैसी विधियाँ उपयोग की जाती हैं

recursion और tree का बढ़ना

algorithm हर subset पर इसी प्रक्रिया को दोहराते हुए recursively tree को बढ़ाता है
कम elevation वाले हिस्से में price per square foot, और अधिक elevation वाले हिस्से में total price अगला split variable चुना जाता है
split दोहराने पर tree की prediction accuracy बढ़ती जाती है
- एक अतिरिक्त स्तर जोड़ने पर 84%, कई स्तर जोड़ने पर 96% तक सुधार
- सभी branch जोड़ देने पर 100% accuracy भी संभव है
अंतिम split point leaf node बन जाते हैं, और हर node बहुसंख्यक class के आधार पर घरों को classify करता है

prediction और validation

trained decision tree हर data point को tree की branch के अनुसार आगे बढ़ाते हुए शहर का prediction करता है
training में उपयोग किए गए डेटा को training data, और नए डेटा को test data कहा जाता है
मॉडल training data पर पूरी तरह सही काम कर सकता है, लेकिन नए डेटा पर उसका performance गिर सकता है
इसका कारण overfitting है, यानी मॉडल ने अनावश्यक बारीकियाँ भी सीख ली हैं

सारांश और अगला चरण

मशीन लर्निंग डेटा की boundary खोजकर पैटर्न पहचानती है और prediction करती है
decision tree if-then rules के माध्यम से डेटा को classify करने का एक प्रमुख तरीका है
overfitting वह स्थिति है जिसमें मॉडल अर्थहीन विभाजनों तक सीख लेता है और generalization performance घट जाती है
अगले लेख में overfitting और bias/variance tradeoff के संबंध पर चर्चा की जाएगी

मशीन लर्निंग का विज़ुअल परिचय (2015)

मशीन लर्निंग की बुनियादी अवधारणाएँ

सहज विभाजन और feature

boundary और मॉडल learning

Decision Tree का काम करने का तरीका

विभाजन की accuracy और trade-off

recursion और tree का बढ़ना

prediction और validation

सारांश और अगला चरण

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.