- यह दृश्य रूप में समझाता है कि कंप्यूटर statistical learning तकनीकों का उपयोग करके डेटा से पैटर्न को अपने-आप पहचानते हैं और prediction करते हैं
- housing dataset का उपयोग करके New York और San Francisco के घरों में अंतर करने वाला मॉडल बनाने की प्रक्रिया को step-by-step विज़ुअलाइज़ करता है
- decision tree को केंद्र में रखकर, split point, branch, leaf node जैसी अवधारणाओं के माध्यम से learning और prediction की प्रक्रिया को ठोस रूप में दिखाता है
- मॉडल की accuracy बढ़ाने की प्रक्रिया में overfitting की समस्या को दृश्य रूप में सामने लाता है, और training data तथा test data के अंतर को समझाता है
- यह मशीन लर्निंग की मुख्य अवधारणाओं को सहज रूप से समझने के लिए बनाया गया एक interactive visualization learning resource है
मशीन लर्निंग की बुनियादी अवधारणाएँ
- मशीन लर्निंग वह तकनीक है जिसमें कंप्यूटर statistical learning techniques लागू करके डेटा के पैटर्न को अपने-आप पहचानते हैं और उसके आधार पर सटीक prediction करते हैं
- उदाहरण के तौर पर housing data का उपयोग करके New York और San Francisco के घरों को classify करने वाला मॉडल बनाया जाता है
- इस तरह का classification कार्य मशीन लर्निंग में classification समस्या कहलाता है
सहज विभाजन और feature
- San Francisco में पहाड़ियाँ अधिक होने के कारण elevation ऊँचा होता है
- इसलिए घरों की elevation दोनों शहरों को अलग करने का उपयोगी मानदंड हो सकती है
- उदाहरण के लिए, अगर elevation 240 feet से अधिक हो तो उसे San Francisco के रूप में classify किया जा सकता है
- इसमें price per square foot जोड़ने पर और अधिक सटीक विभाजन संभव होता है
- अगर elevation 240 feet या उससे कम हो और प्रति वर्गफुट कीमत $1776 या उससे अधिक हो, तो उसे New York के रूप में classify किया जाता है
- डेटा के प्रत्येक dimension को feature, predictor, या variable कहा जाता है
boundary और मॉडल learning
- elevation और price के आधार पर scatterplot पर boundary को दृश्य रूप में दिखाया जा सकता है
- डेटा की boundary को गणितीय रूप से पहचानना statistical learning का मूल है
- वास्तविक dataset में 7 dimension होते हैं, और इन्हीं के आधार पर मॉडल को train किया जाता है
- scatterplot matrix के माध्यम से हर variable के बीच संबंधों को दृश्य रूप में देखा जाता है
Decision Tree का काम करने का तरीका
- मशीन लर्निंग डेटा में पैटर्न खोजने के लिए statistical learning का उपयोग करती है, और उनमें से एक तरीका decision tree है
- decision tree एक बार में एक variable के आधार पर if-then rules लागू करके डेटा को विभाजित करता है
- उदाहरण: “अगर elevation किसी निश्चित मान से अधिक हो, तो San Francisco” जैसा नियम लागू करना
- ऐसे branch point को split point कहा जाता है, और यही tree की हर branch बनाता है
विभाजन की accuracy और trade-off
- शुरुआती विभाजन (जैसे 240 feet का मानदंड) कुछ San Francisco घरों को गलत classify करता है (false negatives)
- इसके उलट, अगर सभी San Francisco घरों को शामिल करने की कोशिश करें, तो कुछ New York घर भी शामिल हो जाते हैं (false positives)
- best split वह होता है जिसमें हर branch का डेटा यथासंभव homogeneous हो
- इसे मापने के लिए Gini index, cross entropy जैसी विधियाँ उपयोग की जाती हैं
recursion और tree का बढ़ना
- algorithm हर subset पर इसी प्रक्रिया को दोहराते हुए recursively tree को बढ़ाता है
- कम elevation वाले हिस्से में price per square foot, और अधिक elevation वाले हिस्से में total price अगला split variable चुना जाता है
- split दोहराने पर tree की prediction accuracy बढ़ती जाती है
- एक अतिरिक्त स्तर जोड़ने पर 84%, कई स्तर जोड़ने पर 96% तक सुधार
- सभी branch जोड़ देने पर 100% accuracy भी संभव है
- अंतिम split point leaf node बन जाते हैं, और हर node बहुसंख्यक class के आधार पर घरों को classify करता है
prediction और validation
- trained decision tree हर data point को tree की branch के अनुसार आगे बढ़ाते हुए शहर का prediction करता है
- training में उपयोग किए गए डेटा को training data, और नए डेटा को test data कहा जाता है
- मॉडल training data पर पूरी तरह सही काम कर सकता है, लेकिन नए डेटा पर उसका performance गिर सकता है
- इसका कारण overfitting है, यानी मॉडल ने अनावश्यक बारीकियाँ भी सीख ली हैं
सारांश और अगला चरण
- मशीन लर्निंग डेटा की boundary खोजकर पैटर्न पहचानती है और prediction करती है
- decision tree if-then rules के माध्यम से डेटा को classify करने का एक प्रमुख तरीका है
- overfitting वह स्थिति है जिसमें मॉडल अर्थहीन विभाजनों तक सीख लेता है और generalization performance घट जाती है
- अगले लेख में overfitting और bias/variance tradeoff के संबंध पर चर्चा की जाएगी
अभी कोई टिप्पणी नहीं है.