Highlights
- टूल्स का झुकाव Python, PyData, Pytorch और Gradient-boosted Decision Tree(GBDT) की ओर सिमट गया है
- टेबलर डेटा में deep learning अभी तक GBDT की जगह नहीं ले पाई है
- transformers, NLP पर हावी हैं और computer vision में convolutional neural network(CNN) के साथ प्रतिस्पर्धा शुरू कर चुके हैं
- प्रतियोगिताएँ computer vision, NLP, टेबलर डेटा, robotics, time-series analysis सहित कई शोध क्षेत्रों को कवर करती हैं
- single model solutions कभी-कभी जीतते हैं, लेकिन आम तौर पर बड़े ensemble जीतते हैं
- machine learning competitions के कई platform हैं, और अलग-अलग प्रतियोगिताओं के लिए बनाए गए दर्जनों sites भी हैं
- competitive machine learning की लोकप्रियता academia सहित लगातार बढ़ रही है
- विजेताओं में 50% solo winners हैं, और 50% पहली बार जीतने वाले हैं। 30% पहले दो या उससे अधिक बार जीत चुके हैं
- कुछ प्रतिभागी अपने solution को train करने के लिए hardware पर काफ़ी निवेश कर सकते हैं, लेकिन Google Colab जैसे मुफ़्त hardware का उपयोग करने वाले प्रतिभागी भी अब भी जीत सकते हैं
Competitive ML Landscape
- उल्लेखनीय प्रतियोगिताएँ और रुझान
- इनामी राशि के लिहाज़ से DrivenData का Snowcast Showdown(अमेरिकी Department of Homeland Development प्रायोजित)। $500k इनाम
- सबसे लोकप्रिय Kaggle की American Express Default Prediction थी। 4000 से अधिक टीमों ने भाग लिया। $100k इनाम। पहला स्थान पहली बार भाग लेने वाले solo प्रतिभागी ने जीता (neural net + LightGBM)
- सबसे बड़ी स्वतंत्र प्रतियोगिता Stanford की AI Audit Challenge थी
- सबसे बड़ा क्षेत्र computer vision था : environment, medicine
- दूसरा सबसे बड़ा क्षेत्र NLP था : NLP + search, NLP + Reinforcement Learning
- Sequential Decision-Making क्षेत्र भी बढ़ रहा है
- प्लेटफ़ॉर्म
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- अन्य रोचक platform : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Purpose
- अच्छी तरह संचालित प्रतियोगिताएँ
- हल करने लायक रोचक समस्या को training data के साथ उपलब्ध कराती हैं
- सक्षम संभावित प्रतिभागियों का समूह
- overfitting करने वाले प्रतिभागियों को नुकसान पहुँचाने वाला mechanism
- प्रतिभागियों के लिए समस्या-समाधान में वास्तविक प्रयास करने लायक पर्याप्त (वित्तीय) incentive
- विजेता solution की सार्वजनिक review (प्रतियोगिता समाप्त होने के बाद)
Winning Solutions
- Winning Toolkit : Python, दूसरे स्थान पर C++
- मुख्य Python packages
- PyData : Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT : LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation : Optuna
- Experiment Tracking : W&B
- Visualiation : matplotlib, seaborn
- NLP Toolkit : Tranformers
- Computer Vision Toolkit : Albumentations, OpenCV, pillow, scikit-image, timm
अभी कोई टिप्पणी नहीं है.