- GZIP का उपयोग करके MNIST dataset पर 10 पंक्तियों से कम कोड में 78% accuracy हासिल करने पर लेख
- लेखक ज़ोर देते हैं कि इस पोस्ट की नवीनता state-of-the-art परिणाम हासिल करना नहीं, बल्कि compression को एक अनोखे और model-free classification tool के रूप में इस्तेमाल करने की क्षमता दिखाना है
- दिए गए कोड में GZIP और NCD (Normalized Compression Distance) को similarity metric के रूप में, और classification के लिए k-NN (k-Nearest Neighbors) का उपयोग किया गया है
- GZIP का उपयोग अलग-अलग data point की complexity या information content मापने के tool के रूप में किया जाता है, और NCD यह बताने के लिए normalized measure देता है कि दो data point कितने समान हैं
- algorithm सभी training sample के साथ NCD की गणना करता है, उन्हें sort करता है, और सबसे छोटी दूरी वाले k मान चुनता है। इन k=5 nearest neighbors में से majority class को test sample के label के रूप में predict किया जाता है
- लेखक मानते हैं कि यह approach computationally महंगी है, और accuracy मापने के लिए test image के केवल एक हिस्से का उपयोग किया गया था
- बेहतर समझ के लिए लेखक ने algorithm का कम छिपा हुआ version भी दिया है
- लेखक 2019 में Andreas Kirsch द्वारा अपनाए गए एक समान approach का उल्लेख करते हैं, जिसने लगभग 35% accuracy हासिल की थी
- data compression में text generation पर एक पोस्ट पढ़ने और parameter-free text classification पर एक paper पढ़ने के बाद लेखक ने image classification mechanism के रूप में compression का उपयोग करना शुरू किया
- लेखक पहले edge computer vision के लिए image compression पर काम कर चुके थे और इस तकनीक को MNIST dataset पर लागू करने में उनकी रुचि थी
1 टिप्पणियां
Hacker News टिप्पणियाँ