1 पॉइंट द्वारा GN⁺ 2023-09-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GZIP का उपयोग करके MNIST dataset पर 10 पंक्तियों से कम कोड में 78% accuracy हासिल करने पर लेख
  • लेखक ज़ोर देते हैं कि इस पोस्ट की नवीनता state-of-the-art परिणाम हासिल करना नहीं, बल्कि compression को एक अनोखे और model-free classification tool के रूप में इस्तेमाल करने की क्षमता दिखाना है
  • दिए गए कोड में GZIP और NCD (Normalized Compression Distance) को similarity metric के रूप में, और classification के लिए k-NN (k-Nearest Neighbors) का उपयोग किया गया है
  • GZIP का उपयोग अलग-अलग data point की complexity या information content मापने के tool के रूप में किया जाता है, और NCD यह बताने के लिए normalized measure देता है कि दो data point कितने समान हैं
  • algorithm सभी training sample के साथ NCD की गणना करता है, उन्हें sort करता है, और सबसे छोटी दूरी वाले k मान चुनता है। इन k=5 nearest neighbors में से majority class को test sample के label के रूप में predict किया जाता है
  • लेखक मानते हैं कि यह approach computationally महंगी है, और accuracy मापने के लिए test image के केवल एक हिस्से का उपयोग किया गया था
  • बेहतर समझ के लिए लेखक ने algorithm का कम छिपा हुआ version भी दिया है
  • लेखक 2019 में Andreas Kirsch द्वारा अपनाए गए एक समान approach का उल्लेख करते हैं, जिसने लगभग 35% accuracy हासिल की थी
  • data compression में text generation पर एक पोस्ट पढ़ने और parameter-free text classification पर एक paper पढ़ने के बाद लेखक ने image classification mechanism के रूप में compression का उपयोग करना शुरू किया
  • लेखक पहले edge computer vision के लिए image compression पर काम कर चुके थे और इस तकनीक को MNIST dataset पर लागू करने में उनकी रुचि थी

1 टिप्पणियां

 
GN⁺ 2023-09-21
Hacker News टिप्पणियाँ
  • GZIP का उपयोग करके MNIST dataset पर 10 लाइनों से कम कोड में 78% accuracy हासिल करने वाले लेख पर चर्चा
  • टिप्पणीकारों ने कोड में distance function को और सरल metrics से बदलकर देखा, जिससे accuracy बढ़ी और computation की जरूरत कम हुई
    • Euclidean distance ने image को binarize करने के बाद लगभग 0.5 सेकंड में 93% accuracy हासिल की
    • Jaccard distance ने image को binarize करने के बाद लगभग 0.7 सेकंड में 94% accuracy हासिल की
    • Dice dissimilarity ने image को binarize करने के बाद लगभग 0.8 सेकंड में 94% accuracy हासिल की
  • तुलना के लिए अन्य तकनीकों में Linear SVC ने 92% accuracy, SVC rbf ने 96.4% accuracy, SVC poly ने 94.5% accuracy, logistic regression ने 89% accuracy, और naive Bayes ने 81% accuracy दिखाई
  • टिप्पणीकारों का सुझाव है कि भले ही कोड elegant और concise हो, MNIST पर 78% accuracy कम मानी जाती है, और Tensorflow में लिखा गया एक dummy model भी आसानी से 90% accuracy हासिल कर सकता है
  • MNIST पर सर्वश्रेष्ठ models की ranking 99.87% accuracy तक जाती है
  • कुछ टिप्पणीकारों ने सुझाव दिया कि normalized compression distance (NCD) को Euclidean distance से बदलने पर test accuracy में 15% बढ़ोतरी हो सकती है और काफी computation बच सकती है
  • कुछ टिप्पणीकारों ने कहा कि MNIST dataset को अब retire कर देना चाहिए, क्योंकि उस पर high accuracy हासिल करना अब अपेक्षाकृत आसान हो गया है
  • highly compressed data में patterns खोजकर बेहतर compression की संभावना पर चर्चा हुई
  • कुछ टिप्पणीकार general-purpose compressors और alternative language models के लिए information distance measures में रुचि दिखाते हैं
  • एक टिप्पणीकार ने candidate sequences के बीच discrete convolution के साथ normalized compression distance (gzip) को जोड़ने वाले attention mechanism के उपयोग का उल्लेख किया