1 टिप्पणियां

 
GN⁺ 2023-07-15
Hacker News की राय
- लेखक compressed दस्तावेज़ों पर kNN लागू करने के लिए "normalized compression distance" (NCD) नामक distance function का उपयोग करते हैं।
- यह तरीका zero-shot classification कार्यों में BERT से बेहतर प्रदर्शन करता है।
- जब कई शब्द overlap करते हैं, तो Gzip मज़बूत होता है, लेकिन semantic similarity में DNN बेहतर है।
- नतीजे दिलचस्प हैं, लेकिन वे उतने दिलचस्प नहीं हैं जितने सुनाई देते हैं।
- distribution के दायरे से बाहर के data पर BERT अब भी बेहतर प्रदर्शन करता है।
- compression algorithm और ML model दोनों compression के रूप हैं, और संभव है कि कोई मूलभूत विशेषता हो जो मानव भाषा और data के प्रदर्शन को समझाती हो।
- लिंक दिए गए URL पर मौजूद पेपर की ओर जाना चाहिए।
- मिलते-जुलते text chunks को जोड़ने पर वे अन्य chunks की तुलना में बेहतर compress होते हैं।
- Gzip compression के लिए अधिक उपयुक्त हो सकता है क्योंकि यह input को ऐसे ढंग से represent करता है कि उसे पहचाना और label किया जा सके।
- "not" जैसे, वाक्य का अर्थ उलट देने वाले शब्दों के मामले में Gzip को कठिनाई हो सकती है।```