1 पॉइंट द्वारा GN⁺ 2023-07-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Twitter पर ध्यान खींचने वाला हालिया पेपर: "लेखक-रहित" टेक्स्ट क्लासिफिकेशन: कंप्रेसर का उपयोग करने वाली parameter-free classification method
  • पेपर के लेखक ने परिणामों को पुनरुत्पादित करने के लिए source code की जाँच की और kNN code में bug या अप्रत्याशित विकल्प पाए।
  • कोड के bug के कारण इस method के accuracy आंकड़े अपेक्षा से अधिक दिखाई देते हैं।
  • पेपर के Table 5 में gzip method अन्य neural network-आधारित methods की तुलना में बेहतर प्रदर्शन दिखाती है।
  • लेखक ने आंकड़ों की फिर से गणना की और पाया कि संशोधित परिणामों ने प्रयोग के निष्कर्षों को काफी बदल दिया।
  • पेपर ने k=2 वाला kNN classifier इस्तेमाल किया, जो kNN classification के लिए एक असामान्य विकल्प है।
  • source code में एक अप्रत्याशित tie-breaking strategy है जो रिपोर्ट की गई accuracy को प्रभावित करती है।
  • लेखक परिणामों की तुलना के लिए अलग tie-breaking strategy का उपयोग करते हुए अपना implementation भी प्रदान करता है।
  • दोबारा गणना किए गए परिणाम दिखाते हैं कि मूल code और लेखक के implementation से मिलते-जुलते नतीजे मिलते हैं।
  • फ़िलिपींस dataset की ऊँची accuracy और "table5" तथा "code" परिणामों के बीच मामूली अंतर को लेकर अब भी सवाल बने हुए हैं।

1 टिप्पणियां

 
GN⁺ 2023-07-18
Hacker News की राय
  • "gzip beats BERT" पेपर की गलती ML में एक सूक्ष्म पद्धतिगत त्रुटि है।
  • ML में compression algorithm लागू करना कोई "free lunch" नहीं है और हो सकता है कि यह कोई खास जादू न कर सके।
  • ब्लॉग पोस्ट के लेखक ने पेपर के बारे में एक GitHub issue सबमिट किया है।
  • अच्छी science के लिए अच्छी software engineering की ज़रूरत होती है, और experiments में गलतियाँ आम हैं।
  • इस मुद्दे पर ब्लॉग पोस्ट को समस्या पर रोशनी डालने के लिए सराहा जा रहा है।
  • पेपर में classifier के रूप में kNN का चुनाव सवाल खड़े करता है, और वैकल्पिक algorithm सुझाए गए हैं।
  • पेपर के नतीजों ने यह सवाल उठाया कि compression algorithm किस तरह LLM को हरा सकते हैं।
  • पेपर के बारे में बड़े दावे करने वालों को शायद अपने दावों पर फिर से विचार करना चाहिए।
  • ब्लॉग पोस्ट ने Twitter पर अतिरिक्त चर्चा और विश्लेषण को जन्म दिया।
  • पेपर के नतीजों में random तरीके से होने वाले ties को ध्यान में रखने की संभावना उठाई गई है।