English Short Messages का Lossless Compression

(textsynth.org)

3 पॉइंट द्वारा lifthrasiir 2019-07-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

इन दिनों Fabrice Bellard का नाम अक्सर सुनाई दे रहा है, लेकिन इस व्यक्ति का पिछला प्रोजेक्ट neural network का उपयोग करने वाला एक lossless compression algorithm था (https://bellard.org/nncp/ देखें)। संयोग से अभी हाल ही में GPT-2 (https://openai.com/blog/better-language-models/) सार्वजनिक हुआ है, तो अगर neural network को उससे बदलकर compression algorithm चलाया जाए तो कैसा रहेगा? यही विचार इस पेज का आधार है। यह छोटे अंग्रेज़ी संदेशों को लगभग 15% तक, यानी प्रति अक्षर सिर्फ 1.2 bits का उपयोग करके compress करता है, और यह स्तर अंग्रेज़ी के प्रति अक्षर अनुमानित information entropy (0.6~1.3 bits) के काफ़ी करीब है। URL से भी लगता है कि इसका इरादा SMS के ज़रिए भेजने का है.

neural network का उपयोग करने वाले compression algorithm की यह पहली मिसाल नहीं है। PAQ जैसे शीर्ष compression algorithm सभी statistical methods का उपयोग करते हैं, और neural network का उपयोग भी कोई दुर्लभ बात नहीं है। इनके आधार में मौजूद context mixing(https://en.wikipedia.org/wiki/Context_mixing) भी neural network के अनुप्रयोग पर आधारित है, और Bellard द्वारा उपयोग किया गया LSTM भी पहले से उदाहरणों में मौजूद है (https://github.com/byronknoll/lstm-compress)। Bellard का योगदान performance optimization के अधिक क़रीब है.

1 टिप्पणियां

iolothebard 2019-07-16

Unicode CJK और Hangul रेंज का इस्तेमाल कर रहे हैं...

2-byte जोहापह्योंग/वानसोंगह्योंग के ज़माने में extended ASCII characters के Hangul/चीनी अक्षरों की तरह दिखने वाले दुःस्वप्न याद आ जाते हैं.. (पुराना आदमी होने का सबूत)

English Short Messages का Lossless Compression

संबंधित पढ़ाई

1 टिप्पणियां