English Short Messages का Lossless Compression
(textsynth.org)इन दिनों Fabrice Bellard का नाम अक्सर सुनाई दे रहा है, लेकिन इस व्यक्ति का पिछला प्रोजेक्ट neural network का उपयोग करने वाला एक lossless compression algorithm था (https://bellard.org/nncp/ देखें)। संयोग से अभी हाल ही में GPT-2 (https://openai.com/blog/better-language-models/) सार्वजनिक हुआ है, तो अगर neural network को उससे बदलकर compression algorithm चलाया जाए तो कैसा रहेगा? यही विचार इस पेज का आधार है। यह छोटे अंग्रेज़ी संदेशों को लगभग 15% तक, यानी प्रति अक्षर सिर्फ 1.2 bits का उपयोग करके compress करता है, और यह स्तर अंग्रेज़ी के प्रति अक्षर अनुमानित information entropy (0.6~1.3 bits) के काफ़ी करीब है। URL से भी लगता है कि इसका इरादा SMS के ज़रिए भेजने का है.
- neural network का उपयोग करने वाले compression algorithm की यह पहली मिसाल नहीं है। PAQ जैसे शीर्ष compression algorithm सभी statistical methods का उपयोग करते हैं, और neural network का उपयोग भी कोई दुर्लभ बात नहीं है। इनके आधार में मौजूद context mixing(https://en.wikipedia.org/wiki/Context_mixing) भी neural network के अनुप्रयोग पर आधारित है, और Bellard द्वारा उपयोग किया गया LSTM भी पहले से उदाहरणों में मौजूद है (https://github.com/byronknoll/lstm-compress)। Bellard का योगदान performance optimization के अधिक क़रीब है.
1 टिप्पणियां
Unicode CJK और Hangul रेंज का इस्तेमाल कर रहे हैं...
2-byte जोहापह्योंग/वानसोंगह्योंग के ज़माने में extended ASCII characters के Hangul/चीनी अक्षरों की तरह दिखने वाले दुःस्वप्न याद आ जाते हैं.. (पुराना आदमी होने का सबूत)