πFS - एक फ़ाइल सिस्टम जो डेटा को हार्ड ड्राइव के बजाय π में स्टोर करने का दावा करता है
(github.com/philipl)- πfs एक फ़ाइल सिस्टम है जो इस विचार को लागू करता है कि डेटा को हार्ड ड्राइव में स्टोर करने के बजाय π में स्टोर किया जाए, ताकि डिस्क स्पेस का उपयोग न हो; इसका मूल आधार यह धारणा है कि π में मौजूद हो सकने वाली सभी फ़ाइलें समाहित हैं
- यह इस व्याख्या पर आधारित है कि यदि π के normal number (normal number) होने का अनुमान सही है, तो उसके hexadecimal representation में सभी finite files मौजूद होंगी
- यदि π के भीतर फ़ाइल का index और लंबाई ज्ञात हो, तो Bailey–Borwein–Plouffe formula से फ़ाइल निकाली जा सकती है, और यह implementation performance के लिए फ़ाइल के हर byte को π से अलग-अलग lookup करती है
- चलाने के लिए
πfs -o mdd=<metadata directory> <mountpoint>फ़ॉर्मेट का उपयोग होता है, और metadata directory में फ़ाइल नाम तथा π के भीतर फ़ाइल की स्थिति जैसी metadata संग्रहीत की जाती है - build के लिए
autoconf,automake,libfuseपैकेज चाहिए, और./autogen.sh,./configure,make,make installक्रम से build किया जाता है - मौजूदा implementation अभी शुरुआती prototype है, और उदाहरण के तौर पर 400-लाइन की text file स्टोर करने में 5 मिनट लगे
- भविष्य की संभावनाओं में variable execution length search/lookup, Arithmetic Coding, parallel lookup, cloud-based π lookup, और Hadoop के लिए πfs शामिल हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ
Babel की Library को data compression टूल की तरह इस्तेमाल करने की कोशिश याद आ गई
उसी की वजह से मैं एक दिलचस्प rabbit hole में उतर गया था, और पहली बार information theory से परिचय हुआ
निष्कर्ष यह था कि डेटा के location address को व्यक्त करने के लिए भी लगभग उतनी ही information चाहिए होती है जितनी खुद डेटा में, इसलिए compression के लिए यह खास उपयोगी नहीं है और ज़्यादा एक दिलचस्प thought experiment जैसा है
आज के नज़रिए से दिलचस्प बात यह है कि LLM इन टूल्स के असफल लक्ष्य के सार को वास्तव में हासिल करने वाले lossy compression के एक रूप हैं। बेशक, इनमें loss होता है, और एक बहुत बड़ा आधार भी चाहिए
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
valid 4-grams, यानी चार-शब्द sequences, को store करने का मोटा हिसाब 10 अरब × प्रति शब्द 14 bits = कुल 10 अरब के लिए लगभग 17GB होता है। लेकिन इससे 100 गुना छोटा LLM भी सुसंगत prose लिख सकता है
nsafs, यानी National Security Agency Filesystem, याद आ गया। इसमें सेटिंग यह है कि सरकार पैसा देती है, इसलिए यह “free” है: https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
विचार यह था कि एक मनचाहा index चुना जाए और उसकी private key सामने वाले के साथ share की जाए, फिर उसके बाद के text को one-time pad की तरह इस्तेमाल किया जा सके। तर्क यह था कि NSA को इसे decrypt करने के लिए GB/s की रफ़्तार से generate हो रही पूरी stream को buffer और store करना पड़ेगा, लेकिन यह ज़्यादा practical नहीं लगा
यह बात ध्यान देने लायक है कि जैसे-जैसे डेटा की लंबाई बढ़ती है, π के भीतर उस sequence के index और length का मूल डेटा से छोटा होने की संभावना बेहद कम हो जाती है
area code समेत 10-अंकों के नंबर को खोजने लायक computing resources मेरे पास नहीं थे
<20TB number>बन जाता हैये संबंधित पोस्ट हैं। और भी हैं?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - जून 2023, 107 टिप्पणियाँ
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - सितंबर 2021, 30 टिप्पणियाँ
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - फ़रवरी 2021, 1 टिप्पणी
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - अक्टूबर 2019, 1 टिप्पणी
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - फ़रवरी 2019, 1 टिप्पणी
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - दिसंबर 2018, 1 टिप्पणी
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - मार्च 2017, 105 टिप्पणियाँ
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - जनवरी 2016, 1 टिप्पणी
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - जनवरी 2016, 1 टिप्पणी
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - जुलाई 2014, 98 टिप्पणियाँ
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - नवंबर 2013, 32 टिप्पणियाँ
रीपोस्ट लगभग 1 साल बाद ठीक मानी जाती है, और पुराने थ्रेड्स के लिंक उन पाठकों के लिए हैं जो और जानना चाहते हैं
यह भी याद आता है: https://www.spronck.net/sloot.html
अतिरिक्त पढ़ाई: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
वास्तविक encoding तरीका यह था कि वीडियो की हर लाइन को database में स्टोर किया जाता था, और हर frame को line lookups के sequence के रूप में encode किया जाता था, फिर उन encoded frames को एक दूसरे database में स्टोर किया जाता था। हर वीडियो, frame lookups के sequence में बदल जाता था
यही वजह थी कि 90 के दशक के आखिर के hardware पर 16 वीडियो को एक साथ स्मूद तरीके से चलाने का डेमो संभव था। क्योंकि हर frame, line lookups का sequence था, इसलिए स्क्रीन को क्षैतिज रूप से 16 हिस्सों में बाँटकर 16 वीडियो एक साथ चलाना, पूरी स्क्रीन पर एक ही वीडियो चलाने से ज़्यादा भारी नहीं था
इसी तरह, क्योंकि हर frame को अलग-अलग decode किया जाता था, fast-forward और rewind भी स्मूद थे। पारंपरिक video compression की तरह हर keyframe से अंतर निकालने की ज़रूरत नहीं थी, इसलिए 2x playback भी 1x से ज़्यादा कठिन नहीं था
बेशक, वीडियो फ़ाइलों को 8KB जैसे आकार में स्टोर करना संभव नहीं होता, लेकिन मान लें कि किसी TV series का एक season database में है, तो opening और ending credits को सिर्फ़ एक बार स्टोर करना पड़ता
यह एहसास असहज करता है कि π में अतीत और भविष्य का सारा ज्ञान, यहाँ तक कि मैं कब मरूँगा यह भी शामिल है
साथ ही यह भी नहीं कहा जा सकता कि इसमें अतीत और भविष्य का सारा ज्ञान है। ऐसा इसलिए क्योंकि अतीत और भविष्य के बारे में हर संभव झूठ भी इसमें ऐसे ही मौजूद है कि उसे सच से अलग नहीं किया जा सकता
जानकारी को pseudorandom sequence के offset के रूप में encode करना, जानकारी को सीधे store करने से storage efficiency के लिहाज़ से बेहतर नहीं है
मज़ेदार तथ्य: प्राचीन कैलिफ़ोर्नियाई भाषा में “Chrispratt” का मतलब है “Joel McHale वह भूमिका नहीं चाहता था”
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
धुंधली-सी याद है कि पहले किसी compression benchmark की एक entry ने file name को decompression algorithm के input के हिस्से की तरह मानकर benchmark को चालाकी से पार कर लिया था
benchmark सिर्फ file size मापता था, इसलिए वह उस metric को हरा पाई
क्या यह π के ऐसे गुण पर निर्भर नहीं करता जो अभी तक सिद्ध नहीं हुआ है? हर finite string का शामिल होना या regularity चाहिए, लेकिन दोनों में से कोई भी सिद्ध नहीं है