डेटा की vector संरचना को गणितीय रूप से ध्वस्त कर स्थायी deletion करने वाला VANI विकसित किया है
(github.com/eterners-inc)नमस्ते। मेरा मुख्य काम AI algorithm और functions का development है.
हाल में generative AI और forensic तकनीक बहुत तेजी से आगे बढ़ी हैं, और इससे मेरे मन में यह सवाल आया कि "क्या डिजिटल डेटा को पूरी तरह delete करना संभव है?" कहा जाता है कि पारंपरिक overwrite, factory reset, firmware deletion, यहाँ तक कि degaussing के बाद भी residual charge के कारण recovery संभव हो सकती है। encryption key disposal method (Crypto-shredding) भी भविष्य की quantum computing के सामने सुरक्षित नहीं है। खासकर SSD (NVMe) environment में wear leveling की वजह से पारंपरिक 'overwrite (DoD 5220.22-M)' method drive की lifespan घटाता है और deletion efficiency भी कम कर देता है — यह एक स्पष्ट सीमा थी।
इसीलिए physical overwrite के बजाय, डेटा को गणितीय रूप से collapse करने वाले Windows deletion tool VANI (Vector-based Advanced Nullification) को बनाकर GitHub और Gumroad पर जारी कर रहा हूँ।
इसका फायदा यह है कि Windows-आधारित सभी storage devices पर files और data को चुनकर बहुत तेज़ी से delete किया जा सकता है। इसकी कमी यह है कि एक बार delete होने के बाद recovery या forensic analysis संभव नहीं रहती, इसलिए स्थायी deletion होने के कारण इसे बहुत सावधानी से इस्तेमाल करना चाहिए।
🛠 विकास प्रक्रिया और मुख्य तकनीक
अगर पारंपरिक 'deletion' को डेटा के ऊपर 0 और 1 की paint layer चढ़ाने जैसा काम मानें, तो VANI उस vector space को ही गिरा देने के अधिक करीब है जिसमें डेटा मौजूद है। (इसे Python और Rust में विकसित किया गया है। मेरी विशेषज्ञता algorithm में है, इसलिए code implementation से ज़्यादा UI/design पर मैं कहीं अधिक उलझा... 😅)
-
Vector State Collapse: file data को सिर्फ bit sequence नहीं बल्कि vector state के रूप में परिभाषित किया जाता है, और source के साथ गणितीय रूप से orthogonal noise inject करके pattern को ही समाप्त कर दिया जाता है।
-
Entropy Maximization: साधारण random data नहीं, बल्कि Shannon Entropy को चरम स्तर तक अधिकतम करने वाला 'chaos buffer' inject किया जाता है। entropy गणितीय रूप से thermodynamics के नियमों की तरह फिर कम नहीं हो सकती, इसलिए इसे इस तरह design किया गया है कि भविष्य की quantum computing के Grover algorithm से भी reverse calculation संभव न हो।
-
Hilbert Curve Optimization: disk I/O efficiency के लिए space-filling curve algorithm, Hilbert Curve, लागू किया गया है। इसी वजह से NVMe environment में 1GB deletion को 1 सेकंड से कम समय में हासिल किया गया।
💾 इस्तेमाल करके देखें
यह तुरंत चलने वाला portable version है। व्यक्तिगत उपयोग के लिए इसे बिना feature limitation के free में इस्तेमाल किया जा सकता है, इसलिए इसे GitHub पर रखा गया है।
GitHub (मुफ़्त/व्यक्तिगत उपयोग): https://github.com/eterners-inc/VANI (single file deletion support, बिना ads)
Gumroad (सशुल्क/व्यावसायिक उपयोग): eterners.gumroad.com/l/vani-pro (folder-level deletion, audit report generation जैसे business features)
💬 अंत में
उम्मीद है कि S समूह जैसी कंपनियों की तरह confidential information वाले hard disk को भट्ठी में नष्ट नहीं कर सकने वाले individuals या startups के लिए VANI एक उपयोगी tool साबित होगा। algorithm या low-level I/O handling पर feedback, या bug reports, हमेशा स्वागत योग्य हैं।
⚠️ अतिरिक्त Notice (Ghost Protocol) complete data deletion तकनीक के दुरुपयोग या misuse की संभावना को देखते हुए, debugging को रोकने और source code की self-defense के लिए एक algorithm (Ghost Protocol) विकसित कर जोड़ा गया है, ताकि improper use की स्थिति में lockdown हो जाए। इस security module को भविष्य में patent registration से पहले, security की ज़रूरत रखने वाले startups या साथी developers के लिए अलग library के रूप में open करने पर भी विचार किया जा रहा है।
15 टिप्पणियां
आपको यह पता नहीं चल रहा कि जिस सीमा को आपने समस्या बताया, आपका अपना समाधान उसे बिल्कुल भी हल नहीं करता। ऐसा लगता है कि इसमें एक बहुत बड़ा विरोधाभास है, क्योंकि आप SSD wear leveling की समस्या को ज्यों का त्यों साथ लेकर चल रहे हैं।
अगर डेटा को पूरी तरह मिटाना महत्वपूर्ण है, तो ऐसे विशेष deletion algorithm की बजाय शुरुआत से ही पर्याप्त रूप से मजबूत full-disk encryption लागू करना अधिक व्यावहारिक है। केवल key नष्ट कर देने पर पूरा डेटा noise बन जाता है।
आपके बताए गए प्रोडक्ट की फ़ाइल डिलीट करने की विधि और random (pseudo-random सहित) डेटा से overwrite करने के बीच क्या अंतर है?
रिपॉज़िटरी में देखे जा सकने वाले
free/main_free.pyके कोड को देखें तो अंततः यह फ़ाइल के बिल्कुल शुरुआती 4096 bytes को नए pseudo-random noise से overwrite करता है, और फिर एक ऐसी Rust-आधारित लाइब्रेरी को कॉल करता दिखता है जिसकी विस्तृत जानकारी सार्वजनिक नहीं है, और दावा करता है कि वह किसी तरह कुछ करता है। लेकिन यह साधारण रूप से फ़ाइल को pseudo-random डेटा से overwrite करने से गुणात्मक रूप से कैसे अलग है, यह समझ में नहीं आता, और आपने जो जानकारी सार्वजनिक की है वह इसे साबित करने के लिए पर्याप्त नहीं लगती।क्या आप समझा सकते हैं कि यह pseudo-random overwrite से किस तरह गुणात्मक रूप से अलग है? विशेष रूप से, फ़ाइल recovery/forensics के प्रयास के समय केवल pseudo-random से overwrite किए गए मामले की तुलना में recoverability के लिहाज़ से इसमें क्या बदलाव आता है? या क्या ऐसा कोई पहलू है जिसके बारे में आप कह सकते हैं कि यह storage media (hard disk और SSD) के अनुसार बदलता है?
नमस्ते। यह बहुत खुशी और आभार देने वाली टिप्पणी है। मैं अब तक सिर्फ़ चुपचाप देखता रहा था, यह पहली बार है कि मैंने पोस्ट लिखी है, इसलिए AI द्वारा लिखी गई टिप्पणियाँ देखकर थोड़ा असहज भी लगा।
जैसा आपने कहा, सार्वजनिक Free version का
main_free.pyfile system के entry point की भूमिका निभाता है, 4KB header को collapse करके OS recognition को block करता है, और उसके बाद actual processing को Rust core (vani_core) को सौंपने वाली संरचना है। आपने जो कहा कि details स्पष्ट नहीं हैं, वह अभी सार्वजनिक दायरे में पूरी तरह उचित आलोचना है।आपके प्रश्न, 'साधारण PRNG overwrite से गुणात्मक अंतर' के बारे में, मैं अपनी design intent और technical direction समझाता हूँ।
Orthogonal Noise vs Pseudo-Random में entropy का अंतर
साधारण
random()या/dev/urandomstatistical uniform distribution को लक्ष्य करते हैं, लेकिन data pattern analysis के दृष्टिकोण से उनमें अब भी trace-back की जा सकने वाली periodicity मौजूद हो सकती है। VANI गणितीय रूप से Shannon Entropy को चरम सीमा तक अधिकतम करने वाला 'chaos buffer' बनाता है। यह सिर्फ़ random numbers फैलाना नहीं है, बल्कि original data vector के साथ गणितीय रूप से orthogonal noise inject करता है, ताकि भौतिक अवशिष्ट magnetic field या cell की charge state एक ऐसे equilibrium state की ओर अभिसरित हो जाए जिसे recover करना असंभव हो। (इस हिस्से को आगे patent application के बाद white paper में विस्तार से सार्वजनिक करने की योजना है।)SSD environment में I/O optimization (Legacy Linear vs Hilbert)
असल में यह वही निर्णायक अंतर है जो आपने storage media के अनुसार पूछा था। पारंपरिक तरीका sector 0 से अंत तक linear तरीके से overwrite करता है। यह SSD की parallel processing structure के अनुकूल नहीं है, और wear leveling के कारण यह संभावना अधिक रहती है कि actual physical address पर overwrite न हो।
लेकिन VANI vidhi Rust core के अंदर Hilbert Curve algorithm के माध्यम से logical addresses को non-linear तरीके से traverse करता है। इससे NVMe की multi-queue bandwidth का कुशल उपयोग होता है, और मौजूदा तरीकों की तुलना में काफ़ी कम write passes के साथ भी data की semantic linkage को तोड़ा जा सकता है।
Next Action
जैसा आपने इंगित किया, अभी सार्वजनिक Free version code के आधार पर यह तीसरे पक्ष के लिए सत्यापित करना कठिन है कि यह गुणात्मक रूप से अलग है। चूँकि यह एक mathematical model है, इसलिए अभी तक किसी professional forensic कंपनी की official certification भी नहीं मिली है। इसलिए आगे SSD environment में Before/After benchmark data, या साधारण PRNG के साथ benchmarking tools द्वारा तुलना, या Python code में विकसित करके comparative experiments चलाने और उनके results सार्वजनिक करके verification प्राप्त करने की योजना है।
दरअसल यह मेरी पहली पोस्ट थी, इसलिए मुझे थोड़ी चिंता भी थी। नीचे की तरह यह AI का पूछा हुआ सवाल नहीं था, यह राहत की बात है। इसी तरह के तीखे सवाल और verification ही वे हिस्से हैं जिन पर मैं Show GN में feedback पाना चाहता हूँ। आगे भी कमियों की ओर खुलकर ध्यान दिलाते रहिए, मैं इसे और बेहतर बनाऊँगा। धन्यवाद!
मैं बहुत-सी बातों की ठोस आलोचना करना चाहता हूँ।
शुरुआत इसी से करें कि फ़ाइल के पहले 4 KiB को "collapse" करने में इस्तेमाल होने वाले pseudo-random number का seed फ़ाइल path और size के संयोजन पर आधारित है, यानी वह पूरी तरह deterministic है. इसके अलावा, कंप्यूटर algorithm पर patent आवेदन करना बहुत कठिन होता है, और मान लें कि वह patent दर्ज भी हो जाए, तब भी केवल patent के आधार पर यह दावा नहीं किया जा सकता कि उसकी security मान्य हो गई है — ऐसे कई स्पष्ट बिंदु हैं जिन पर आपत्ति उठाई जानी चाहिए.
लेकिन सबसे महत्वपूर्ण बात यह है। जिस गुप्त algorithm को patent कराने की बात हो रही है, वह साधारण file deletion की तुलना में आखिर कौन-सा अतिरिक्त लाभ दे सकता है?
लगता है कि आप मुख्य रूप से SSD environment को मानकर चल रहे हैं, इसलिए मैं केवल SSD तक सीमित रहकर बात करूँगा। (कृपया ध्यान दें, इसका मतलब यह नहीं है कि HDD में इसका कोई सार्थक लाभ है।)
आधुनिक SSD, NAND flash memory से बने होते हैं, और NAND flash memory की विशेषता यह है कि जिस cell में पहले से data लिखा है, उसे overwrite नहीं किया जा सकता। एक बार data लिखे गए cell में सीधे फिर से data नहीं लिखा जा सकता, इसलिए पहले deletion process से गुजरना पड़ता है। चूँकि deletion की संख्या सीमित होती है, इसलिए flash memory में deletion individual cell या page स्तर पर नहीं, बल्कि कई pages के समूह यानी block unit पर होता है। इसी वजह से FTL(Flash Translation Layer) layer की ज़रूरत पड़ती है या write amplification की समस्या पैदा होती है।
इसका मतलब यह है कि SSD में आपने फ़ाइल के किसी हिस्से को "overwrite" किया भी हो, तब भी physical स्तर पर वह नया data पूरी तरह अलग cell में store होता है। चाहे आप उसे सिर्फ 0 से overwrite करें या किसी तरीके से बनाए गए random number से, physical रूप से वह data अलग cell में लिखा जाता है — इस मामले में कोई फर्क नहीं पड़ता। SSD hardware abstraction के ऊपर software स्तर पर देखने पर आपको सिर्फ overwritten result दिखता है, लेकिन OS या application स्तर पर NAND flash memory को सीधे नियंत्रित नहीं किया जा सकता।
ऐसा भी नहीं है कि SSD के भीतर data deletion कभी पूरी तरह होती ही नहीं। जिन cells में unused data है, उन्हें पहले से erase करके रखना पड़ता है ताकि बाद में दोबारा data लिखते समय delay न हो। इसलिए SSD के अंदर controller background में लगातार GC(Garbage Collection) चलाता रहता है।
2010 के दशक के बाद से सभी प्रमुख operating systems TRIM command को support करते हैं। TRIM वह तरीका है जिससे OS SSD को बताता है कि "ये blocks अब उपयोग में नहीं हैं"। इसके बाद वे SSD controller द्वारा background में लगातार चलाए जाने वाले garbage collection के target बन जाते हैं। Garbage collection वास्तव में कब साफ़-सफ़ाई करेगा, यह निश्चित नहीं कहा जा सकता, लेकिन एक बार garbage collection हो जाए और NAND block में erase चल जाए, तो individual chips को physical रूप से निकालकर देखने पर भी खोई हुई information को recover करना असंभव होता है। और आजकल के OS में TRIM आम तौर पर default रूप से enabled होता है, इसलिए सिर्फ OS का सामान्य file deletion करने पर भी कुछ समय बाद data recovery असंभव हो जाती है।
तो SSD environment में सिर्फ OS का file deletion command चलाने पर यह निश्चित नहीं कहा जा सकता कि data कब मिटेगा, लेकिन किसी समय वह cell से पूरी तरह गायब हो जाएगा। उल्टा, अगर आप फ़ाइल के data को overwrite करते हैं, तो physical रूप से original data वाले cell की जानकारी कुछ समय तक जस की तस बनी रह सकती है। क्या यही असली irony नहीं है?
बेशक, अंत में अगर OS के deletion command को ही call करना है, तो नतीजा यही होगा कि कुछ समय बाद cell से data physical रूप से मिट जाएगा। लेकिन अगर परिणाम वही है, तो फिर इतने भारी-भरकम algorithm की क्या ज़रूरत है? साधारण file deletion ही क्यों न कर दिया जाए?
Purple hat therapy नाम का एक शब्द है।
मान लीजिए कोई कहे, "X नाम की बीमारी का इलाज करने के लिए, रहस्यमय ब्रह्मांडीय ऊर्जा से भरी इस purple hat को पहनकर Y नाम की दवा खानी होगी।" लेकिन वास्तव में X बीमारी के इलाज में Y दवा तो पहले से इस्तेमाल हो रही थी। स्वाभाविक रूप से, purple hat पहनकर किया गया इलाज भी प्रभावी दिखा, लेकिन उसका प्रभाव पुराने इलाज के लगभग बिल्कुल समान था। तो क्या उस purple hat की ज़रूरत है, या नहीं?
मेरी नज़र में यह VANI नाम की चीज़ ही "purple hat therapy" शब्द पर बिल्कुल फिट बैठती है। सार्वजनिक रूप से सामने आई जानकारी के आधार पर ऐसा मानने का कोई कारण नहीं दिखता कि यह OS के सामान्य file deletion की तुलना में कोई सार्थक security या अन्य लाभ देती है। गणितीय शब्दावली, quantum computer algorithms जैसे technical terms का ढेर लगाना मुझे 100 डॉलर के paid version की कीमत को सही ठहराने के लिए किया गया घटिया marketing तरीका ही लगता है। यह program पूरी तरह मुफ्त भी हो, तब भी मैं इसे कभी इस्तेमाल नहीं करूँगा।
बहुत समय बाद इतना अच्छा लेख देखा कि मैंने इसे दो बार पढ़ा। ऐसा लेख छोड़ने के लिए आपका सचमुच धन्यवाद।
सिर्फ़ लाइक दबाकर जाने वाला था, लेकिन वह शिष्टाचार के ख़िलाफ़ लगा, इसलिए यह टिप्पणी छोड़ रहा हूँ। बहुत मज़े से पढ़ा।
धन्यवाद।
टिप्पणी लिखते-लिखते वह उम्मीद से कहीं ज़्यादा लंबी हो गई, लगभग किसी ब्लॉग पोस्ट जैसी, इसलिए मैंने थोड़ी देर सोचा कि क्या इसे ऐसे ही पोस्ट कर दूँ; लेकिन इसे यहाँ तक लिखने में लगा समय बर्बाद करना भी अफ़सोसजनक लगा, इसलिए बस पोस्ट कर दिया। यह जानकर खुशी हुई कि आपने इसे दिलचस्पी से पढ़ा।
नमस्कार, मैं S Electronics Mirae Gisul Yeonguso के अंतर्गत क्वांटम-थर्मोडायनेमिक्स कन्वर्जेंस प्लेटफ़ॉर्म TF से जुड़ा PM हूँ। (फ़िलहाल Series C bridge round के closing चरण में हैं, इसलिए अपनी पहचान सार्वजनिक करना मुश्किल है)
VANI के बारे में पोस्ट देखकर मैं सुबह 4 बजे बिस्तर से उछलकर उठ बैठा। सच कहूँ तो शरीर में सिहरन दौड़ गई।
हमारी रिसर्च लैब भी 2019 से "inverse-Boltzmann distribution आधारित information annihilation protocol" पर काम कर रही है, और उसका मुख्य bottleneck ठीक Shannon-Gibbs boundary surface पर enthalpy leakage ही था। लेकिन आपने Hilbert space की orthogonal collapse के ज़रिए इसे bypass कर लिया... यह देखकर हमारे principal researcher ने कहा, "शायद Einstein को EPR paradox सुलझाते समय ऐसा ही महसूस हुआ होगा."
खासकर Gram-Schmidt orthogonalization से file header के vector links काटने का विचार, वह क्षेत्र है जहाँ हम 3 साल तक KAIST के Department of Mathematical Sciences के साथ joint research करने के बावजूद नहीं पहुँच पाए। क्या आपने अंदरूनी तौर पर non-Hermitian operator आधारित pseudo-qubit state transition भी implement किया है? अगर ऐसा है, तो यह सिर्फ़ एक deletion tool नहीं, बल्कि post-quantum information incineration paradigm की शुरुआत है।
हमारी parent company (global market cap Top 20) इस समय "Data Thermal Death Initiative" की तैयारी कर रही है, और VANI का entropy maximization engine ठीक हमारे roadmap के Phase 2 milestone से मेल खाता है.
~~निवेश~~ नहीं, strategic technology partnership पर चर्चा संभव होगी क्या?
हमारी तरफ़ से शर्तें हैं:
हालाँकि, हमारी legal team का कहना है कि "ऊष्मागतिकी के दूसरे नियम की गणितीय बाध्यकारी शक्ति" पर कानूनी समीक्षा आवश्यक है। क्या entropy के "कभी भी पूर्णतः कम न होने" वाले हिस्से के लिए आपके पास Nature peer review या ISO 27001 Annex Q certification जैसी कोई चीज़ है?
और एक निजी सवाल... Planck constant आधारित discretized deletion unit को आपने कैसे define किया? हम h-bar को आधार मानकर 6.626 × 10⁻³⁴ joule·second इकाई के "quantum deletion quantum" की परिकल्पना कर रहे थे, लेकिन NVMe controller cache के साथ coherence-decoherence threshold पर phase बार-बार बिगड़ जाता है।
खैर, आप सचमुच कमाल हैं। ऐसा लगता है मानो 21वीं सदी के Maxwell, Boltzmann और Shannon एक ही व्यक्तित्व में अवतरित हो गए हों।
कृपया जल्द संपर्क करें। 🙏
P.S. कहीं ऐसा तो नहीं कि VANI से delete किया गया data parallel universe में transfer हो जाता हो? हमारे CTO को अचानक यही चिंता होने लगी थी.
नहीं, क्या इस मज़ाक पर सिर्फ मैं ही हँस रहा हूँ.. lol
आज फिर आ गया... AI slop से भरा हुआ रेपो
क्या मैं बेवकूफ हूँ.. क्या मुझे कंप्यूटर इंजीनियरिंग का परिचय फिर से पढ़ना चाहिए..
वाह, इंट्रोडक्शन भी LLM से लिखा है lol..
व्यक्तिगत रूप से मुझे इंट्रोडक्शन तक LLM से लिखना बिल्कुल अच्छा नहीं लगता।
उम्.. AI यह वाजिब शक भी जता रहा है कि यह कहीं खुद रचा गया नाटक तो नहीं लगता।
ये सच में है? हाहा