Magika: AI का उपयोग करने वाला तेज़ और कुशल file type पहचान टूल open source

(opensource.googleblog.com)

6 पॉइंट द्वारा GN⁺ 2024-02-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google ने AI-आधारित file type पहचान सिस्टम Magika को open source के रूप में जारी किया है
Magika कस्टम, optimized deep learning model का उपयोग करता है, जिससे CPU पर भी कुछ milliseconds के भीतर सटीक file पहचान संभव है
Magika web demo को आज़माया जा सकता है, और pip install magika कमांड से इसे Python library तथा standalone command-line tool के रूप में install किया जा सकता है

file type पहचान कठिन क्यों है

computing के शुरुआती दौर से ही file type को सटीक रूप से detect करना यह तय करने के लिए महत्वपूर्ण रहा है कि file को कैसे process किया जाए।
Linux में libmagic और file utility मौजूद हैं, और ये 50 से अधिक वर्षों से file type पहचान के de facto standard के रूप में उपयोग किए जाते रहे हैं।
web browser, code editor जैसे विभिन्न software में files को सही तरीके से render करने के लिए file type detection अनिवार्य है।
हर file format की संरचना अलग होती है, या कभी-कभी संरचना होती ही नहीं, इसलिए सटीक file type detection एक बदनाम रूप से कठिन समस्या है।
libmagic और अधिकांश file type पहचान software हर file format को detect करने के लिए manually बनाए गए heuristics और rules पर निर्भर करते हैं।
यह manual approach समय लेने वाली और error-prone होती है।

Magika का performance

AI model और बड़े training dataset की बदौलत Magika ने 100 से अधिक file types वाले 10 लाख files के benchmark में मौजूदा tools की तुलना में लगभग 20% बेहतर performance दिखाई।
खास तौर पर text files, code files, configuration files जैसे उन file types में इसका performance gain अधिक रहा, जिनमें दूसरे tools को कठिनाई होती है।

Google के भीतर Magika का उपयोग

Google के अंदर Magika का उपयोग Gmail, Drive और Safe Browsing files को उपयुक्त security और content policy scanners तक route करने के लिए किया जाता है, जिससे user safety बेहतर होती है।
साप्ताहिक औसत के रूप में सैकड़ों करोड़ files को देखते हुए, Magika ने manual rules पर निर्भर पुराने system की तुलना में file type पहचान की accuracy को 50% तक बेहतर किया।
VirusTotal integration के ज़रिए Magika मौजूदा Code Insight feature को complement करेगा और global cybersecurity ecosystem में योगदान देकर अधिक सुरक्षित digital environment बनाने में मदद करेगा।

Magika को open source करना

Magika को open source करने का उद्देश्य दूसरे software में file पहचान की accuracy को बेहतर बनाना और researchers को बड़े पैमाने पर file types पहचानने का एक भरोसेमंद तरीका देना है।
Magika का code और model Github पर Apache2 license के तहत मुफ़्त उपलब्ध हैं, और pypi package manager के माध्यम से इन्हें आसानी से install किया जा सकता है।
Magika के उपयोग के बारे में अधिक जानकारी के लिए Magika documentation site देखें।

GN⁺ की राय

Magika का open source release file type पहचान की accuracy बेहतर करने में काफ़ी मददगार साबित हो सकता है।
खास तौर पर security क्षेत्र में सटीक file पहचान बहुत महत्वपूर्ण है, और Magika इसके लिए एक मज़बूत tool बन सकता है।
Google की तकनीकी क्षमता और open source community के प्रति उसका योगदान global cybersecurity ecosystem को मज़बूत करने में महत्वपूर्ण भूमिका निभा सकता है।

1 टिप्पणियां

GN⁺ 2024-02-17

Hacker News राय

नए file type detection tool को web crawl data पर आज़माया गया।
- साधारण HTML फ़ाइलों को कुछ मामलों में गलत पहचान लिया गया।
- कुछ WOFF और WOFF2 फ़ाइलें भी गलत detect हुईं।
- automation के लिए इसे अभी भरोसेमंद implementation नहीं माना गया।
- यह शिकायत भी जताई गई कि output pipe होने पर shell color escape नहीं हटाए जाते।
10 साल पहले spreadsheet file type detection से जुड़ा अनुभव साझा किया गया।
- magic का उपयोग करके file type detect करने वाला patch प्रस्तावित किया गया था, लेकिन उसे अस्वीकार कर दिया गया।
- अब deep learning का उपयोग करने वाले file type detection का ज़िक्र किया गया।
- उम्मीद जताई गई कि Google performance benchmark सार्वजनिक करे।
100 फ़ाइलों पर detection test के नतीजे साझा किए गए।
- ज़्यादातर को सही पहचाना गया, लेकिन कुछ को गलत या अस्पष्ट type के रूप में detect किया गया।
- त्रुटियाँ मुख्य रूप से उन file types में आईं जिन्हें Magika support नहीं करता।
- मौजूदा file utility की तुलना में इसकी accuracy लगभग समान बताई गई।
file type detection क्षेत्र में नए tool के आने पर सकारात्मक प्रतिक्रिया दी गई।
- Node module जारी करने की वजह पर सवाल उठाया गया।
- दस्तावेज़ों में इसकी speed धीमी बताई गई है, और model runtime पर load होता है।
- experimental label और सीमित file type support का भी उल्लेख किया गया।
इस बात पर उलझन जताई गई कि Google ने libmagic को बेहतर बनाने के बजाय neural network आधारित file type detection tool बनाने में संसाधन लगाए।
- यह इंगित किया गया कि neural network अधिक accurate हो सकता है, लेकिन वह कम file types support करता है और adversarial स्थितियों में कम प्रभावी रहता है।
कई formats में वैध polyglot files को detect करने के तरीके को लेकर जिज्ञासा जताई गई।
- वास्तविक test में केवल ZIP layer के detect होने का उल्लेख किया गया।
APK या JAR फ़ाइलों की सही पहचान में दूसरे tools की precision या recall को लेकर सवाल उठाया गया।
- यह भी पूछा गया कि किन विशेष फ़ाइलों ने precision या recall को प्रभावित किया था।
Racket में libmagic implementation का अनुभव साझा किया गया।
- कहा गया कि libmagic ज़्यादा file types detect करता है, लेकिन Magika text files की पहचान में उपयोगी हो सकता है।
यह दावा किया गया कि file type detection मूल रूप से deterministic होता है।
- कहा गया कि "magic bytes" सुसंगत होने चाहिए, और heuristic या probabilistic inference की आवश्यकता पर सवाल उठाया गया।

Magika: AI का उपयोग करने वाला तेज़ और कुशल file type पहचान टूल open source

file type पहचान कठिन क्यों है

Magika का performance

Google के भीतर Magika का उपयोग

Magika को open source करना

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय