ArtifactNet: codec physics के ज़रिए AI-जनित संगीत का पता लगाने वाला हल्का forensic framework
(arxiv.org)Suno, Udio, MusicGen, Stable Audio जैसे सभी commercial AI music generators एक ऐसी भौतिक सीमा साझा करते हैं जिससे बचा नहीं जा सकता। जनरेटेड audio को अनिवार्य रूप से Residual Vector Quantization (RVQ) से होकर गुजरना पड़ता है।
RVQ सतत audio representations को discrete codebook vectors पर map करता है। इस प्रक्रिया में बनने वाला quantization gap irreversible होता है। जब केवल मानव संगीत पर train किया गया source separation model AI-जनित audio को process करता है, तो यह gap असामान्य रूप से बड़े और संरचित reconstruction residual के रूप में दिखाई देता है। यही forensic signal है।
मौजूदा detectors (CLAM, SpecTTTra) training distribution के भीतर अच्छा काम करते हैं, लेकिन नए generators पर टूट जाते हैं। ArtifactNet यह नहीं पकड़ता कि AI संगीत कैसा सुनाई देता है, बल्कि यह पहचानता है कि वह भौतिक रूप से अलग क्यों है।
Pipeline (कुल 4.0M parameters):
-
ArtifactUNet (3.6M) — STFT magnitude पर [0, 0.5] तक सीमित multiplicative mask predict करने वाला bounded-mask UNet। Demucs v4 residual को teacher बनाकर 2-stage knowledge distillation training।
-
7-channel HPSS forensic features — residual को harmonic/percussive components में विभाजित करने के बाद time derivatives और spectral flux के साथ संयोजन।
-
हल्का CNN (0.4M) — 4-सेकंड segments process करता है, track-level median decision।
भौतिक साक्ष्य: source separation residual की effective bandwidth measurement (n=94):
- मानव संगीत: औसत 1,996 Hz
- AI औसत (22 generators): 291 Hz
- Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz
Architecture से स्वतंत्र रूप से, सभी AI generators लगभग 200 Hz के आसपास केंद्रित दिखते हैं।
ArtifactBench परिणाम (6,183 tracks, 22 generators, training-test overlap नहीं):
| मॉडल | parameters | F1 | FPR |
|---|---|---|---|
| ArtifactNet | 4M | 0.983 | 1.5% |
| CLAM | 194M | 0.758 | 69.3% |
| SpecTTTra | 19M | 0.771 | 19.4% |
CLAM में वास्तविक संगीत को AI के रूप में गलत पहचानने की दर 69.3% है, जो detector के रूप में इसे लगभग निरर्थक बना देती है। SONICS/MoM benchmark real set को केवल YouTube ID के रूप में वितरित करता है, जिनमें से काफ़ी हटाए जा चुके हैं या private हैं, इसलिए मूल आधार पर F1 तुलना संभव नहीं है। ArtifactBench सीधे एकत्र और सत्यापित किए गए real partition के साथ तीनों models की समान शर्तों में तुलना करता है।
सीमाएँ: 44.1kHz input आवश्यक; low-bitrate MP3 पर FPR ~8%; single-pass Demucs laundering attack पर TPR घटकर 94% हो जाता है; नवीनतम Udio के लिए TPR = 87%।
डेमो (~5 सेकंड): https://demo.intrect.io/
पेपर: https://arxiv.org/abs/2604.16254
मॉडल + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
पेटेंट आवेदन प्रगति पर (KR + PCT)
2 टिप्पणियां
लगता है यह आपका अपना पेपर है, क्या यह सही है?
69% अभी भी लगभग सिक्का उछालने जैसा ही है। यह कुछ-कुछ ऐसा लगता है जैसे music-generation AI में unit tests जोड़ने को कह रहे हों।