ArtifactNet: codec physics के ज़रिए AI-जनित संगीत का पता लगाने वाला हल्का forensic framework

(arxiv.org)

7 पॉइंट द्वारा unohee 2026-04-20 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Suno, Udio, MusicGen, Stable Audio जैसे सभी commercial AI music generators एक ऐसी भौतिक सीमा साझा करते हैं जिससे बचा नहीं जा सकता। जनरेटेड audio को अनिवार्य रूप से Residual Vector Quantization (RVQ) से होकर गुजरना पड़ता है।

RVQ सतत audio representations को discrete codebook vectors पर map करता है। इस प्रक्रिया में बनने वाला quantization gap irreversible होता है। जब केवल मानव संगीत पर train किया गया source separation model AI-जनित audio को process करता है, तो यह gap असामान्य रूप से बड़े और संरचित reconstruction residual के रूप में दिखाई देता है। यही forensic signal है।

मौजूदा detectors (CLAM, SpecTTTra) training distribution के भीतर अच्छा काम करते हैं, लेकिन नए generators पर टूट जाते हैं। ArtifactNet यह नहीं पकड़ता कि AI संगीत कैसा सुनाई देता है, बल्कि यह पहचानता है कि वह भौतिक रूप से अलग क्यों है।

Pipeline (कुल 4.0M parameters):

ArtifactUNet (3.6M) — STFT magnitude पर [0, 0.5] तक सीमित multiplicative mask predict करने वाला bounded-mask UNet। Demucs v4 residual को teacher बनाकर 2-stage knowledge distillation training।
7-channel HPSS forensic features — residual को harmonic/percussive components में विभाजित करने के बाद time derivatives और spectral flux के साथ संयोजन।
हल्का CNN (0.4M) — 4-सेकंड segments process करता है, track-level median decision।

भौतिक साक्ष्य: source separation residual की effective bandwidth measurement (n=94):

मानव संगीत: औसत 1,996 Hz
AI औसत (22 generators): 291 Hz
Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Architecture से स्वतंत्र रूप से, सभी AI generators लगभग 200 Hz के आसपास केंद्रित दिखते हैं।

ArtifactBench परिणाम (6,183 tracks, 22 generators, training-test overlap नहीं):

मॉडल	parameters	F1	FPR
ArtifactNet	4M	0.983	1.5%
CLAM	194M	0.758	69.3%
SpecTTTra	19M	0.771	19.4%

CLAM में वास्तविक संगीत को AI के रूप में गलत पहचानने की दर 69.3% है, जो detector के रूप में इसे लगभग निरर्थक बना देती है। SONICS/MoM benchmark real set को केवल YouTube ID के रूप में वितरित करता है, जिनमें से काफ़ी हटाए जा चुके हैं या private हैं, इसलिए मूल आधार पर F1 तुलना संभव नहीं है। ArtifactBench सीधे एकत्र और सत्यापित किए गए real partition के साथ तीनों models की समान शर्तों में तुलना करता है।

सीमाएँ: 44.1kHz input आवश्यक; low-bitrate MP3 पर FPR ~8%; single-pass Demucs laundering attack पर TPR घटकर 94% हो जाता है; नवीनतम Udio के लिए TPR = 87%।

डेमो (~5 सेकंड): https://demo.intrect.io/
पेपर: https://arxiv.org/abs/2604.16254
मॉडल + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
पेटेंट आवेदन प्रगति पर (KR + PCT)

2 टिप्पणियां

unsure4000 2026-04-20

लगता है यह आपका अपना पेपर है, क्या यह सही है?

chisquare88 2026-04-21

69% अभी भी लगभग सिक्का उछालने जैसा ही है। यह कुछ-कुछ ऐसा लगता है जैसे music-generation AI में unit tests जोड़ने को कह रहे हों।

ArtifactNet: codec physics के ज़रिए AI-जनित संगीत का पता लगाने वाला हल्का forensic framework

संबंधित पढ़ाई

2 टिप्पणियां