7 पॉइंट द्वारा unohee 13 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Suno, Udio, MusicGen, Stable Audio जैसे सभी commercial AI music generators एक ऐसी भौतिक सीमा साझा करते हैं जिससे बचा नहीं जा सकता। जनरेटेड audio को अनिवार्य रूप से Residual Vector Quantization (RVQ) से होकर गुजरना पड़ता है।

RVQ सतत audio representations को discrete codebook vectors पर map करता है। इस प्रक्रिया में बनने वाला quantization gap irreversible होता है। जब केवल मानव संगीत पर train किया गया source separation model AI-जनित audio को process करता है, तो यह gap असामान्य रूप से बड़े और संरचित reconstruction residual के रूप में दिखाई देता है। यही forensic signal है।

मौजूदा detectors (CLAM, SpecTTTra) training distribution के भीतर अच्छा काम करते हैं, लेकिन नए generators पर टूट जाते हैं। ArtifactNet यह नहीं पकड़ता कि AI संगीत कैसा सुनाई देता है, बल्कि यह पहचानता है कि वह भौतिक रूप से अलग क्यों है।


Pipeline (कुल 4.0M parameters):

  1. ArtifactUNet (3.6M) — STFT magnitude पर [0, 0.5] तक सीमित multiplicative mask predict करने वाला bounded-mask UNet। Demucs v4 residual को teacher बनाकर 2-stage knowledge distillation training।

  2. 7-channel HPSS forensic features — residual को harmonic/percussive components में विभाजित करने के बाद time derivatives और spectral flux के साथ संयोजन।

  3. हल्का CNN (0.4M) — 4-सेकंड segments process करता है, track-level median decision।


भौतिक साक्ष्य: source separation residual की effective bandwidth measurement (n=94):

  • मानव संगीत: औसत 1,996 Hz
  • AI औसत (22 generators): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Architecture से स्वतंत्र रूप से, सभी AI generators लगभग 200 Hz के आसपास केंद्रित दिखते हैं।


ArtifactBench परिणाम (6,183 tracks, 22 generators, training-test overlap नहीं):

मॉडल parameters F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

CLAM में वास्तविक संगीत को AI के रूप में गलत पहचानने की दर 69.3% है, जो detector के रूप में इसे लगभग निरर्थक बना देती है। SONICS/MoM benchmark real set को केवल YouTube ID के रूप में वितरित करता है, जिनमें से काफ़ी हटाए जा चुके हैं या private हैं, इसलिए मूल आधार पर F1 तुलना संभव नहीं है। ArtifactBench सीधे एकत्र और सत्यापित किए गए real partition के साथ तीनों models की समान शर्तों में तुलना करता है।


सीमाएँ: 44.1kHz input आवश्यक; low-bitrate MP3 पर FPR ~8%; single-pass Demucs laundering attack पर TPR घटकर 94% हो जाता है; नवीनतम Udio के लिए TPR = 87%।


डेमो (~5 सेकंड): https://demo.intrect.io/
पेपर: https://arxiv.org/abs/2604.16254
मॉडल + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
पेटेंट आवेदन प्रगति पर (KR + PCT)

2 टिप्पणियां

 
unsure4000 13 일 전

लगता है यह आपका अपना पेपर है, क्या यह सही है?

 
chisquare88 12 일 전

69% अभी भी लगभग सिक्का उछालने जैसा ही है। यह कुछ-कुछ ऐसा लगता है जैसे music-generation AI में unit tests जोड़ने को कह रहे हों।