29 पॉइंट द्वारा GN⁺ 2025-12-21 | 7 टिप्पणियां | WhatsApp पर शेयर करें
  • Anna’s Archive ने Spotify के मेटाडेटा और म्यूज़िक फ़ाइलों का पूरा बैकअप लगभग 300TB के torrent archive के रूप में सार्वजनिक किया
  • इसमें लगभग 25.6 करोड़ गानों का metadata और 8.6 करोड़ music files शामिल हैं, जो कुल listen volume का 99.6% कवर करते हैं
  • लोकप्रिय गानों को OGG Vorbis 160kbit/s मूल गुणवत्ता में, और कम लोकप्रिय गानों को OGG Opus 75kbit/s में स्टोर कर कुशल संरक्षण हासिल किया गया
  • डेटा SQLite database के रूप में उपलब्ध है, जिसमें playlist·audio features·album art जैसी विस्तृत संरचना भी शामिल है
  • यह मानवता की संगीत विरासत को प्राकृतिक आपदा·युद्ध·बजट कटौती आदि से स्थायी रूप से सुरक्षित रखने के लिए दुनिया का पहला पूरी तरह सार्वजनिक music preservation archive है

परियोजना का अवलोकन

  • Anna’s Archive ने Spotify के पूरे music metadata और files को बड़े पैमाने पर scrape करके बैकअप लिया
    • कुल आकार लगभग 300TB, और लोकप्रियता क्रम में समूहित torrents के रूप में वितरित
    • इसमें 25.6 करोड़ tracks और 18.6 करोड़ unique ISRC codes शामिल हैं
  • यह archive ऐसा पूरी तरह सार्वजनिक music preservation repository है जिसे कोई भी mirror कर सकता है, और इसमें 8.6 करोड़ music files शामिल हैं
    • यह Spotify की कुल listening का लगभग 99.6% दर्शाता है
  • Anna’s Archive पहले text-केंद्रित संरक्षण (किताबें·पेपर आदि) पर केंद्रित था, लेकिन इस बार इसे music जैसे non-text medium तक बढ़ाया गया
  • Spotify की संरचित scraping method मिलने के बाद, music preservation-केंद्रित archive बनाने की दिशा में काम शुरू किया गया

मौजूदा music preservation की सीमाएँ

  • पहले के music preservation प्रयासों में तीन बड़ी समस्याएँ थीं
    1. लोकप्रिय artists की ओर झुकाव, जिससे कम चर्चित संगीत उपेक्षित रह जाता है
    2. lossless audio quality पर अत्यधिक ज़ोर, जिससे storage अक्षम हो जाता है
    3. सारे संगीत का प्रतिनिधित्व करने वाली torrent list का अभाव
  • यह Spotify बैकअप इन समस्याओं को संबोधित करके preservation-केंद्रित music archive बनाता है

डेटा संरचना और आँकड़े

  • Spotify के लगभग 25.6 करोड़ tracks में से 99.9% का metadata सुरक्षित किया गया
  • popularity metric के आधार पर प्राथमिकता तय की गई
    • popularity>0 tracks को OGG Vorbis 160kbit/s मूल गुणवत्ता में स्टोर किया गया
    • popularity=0 tracks को OGG Opus 75kbit/s में re-encode किया गया
  • जुलाई 2025 से पहले रिलीज़ हुए अधिकांश गाने शामिल हैं
  • शीर्ष 3 गानों (Lady Gaga·Billie Eilish·Bad Bunny) की कुल streaming संख्या निचले 2 करोड़ से 10 करोड़ गानों के कुल योग से अधिक है
  • पूरे catalog में 70% से अधिक गाने 1000 से कम plays वाले कम लोकप्रिय tracks हैं

torrent वितरण संरचना

  • डेटा दो हिस्सों में बंटा है: metadata और music files
    • metadata: SQLite DB के रूप में, लगभग 200GB (compressed)
    • audio analysis data: 4TB (compressed)
  • music files को Anna’s Archive Containers (AAC) फ़ॉर्मेट में वितरित किया गया है
    • Spotify के गलत OGG packets हटाने के बाद, title·ISRC·album art·ReplayGain information जैसे metadata जोड़े गए
    • कुछ files में REPLAYGAIN_ALBUM_PEAK tag त्रुटि मौजूद है

डेटा खोज और विश्लेषण

  • लोकप्रियता वितरण: अधिकांश listening popularity 50~80 श्रेणी के गानों में होती है
  • track length: 2 मिनट, 3 मिनट और 4 मिनट पर peak दिखाई देता है
  • explicit content और ISRC duplicate tracks के आँकड़े शामिल हैं
  • artist genre distribution: विस्तृत genres और grouped genres दोनों की visualization उपलब्ध है
  • album release year analysis: हाल में auto-generated और AI-generated music में तेज़ बढ़ोतरी दिखती है
  • audio feature analysis: औसत BPM लगभग 120, और loudness तथा energy के बीच correlation की पुष्टि

metadata की विस्तृत संरचना

  • प्रमुख SQLite files
    • spotify_clean.sqlite3: artists·albums·tracks का लगभग पूर्ण API replica
    • spotify_clean_audio_features.sqlite3: हर track के लिए BPM, key, energy, valence आदि audio features स्टोर
    • spotify_clean_playlists.sqlite3: 66 लाख playlists और 170 करोड़ track entries शामिल
    • spotify_clean_track_files.sqlite3: tracks और वास्तविक files के बीच mapping, साथ में file status·SHA256 hashes·licensor information
  • अतिरिक्त JSONL files में audiobook·podcast·show·episode data शामिल है
  • spotify_2025_07_coverart.tar.torrent में album art image files संग्रहीत हैं

भागीदारी और संरक्षण अनुरोध

  • Anna’s Archive ने donation और torrent seeding में भागीदारी की अपील की है
    • कम स्तर की seeding से भी पूरे संरक्षण में योगदान दिया जा सकता है
  • लक्ष्य है प्राकृतिक आपदा·युद्ध·बजट कटौती आदि से मानवता की संगीत विरासत को स्थायी रूप से सुरक्षित रखना

अतिरिक्त फीचर्स और प्रयोग

  • पूरे Spotify catalog पर ‘True Shuffle’ feature लागू किया जा सकता है
    • SQLite query के ज़रिए वास्तव में random playlist बनाई जा सकती है
  • यदि आगे पर्याप्त रुचि रही, तो individual file download feature जोड़ने की संभावना भी बताई गई है

सारांश

  • Anna’s Archive ने Spotify के लगभग पूरे डेटा का बैकअप लेकर दुनिया का सबसे बड़ा सार्वजनिक music metadata database बनाया है
  • यह पूरी तरह सार्वजनिक preservation archive है, जिसे कोई भी mirror कर सकता है
  • यह परियोजना data structure की transparency, technical precision और long-term preservation—तीनों को साथ लेकर चलती है
  • यह music industry की commercial platform dependency से आगे बढ़कर सांस्कृतिक रिकॉर्ड के स्थायी संरक्षण की आधारशिला रखती है

7 टिप्पणियां

 
tested 2025-12-24

क्या Spotify नाराज़ हो जाएगा?

 
lsdcnu 2026-01-25

https://hi.news.hada.io/topic?id=26059
हाल की खबरें देखीं, तो लगता है कि उन पर मुकदमा किया गया है।

 
vndk2234 2025-12-23

रॉबिन हुड और गैरकानूनीपन के बीच कहीं...

 
roxie 2025-12-21

कॉपीराइट है,,,

 
devworld 2025-12-21

अब पहले Suno की तरह सिर्फ commercial दायरे तक सीमित रहने वाले music generation models को open-weight open-source रूप में भी train किया जा सकेगा।

 
daumkakao 2025-12-21

कमाल है, कमाल है

 
GN⁺ 2025-12-21
Hacker News प्रतिक्रियाएँ
  • यह सच में चौंकाने वाली बात है
    मुझे पता नहीं था कि Spotify का DRM टूट चुका है, जिससे इतनी बड़ी मात्रा में डाउनलोड करना संभव हो गया
    आम उपयोगकर्ता के लिए इसका बहुत ज़्यादा उपयोग नहीं दिखता, लेकिन music classification या generation researchers के लिए यह बहुत बड़ा अवसर हो सकता है
    हालांकि, ऐसा लगता है कि यह बताना मुश्किल होगा कि किस dataset पर training की गई
    जिज्ञासा है कि यह AI researchers की मांग पर किया गया है, या सिर्फ preservation purpose के लिए

    • मैं इस बात से सहमत नहीं हूँ कि यह आम उपयोगकर्ता के लिए बेकार है
      डिवाइस या ऐप्स जो pirated TV·movie streaming अपने-आप ढूँढ देते हैं, पहले से आम हो चुके हैं
      तकनीकी रूप से यह पूरी तरह संभव है, और मेरे परिवार में गैर-तकनीकी लोग भी ऐसी चीजें इस्तेमाल करते हैं
      लेकिन Anna’s Archive टीम विचारधारात्मक प्रेरणा से काम करने वाला समूह है, AI कंपनियों के लिए नहीं
    • मैं Spotify इस्तेमाल नहीं करता
      संगीत चाहिए होता था तो ytldp से YouTube से ले लेता था, लेकिन आजकल वह भी लगभग नहीं करता
      संगीत से ज़्यादा मैं YouTube को news या background listening के लिए इस्तेमाल करता हूँ
      Google का इस पर नियंत्रण होना थोड़ा दुखद है
    • सच कहें तो music files से ज़्यादा metadata की कीमत हो सकती है
    • “यह music classification researchers के लिए है” कहना ऐसा लगता है जैसे कलाकारों को support न करने की self-justification हो
      सही दिशा यह है कि Spotify जैसी कंपनियों को regulate किया जाए ताकि musicians को उचित भुगतान मिल सके
      इस तरह का data release उल्टा AI कचरा generation को बढ़ावा देता है
    • लगता है कि ऐसे material से Lidarr जैसे music auto-collection tools को track-level पर बनाना आसान हो जाएगा
  • पैमाना देखें तो यह सच में विशाल है
    पहले का What.CD “music world की Alexandria library” कहलाता था, और तब भी वह कुछ million torrents के स्तर पर था
    लेकिन Anna का Spotify rip 18.6 करोड़ unique records शामिल करता है
    बेशक आख़िरी हिस्से में bot music जैसी चीजें भी मिली होंगी, लेकिन पैमाना अपने-आप में दबदबे वाला है

    • What.CD को महान बनाने वाली चीज सिर्फ मात्रा नहीं, बल्कि उसकी दुर्लभता और quality थी
      ग्रामीण बैंड्स के शुरुआती EP से लेकर, अधिकार संबंधी अस्पष्टता के कारण streaming पर न चढ़ सकने वाले दुर्लभ albums तक वहाँ मिलते थे
      समुदाय की recommendations, reviews और hand-made playlists से पैदा होने वाला discovery का आनंद किसी algorithm से replace नहीं हो सकता
      उसी की वजह से मुझे आज तक पसंद आने वाले कई artists मिले
    • What.CD से पहले OiNK’s Pink Palace था
      वह संगीत-प्रेम पर आधारित एक शुद्ध community थी, और Trent Reznor ने भी उसकी खुलकर प्रशंसा की थी
      अफ़सोस है कि आजकल ऐसी शुद्ध music communities लगभग गायब हो गई हैं
    • सही बात, What.CD में CD, bootleg, tape आदि जैसे Spotify पर न मिलने वाला संगीत बहुत था
      Spotify में सिर्फ वही गाने शामिल होते हैं जिनके streaming licenses हैं, इसलिए उसकी सीमाएँ हैं
    • मैं भी YouTube Music पर अक्सर niche tracks सुनता हूँ, और “काश यह Spotify पर होता” जैसे comments बहुत दिखते हैं
      एक पूर्ण music archive बनने के लिए अभी लंबा रास्ता तय करना बाकी है
    • What.CD album-level पर torrents गिनता था, जबकि Spotify में podcasts और AI-generated content तक शामिल हैं
  • मुझे व्यक्तिगत रूप से लगता है कि ऐसे projects ज़रूरी हैं
    Anna’s Archive जैसी जगहें Internet Archive जितनी ही महत्वपूर्ण हैं
    digital heritage preservation — websites, games, books जैसी चीजों का संरक्षण — ही इसका मूल है
    पीढ़ियाँ बदलने के साथ बहुत से लोग पुराने web की रचनात्मकता का अनुभव ही नहीं कर पाते
    मुझे लगता है कि मौजूदा पीढ़ी वह पीढ़ी है जिसके पास इन चीजों को preserve करने का अवसर है

  • आजकल संगीत और फ़िल्में platforms से एक-एक करके गायब होती जा रही हैं, इसलिए ऐसा preservation सच में महत्वपूर्ण है
    मेरे पास भी greyed-out playlists तीन हैं — title तक गायब हो चुका है, इसलिए पता ही नहीं चलता कि मैं क्या सुनता था
    इसलिए जो संगीत स्थायी रूप से रखना हो, वह CD में खरीदता हूँ, और dance music को बस जाने देता हूँ

  • ऐसा काम वास्तव में महत्वपूर्ण है
    10 साल पुराने articles भी देखें तो ज़्यादातर external links 404 बनकर गायब हो चुके होते हैं
    क्या हर चीज़ को preserve करना चाहिए, इस पर सवाल हो सकता है, लेकिन अगर संभव हो तो संरक्षित करना चाहिए

  • हैरानी की बात
    Spotify को बड़े पैमाने पर scrape किया गया, यह तथ्य अपने-आप में दिलचस्प है
    वे विस्तृत तरीका तो साझा नहीं करेंगे, लेकिन पढ़ने में मज़ेदार होगा

    • असल में यह इतना मुश्किल नहीं है
      बस इसका दुरुपयोग न करें और hobby project स्तर पर ही मज़े लें
      मेरा music server भी इसी तरह Spotify tracks चलाता है
      कोड लिंक
    • 300TB data को anonymous तरीके से transfer किया गया, यह बात और भी ज़्यादा चौंकाने वाली है
    • शायद उन्होंने ऐसा कोई tool इस्तेमाल किया होगा → spotizerr-spotify
  • व्यक्तिगत रूप से मुझे यह खास पसंद नहीं आया
    इससे बेहतर audio quality वाले sources पहले से मौजूद हैं, और ऐसे बड़े-scale rips सिर्फ कानूनी जोखिम बढ़ाते हैं
    खासकर यह चिंता है कि कहीं ebook libraries भी जोखिम में न आ जाएँ
    announcement में भी कहा गया था कि “music पहले से काफ़ी हद तक preserved है”, इसलिए इसे अलग project के रूप में बाँटना चाहिए था

  • जर्मनी के internet provider (SIM.de/Drillisch) Anna’s Archive को block कर रहे थे
    VPN बंद होने पर साइट खुलती ही नहीं थी, और सिर्फ Mullvad VPN चालू करने पर खुलती थी
    मुझे पता ही नहीं था कि जर्मनी में ऐसी censorship है

    • मेरा भी ऐसा ही अनुभव रहा
      alextud popcorntime खोजने पर PopcornTimeTV GitHub result नहीं आता
      Google, Kagi, DuckDuckGo, Bing — सबमें यही हाल है
      forks दिखते हैं, लेकिन original नहीं, इसलिए search filtering का शक होता है
  • पहले ऐसे संगीत भी थे जो कई platforms से एक साथ हटा दिए गए
    सोचता हूँ क्या उन्हें ऐसे archive में फिर से पाया जा सकता है
    आजकल modern lost media हर दिन बन रही है
    कुछ publishers जानबूझकर हर copy मिटाने की कोशिश करते हैं, और मुझे यह मानसिक रूप से भयावह काम लगता है
    किसी रचना को पूरी तरह नष्ट कर देना किसी भी कारण से उचित नहीं ठहराया जा सकता
    अगर वह सिर्फ लोहे की तिजोरी में पड़ी tapes में बची है, तो वह लगभग अस्तित्वहीन ही है

  • तकनीकी रूप से torrent backend वाला streaming server बनाना भी संभव है
    तरीका यह होगा कि request आने पर सिर्फ ज़रूरी हिस्से डाउनलोड किए जाएँ

    • Spotify भी 2014 तक P2P streaming इस्तेमाल करता था
      संबंधित शोध-पत्र लिंक
    • मैंने भी हाल ही में *homelab arr stack बनाया है, लेकिन music के मामले में अभी cost-benefit उतना नहीं लगता
      Spotify अभी भी सस्ता है, इसलिए फ़िलहाल चिंता नहीं करता, लेकिन artist compensation problem बनी हुई है
      उम्मीद है कि कभी torrent-based self-hosted music server आसानी से सेटअप किया जा सकेगा
    • तकनीकी रूप से यह नहीं करना चाहिए, लेकिन किया जा सकता है
    • यह एक तरह का Popcorn Time मॉडल है