- Anna’s Archive ने Spotify के मेटाडेटा और म्यूज़िक फ़ाइलों का पूरा बैकअप लगभग 300TB के torrent archive के रूप में सार्वजनिक किया
- इसमें लगभग 25.6 करोड़ गानों का metadata और 8.6 करोड़ music files शामिल हैं, जो कुल listen volume का 99.6% कवर करते हैं
- लोकप्रिय गानों को OGG Vorbis 160kbit/s मूल गुणवत्ता में, और कम लोकप्रिय गानों को OGG Opus 75kbit/s में स्टोर कर कुशल संरक्षण हासिल किया गया
- डेटा SQLite database के रूप में उपलब्ध है, जिसमें playlist·audio features·album art जैसी विस्तृत संरचना भी शामिल है
- यह मानवता की संगीत विरासत को प्राकृतिक आपदा·युद्ध·बजट कटौती आदि से स्थायी रूप से सुरक्षित रखने के लिए दुनिया का पहला पूरी तरह सार्वजनिक music preservation archive है
परियोजना का अवलोकन
- Anna’s Archive ने Spotify के पूरे music metadata और files को बड़े पैमाने पर scrape करके बैकअप लिया
- कुल आकार लगभग 300TB, और लोकप्रियता क्रम में समूहित torrents के रूप में वितरित
- इसमें 25.6 करोड़ tracks और 18.6 करोड़ unique ISRC codes शामिल हैं
- यह archive ऐसा पूरी तरह सार्वजनिक music preservation repository है जिसे कोई भी mirror कर सकता है, और इसमें 8.6 करोड़ music files शामिल हैं
- यह Spotify की कुल listening का लगभग 99.6% दर्शाता है
- Anna’s Archive पहले text-केंद्रित संरक्षण (किताबें·पेपर आदि) पर केंद्रित था, लेकिन इस बार इसे music जैसे non-text medium तक बढ़ाया गया
- Spotify की संरचित scraping method मिलने के बाद, music preservation-केंद्रित archive बनाने की दिशा में काम शुरू किया गया
मौजूदा music preservation की सीमाएँ
- पहले के music preservation प्रयासों में तीन बड़ी समस्याएँ थीं
- लोकप्रिय artists की ओर झुकाव, जिससे कम चर्चित संगीत उपेक्षित रह जाता है
- lossless audio quality पर अत्यधिक ज़ोर, जिससे storage अक्षम हो जाता है
- सारे संगीत का प्रतिनिधित्व करने वाली torrent list का अभाव
- यह Spotify बैकअप इन समस्याओं को संबोधित करके preservation-केंद्रित music archive बनाता है
डेटा संरचना और आँकड़े
- Spotify के लगभग 25.6 करोड़ tracks में से 99.9% का metadata सुरक्षित किया गया
- popularity metric के आधार पर प्राथमिकता तय की गई
popularity>0 tracks को OGG Vorbis 160kbit/s मूल गुणवत्ता में स्टोर किया गया
popularity=0 tracks को OGG Opus 75kbit/s में re-encode किया गया
- जुलाई 2025 से पहले रिलीज़ हुए अधिकांश गाने शामिल हैं
- शीर्ष 3 गानों (Lady Gaga·Billie Eilish·Bad Bunny) की कुल streaming संख्या निचले 2 करोड़ से 10 करोड़ गानों के कुल योग से अधिक है
- पूरे catalog में 70% से अधिक गाने 1000 से कम plays वाले कम लोकप्रिय tracks हैं
torrent वितरण संरचना
- डेटा दो हिस्सों में बंटा है: metadata और music files
- metadata: SQLite DB के रूप में, लगभग 200GB (compressed)
- audio analysis data: 4TB (compressed)
- music files को Anna’s Archive Containers (AAC) फ़ॉर्मेट में वितरित किया गया है
- Spotify के गलत OGG packets हटाने के बाद, title·ISRC·album art·ReplayGain information जैसे metadata जोड़े गए
- कुछ files में
REPLAYGAIN_ALBUM_PEAK tag त्रुटि मौजूद है
डेटा खोज और विश्लेषण
- लोकप्रियता वितरण: अधिकांश listening
popularity 50~80 श्रेणी के गानों में होती है
- track length: 2 मिनट, 3 मिनट और 4 मिनट पर peak दिखाई देता है
- explicit content और ISRC duplicate tracks के आँकड़े शामिल हैं
- artist genre distribution: विस्तृत genres और grouped genres दोनों की visualization उपलब्ध है
- album release year analysis: हाल में auto-generated और AI-generated music में तेज़ बढ़ोतरी दिखती है
- audio feature analysis: औसत BPM लगभग 120, और loudness तथा energy के बीच correlation की पुष्टि
metadata की विस्तृत संरचना
- प्रमुख SQLite files
spotify_clean.sqlite3: artists·albums·tracks का लगभग पूर्ण API replica
spotify_clean_audio_features.sqlite3: हर track के लिए BPM, key, energy, valence आदि audio features स्टोर
spotify_clean_playlists.sqlite3: 66 लाख playlists और 170 करोड़ track entries शामिल
spotify_clean_track_files.sqlite3: tracks और वास्तविक files के बीच mapping, साथ में file status·SHA256 hashes·licensor information
- अतिरिक्त JSONL files में audiobook·podcast·show·episode data शामिल है
spotify_2025_07_coverart.tar.torrent में album art image files संग्रहीत हैं
भागीदारी और संरक्षण अनुरोध
- Anna’s Archive ने donation और torrent seeding में भागीदारी की अपील की है
- कम स्तर की seeding से भी पूरे संरक्षण में योगदान दिया जा सकता है
- लक्ष्य है प्राकृतिक आपदा·युद्ध·बजट कटौती आदि से मानवता की संगीत विरासत को स्थायी रूप से सुरक्षित रखना
अतिरिक्त फीचर्स और प्रयोग
- पूरे Spotify catalog पर ‘True Shuffle’ feature लागू किया जा सकता है
- SQLite query के ज़रिए वास्तव में random playlist बनाई जा सकती है
- यदि आगे पर्याप्त रुचि रही, तो individual file download feature जोड़ने की संभावना भी बताई गई है
सारांश
- Anna’s Archive ने Spotify के लगभग पूरे डेटा का बैकअप लेकर दुनिया का सबसे बड़ा सार्वजनिक music metadata database बनाया है
- यह पूरी तरह सार्वजनिक preservation archive है, जिसे कोई भी mirror कर सकता है
- यह परियोजना data structure की transparency, technical precision और long-term preservation—तीनों को साथ लेकर चलती है
- यह music industry की commercial platform dependency से आगे बढ़कर सांस्कृतिक रिकॉर्ड के स्थायी संरक्षण की आधारशिला रखती है
7 टिप्पणियां
क्या Spotify नाराज़ हो जाएगा?
https://hi.news.hada.io/topic?id=26059
हाल की खबरें देखीं, तो लगता है कि उन पर मुकदमा किया गया है।
रॉबिन हुड और गैरकानूनीपन के बीच कहीं...
कॉपीराइट है,,,
अब पहले Suno की तरह सिर्फ commercial दायरे तक सीमित रहने वाले music generation models को open-weight open-source रूप में भी train किया जा सकेगा।
कमाल है, कमाल है
Hacker News प्रतिक्रियाएँ
यह सच में चौंकाने वाली बात है
मुझे पता नहीं था कि Spotify का DRM टूट चुका है, जिससे इतनी बड़ी मात्रा में डाउनलोड करना संभव हो गया
आम उपयोगकर्ता के लिए इसका बहुत ज़्यादा उपयोग नहीं दिखता, लेकिन music classification या generation researchers के लिए यह बहुत बड़ा अवसर हो सकता है
हालांकि, ऐसा लगता है कि यह बताना मुश्किल होगा कि किस dataset पर training की गई
जिज्ञासा है कि यह AI researchers की मांग पर किया गया है, या सिर्फ preservation purpose के लिए
डिवाइस या ऐप्स जो pirated TV·movie streaming अपने-आप ढूँढ देते हैं, पहले से आम हो चुके हैं
तकनीकी रूप से यह पूरी तरह संभव है, और मेरे परिवार में गैर-तकनीकी लोग भी ऐसी चीजें इस्तेमाल करते हैं
लेकिन Anna’s Archive टीम विचारधारात्मक प्रेरणा से काम करने वाला समूह है, AI कंपनियों के लिए नहीं
संगीत चाहिए होता था तो ytldp से YouTube से ले लेता था, लेकिन आजकल वह भी लगभग नहीं करता
संगीत से ज़्यादा मैं YouTube को news या background listening के लिए इस्तेमाल करता हूँ
Google का इस पर नियंत्रण होना थोड़ा दुखद है
सही दिशा यह है कि Spotify जैसी कंपनियों को regulate किया जाए ताकि musicians को उचित भुगतान मिल सके
इस तरह का data release उल्टा AI कचरा generation को बढ़ावा देता है
पैमाना देखें तो यह सच में विशाल है
पहले का What.CD “music world की Alexandria library” कहलाता था, और तब भी वह कुछ million torrents के स्तर पर था
लेकिन Anna का Spotify rip 18.6 करोड़ unique records शामिल करता है
बेशक आख़िरी हिस्से में bot music जैसी चीजें भी मिली होंगी, लेकिन पैमाना अपने-आप में दबदबे वाला है
ग्रामीण बैंड्स के शुरुआती EP से लेकर, अधिकार संबंधी अस्पष्टता के कारण streaming पर न चढ़ सकने वाले दुर्लभ albums तक वहाँ मिलते थे
समुदाय की recommendations, reviews और hand-made playlists से पैदा होने वाला discovery का आनंद किसी algorithm से replace नहीं हो सकता
उसी की वजह से मुझे आज तक पसंद आने वाले कई artists मिले
वह संगीत-प्रेम पर आधारित एक शुद्ध community थी, और Trent Reznor ने भी उसकी खुलकर प्रशंसा की थी
अफ़सोस है कि आजकल ऐसी शुद्ध music communities लगभग गायब हो गई हैं
Spotify में सिर्फ वही गाने शामिल होते हैं जिनके streaming licenses हैं, इसलिए उसकी सीमाएँ हैं
एक पूर्ण music archive बनने के लिए अभी लंबा रास्ता तय करना बाकी है
मुझे व्यक्तिगत रूप से लगता है कि ऐसे projects ज़रूरी हैं
Anna’s Archive जैसी जगहें Internet Archive जितनी ही महत्वपूर्ण हैं
digital heritage preservation — websites, games, books जैसी चीजों का संरक्षण — ही इसका मूल है
पीढ़ियाँ बदलने के साथ बहुत से लोग पुराने web की रचनात्मकता का अनुभव ही नहीं कर पाते
मुझे लगता है कि मौजूदा पीढ़ी वह पीढ़ी है जिसके पास इन चीजों को preserve करने का अवसर है
आजकल संगीत और फ़िल्में platforms से एक-एक करके गायब होती जा रही हैं, इसलिए ऐसा preservation सच में महत्वपूर्ण है
मेरे पास भी greyed-out playlists तीन हैं — title तक गायब हो चुका है, इसलिए पता ही नहीं चलता कि मैं क्या सुनता था
इसलिए जो संगीत स्थायी रूप से रखना हो, वह CD में खरीदता हूँ, और dance music को बस जाने देता हूँ
ऐसा काम वास्तव में महत्वपूर्ण है
10 साल पुराने articles भी देखें तो ज़्यादातर external links 404 बनकर गायब हो चुके होते हैं
क्या हर चीज़ को preserve करना चाहिए, इस पर सवाल हो सकता है, लेकिन अगर संभव हो तो संरक्षित करना चाहिए
हैरानी की बात
Spotify को बड़े पैमाने पर scrape किया गया, यह तथ्य अपने-आप में दिलचस्प है
वे विस्तृत तरीका तो साझा नहीं करेंगे, लेकिन पढ़ने में मज़ेदार होगा
बस इसका दुरुपयोग न करें और hobby project स्तर पर ही मज़े लें
मेरा music server भी इसी तरह Spotify tracks चलाता है
कोड लिंक
व्यक्तिगत रूप से मुझे यह खास पसंद नहीं आया
इससे बेहतर audio quality वाले sources पहले से मौजूद हैं, और ऐसे बड़े-scale rips सिर्फ कानूनी जोखिम बढ़ाते हैं
खासकर यह चिंता है कि कहीं ebook libraries भी जोखिम में न आ जाएँ
announcement में भी कहा गया था कि “music पहले से काफ़ी हद तक preserved है”, इसलिए इसे अलग project के रूप में बाँटना चाहिए था
जर्मनी के internet provider (SIM.de/Drillisch) Anna’s Archive को block कर रहे थे
VPN बंद होने पर साइट खुलती ही नहीं थी, और सिर्फ Mullvad VPN चालू करने पर खुलती थी
मुझे पता ही नहीं था कि जर्मनी में ऐसी censorship है
alextud popcorntimeखोजने पर PopcornTimeTV GitHub result नहीं आताGoogle, Kagi, DuckDuckGo, Bing — सबमें यही हाल है
forks दिखते हैं, लेकिन original नहीं, इसलिए search filtering का शक होता है
पहले ऐसे संगीत भी थे जो कई platforms से एक साथ हटा दिए गए
सोचता हूँ क्या उन्हें ऐसे archive में फिर से पाया जा सकता है
आजकल modern lost media हर दिन बन रही है
कुछ publishers जानबूझकर हर copy मिटाने की कोशिश करते हैं, और मुझे यह मानसिक रूप से भयावह काम लगता है
किसी रचना को पूरी तरह नष्ट कर देना किसी भी कारण से उचित नहीं ठहराया जा सकता
अगर वह सिर्फ लोहे की तिजोरी में पड़ी tapes में बची है, तो वह लगभग अस्तित्वहीन ही है
तकनीकी रूप से torrent backend वाला streaming server बनाना भी संभव है
तरीका यह होगा कि request आने पर सिर्फ ज़रूरी हिस्से डाउनलोड किए जाएँ
संबंधित शोध-पत्र लिंक
Spotify अभी भी सस्ता है, इसलिए फ़िलहाल चिंता नहीं करता, लेकिन artist compensation problem बनी हुई है
उम्मीद है कि कभी torrent-based self-hosted music server आसानी से सेटअप किया जा सकेगा