- एंथनी बॉर्डेन की गायब हुई Li.st पोस्टों को सार्वजनिक वेब क्रॉलिंग डेटा से बहाल करने वाला प्रोजेक्ट
- Common Crawl और Internet Archive का उपयोग करके li.st डोमेन के बचे हुए HTML को खोजा और बहाल किया गया
- Python स्क्रिप्ट
commoncrawl_search.py का उपयोग करके पब्लिक S3 bucket से HTML दस्तावेज़ अपने-आप एकत्र किए गए
- कई पोस्टों का टेक्स्ट बहाल हो गया, लेकिन इमेज फ़ाइलें अधिकांशतः खो गईं, केवल कुछ आइटम HTML रूप में बचे रहे
- बहाली के नतीजे GitHub repository पर सार्वजनिक किए गए, ताकि आगे समुदाय अतिरिक्त बहाली और संरक्षण में भाग ले सके
प्रोजेक्ट अवलोकन
- बॉर्डेन की खोई हुई Li.st पोस्टों को बहाल करने के लिए सार्वजनिक क्रॉलिंग डेटा का उपयोग करने का प्रयास
- पहले GReg TeChnoLogY साइट पर कुछ सूचियाँ सार्वजनिक दिखीं, जिसके बाद बहाली की संभावना तलाश की गई
- सुरक्षा और क्रॉलिंग क्षेत्र के अनुभव के आधार पर केवल सार्वजनिक रूप से सुलभ डेटा आर्काइव का उपयोग किया गया
- Common Crawl के दस्तावेज़ इंडेक्स में
https://li.st/Bourdain* पथ का डेटा खोजकर एकत्र किया गया
- Python 3.14.2 वातावरण में
requirements.txt dependencies इंस्टॉल करने के बाद चलाया गया
- कमांड उदाहरण:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
बहाली प्रक्रिया और टूल
commoncrawl_search.py किसी विशेष dataset को index request भेजता है और मेल खाने वाले आइटम पब्लिक S3 bucket से डाउनलोड करता है
- HTML दस्तावेज़ छोटे होने के कारण बहाली अपेक्षाकृत आसान रही
- बहाल किए गए नतीजे GitHub repository (https://github.com/thecsw/bourdain) में व्यवस्थित किए गए
- हर HTML फ़ाइल मूल लेआउट बनाए रखती है, लेकिन सामग्री में बदलाव किए बिना पुनर्निर्मित की गई है
- यह AI-जनित सामग्री नहीं है; केवल कोड के कुछ हिस्से automation tools से लिखे गए
बहाल की गई प्रमुख पोस्टें
- things-i-no-longer-have-time-or-patience-for: ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ आदि की सूची
- nice-views: Montana, Puerto Rico, Naxos, LA, Istanbul आदि यात्रा स्थलों के दृश्य
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ आदि
- objects-of-desire: vintage sunglasses, trepanning tools, BJJ gi, Kramer knives जैसे निजी संग्रह
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: Somerset Maugham, Graham Greene आदि लेखकों के जासूसी उपन्यासों की सिफारिश
- hotel-slut-that-s-me: दुनिया भर के होटलों की सूची और उनके प्रति निजी लगाव
- some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures आदि न्यूयॉर्क-संबंधित कई सूचियाँ
- अधिकांश पोस्टों का टेक्स्ट सफलतापूर्वक बहाल हुआ, लेकिन इमेज फ़ाइलें पूरी तरह खो गईं
जो आइटम बहाल नहीं हो सके
- केवल David Bowie Related (14 जनवरी 2016) पोस्ट Common Crawl में नहीं मिली
प्रोजेक्ट का महत्व और आगे की योजना
- इस बहाली कार्य को डिजिटल पुरातत्व जैसा प्रयास बताया गया है, जो पुराने वेब कंटेंट के संरक्षण की संभावना साबित करता है
- इमेज बहाली मुश्किल रही, लेकिन टेक्स्ट आर्काइव बनाना सफल रहा
- पब्लिक Git repository के माध्यम से कोई भी अतिरिक्त बहाली में भाग ले सकता है
- आगे सार्वजनिक आर्काइव निर्माण और दीर्घकालिक संरक्षण के उपायों की आवश्यकता पर ज़ोर दिया गया
अभी कोई टिप्पणी नहीं है.