• एंथनी बॉर्डेन की गायब हुई Li.st पोस्टों को सार्वजनिक वेब क्रॉलिंग डेटा से बहाल करने वाला प्रोजेक्ट
  • Common Crawl और Internet Archive का उपयोग करके li.st डोमेन के बचे हुए HTML को खोजा और बहाल किया गया
  • Python स्क्रिप्ट commoncrawl_search.py का उपयोग करके पब्लिक S3 bucket से HTML दस्तावेज़ अपने-आप एकत्र किए गए
  • कई पोस्टों का टेक्स्ट बहाल हो गया, लेकिन इमेज फ़ाइलें अधिकांशतः खो गईं, केवल कुछ आइटम HTML रूप में बचे रहे
  • बहाली के नतीजे GitHub repository पर सार्वजनिक किए गए, ताकि आगे समुदाय अतिरिक्त बहाली और संरक्षण में भाग ले सके

प्रोजेक्ट अवलोकन

  • बॉर्डेन की खोई हुई Li.st पोस्टों को बहाल करने के लिए सार्वजनिक क्रॉलिंग डेटा का उपयोग करने का प्रयास
    • पहले GReg TeChnoLogY साइट पर कुछ सूचियाँ सार्वजनिक दिखीं, जिसके बाद बहाली की संभावना तलाश की गई
    • सुरक्षा और क्रॉलिंग क्षेत्र के अनुभव के आधार पर केवल सार्वजनिक रूप से सुलभ डेटा आर्काइव का उपयोग किया गया
  • Common Crawl के दस्तावेज़ इंडेक्स में https://li.st/Bourdain* पथ का डेटा खोजकर एकत्र किया गया
    • Python 3.14.2 वातावरण में requirements.txt dependencies इंस्टॉल करने के बाद चलाया गया
    • कमांड उदाहरण: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

बहाली प्रक्रिया और टूल

  • commoncrawl_search.py किसी विशेष dataset को index request भेजता है और मेल खाने वाले आइटम पब्लिक S3 bucket से डाउनलोड करता है
    • HTML दस्तावेज़ छोटे होने के कारण बहाली अपेक्षाकृत आसान रही
  • बहाल किए गए नतीजे GitHub repository (https://github.com/thecsw/bourdain) में व्यवस्थित किए गए
    • हर HTML फ़ाइल मूल लेआउट बनाए रखती है, लेकिन सामग्री में बदलाव किए बिना पुनर्निर्मित की गई है
    • यह AI-जनित सामग्री नहीं है; केवल कोड के कुछ हिस्से automation tools से लिखे गए

बहाल की गई प्रमुख पोस्टें

  • things-i-no-longer-have-time-or-patience-for: ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ आदि की सूची
  • nice-views: Montana, Puerto Rico, Naxos, LA, Istanbul आदि यात्रा स्थलों के दृश्य
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ आदि
  • objects-of-desire: vintage sunglasses, trepanning tools, BJJ gi, Kramer knives जैसे निजी संग्रह
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: Somerset Maugham, Graham Greene आदि लेखकों के जासूसी उपन्यासों की सिफारिश
  • hotel-slut-that-s-me: दुनिया भर के होटलों की सूची और उनके प्रति निजी लगाव
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures आदि न्यूयॉर्क-संबंधित कई सूचियाँ
  • अधिकांश पोस्टों का टेक्स्ट सफलतापूर्वक बहाल हुआ, लेकिन इमेज फ़ाइलें पूरी तरह खो गईं

जो आइटम बहाल नहीं हो सके

  • केवल David Bowie Related (14 जनवरी 2016) पोस्ट Common Crawl में नहीं मिली

प्रोजेक्ट का महत्व और आगे की योजना

  • इस बहाली कार्य को डिजिटल पुरातत्व जैसा प्रयास बताया गया है, जो पुराने वेब कंटेंट के संरक्षण की संभावना साबित करता है
  • इमेज बहाली मुश्किल रही, लेकिन टेक्स्ट आर्काइव बनाना सफल रहा
  • पब्लिक Git repository के माध्यम से कोई भी अतिरिक्त बहाली में भाग ले सकता है
  • आगे सार्वजनिक आर्काइव निर्माण और दीर्घकालिक संरक्षण के उपायों की आवश्यकता पर ज़ोर दिया गया

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.