2 पॉइंट द्वारा GN⁺ 2024-07-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

en.osm.town परिचय

  • en.osm.town, Mastodon पर आधारित एक विकेंद्रीकृत social network का हिस्सा है
  • यह OpenStreetMap समुदाय की एक स्वतंत्र community है, जिसे OpenStreetMap Foundation से funding मिलती है
  • सर्वर आँकड़े: 257 सक्रिय उपयोगकर्ता

मुख्य बातें

  • Grant Slater ने AI कंपनियों से कहा कि वे OpenStreetMap डेटा को चुपके से स्क्रैप करने के बजाय $10,000 दान करें
  • $50,000 दान करने पर real-time streaming updates भी उपलब्ध कराए जा सकते हैं
  • Bart Louwers ने उल्लेख किया कि OpenStreetMap scraping आम बात है
  • wikiyu का तर्क है कि planet.osm डेटा का उपयोग करना अधिक efficient है
  • Josua ने आलोचना की कि AI बहुत ही अक्षम तरीके से training कर रहा है
  • Juan Luis ने कहा कि Read the Docs में भी AI crawlers के दुरुपयोग की समान समस्या हो रही है
  • Simon Poole का कहना है कि एक तर्कसंगत तरीका AI कंपनियों की छवि को नुकसान पहुंचा सकता है
  • Michał ने संभावना जताई कि किसी विशेष देश के contractors को OSM डेटा डाउनलोड करने का काम सौंपा गया हो सकता है
  • leadingzero ने आलोचना की कि OSM license requirements को ठीक से लागू नहीं किया जा रहा है
  • Grant Slater ने बताया कि उन्होंने tile properties tracking के लिए एक GitHub repository बनाई है
  • Guillaume Rischard ने कहा कि उन्होंने हाल ही में जर्मनी में एक कानूनी समस्या का समाधान किया है
  • Adderall girl grindset (Jes) ने AI crawlers को block करने का सुझाव दिया

GN⁺ का सार

  • यह लेख OpenStreetMap डेटा को स्क्रैप करने वाली AI कंपनियों की समस्या पर चर्चा करता है
  • इसमें OpenStreetMap डेटा का अधिक efficient उपयोग करने के तरीके और दान के जरिए डेटा access का दृष्टिकोण प्रस्तावित किया गया है
  • AI crawlers के दुरुपयोग की समस्या और उसके जवाब में उठाए जा सकने वाले कदमों पर चर्चा की गई है
  • समान कार्यक्षमता वाले प्रोजेक्ट्स में Google Maps और Bing Maps शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-07-31
Hacker News राय
  • AI crawlers robots.txt को अनदेखा करते हैं, public API का उपयोग नहीं करते, और peak load limits का पालन नहीं करते, जिससे infrastructure cost बढ़ रही है
  • OpenStreetMap Foundation के अध्यक्ष ने कहा कि OpenStreetMap data को बड़े पैमाने पर मुफ्त में डाउनलोड किया जा सकता है, और scraping के बजाय उसका उपयोग करने की सलाह दी
    • scraping दान किए गए resources पर भारी load डालती है, और scraping IPs को block करने में भी समय और मेहनत लगती है
    • resources और समय का सम्मान करना service को मुफ्त बनाए रखने में मदद करता है
  • OpenStreetMap instance को 10 मिनट में सेट अप किया जा सकता है, और यह एक साधारण docker run कमांड से संभव है
    • indexing में समय लगता है, लेकिन यह resource requirements की तुलना में बहुत लंबा नहीं है
  • OSM data की ज़रूरत थी, लेकिन data हासिल करने का सही तरीका अच्छी तरह समझ में नहीं आया
    • 100GB की बड़ी file डाउनलोड करनी पड़ती है, और अस्पष्ट formats और libraries का उपयोग करना पड़ता है
    • जानकारी बिखरी हुई है, और HTTP API सीमित है या rate-limited है
    • आखिरकार pre-converted OSM data देने वाले एक मुफ्त project का उपयोग किया गया
  • OP ने website और mapping API को आक्रामक रूप से scrape करने वाले crawlers को सीमित और block करने के बाद व्यंग्यात्मक प्रतिक्रिया दी
    • OpenStreetMap data मुफ्त में डाउनलोड किया जा सकता है, और AWS S3 तथा torrent के जरिए उपलब्ध है
    • अगर अभी शुरुआत कर रहे हैं, तो छोटे regional extract data का उपयोग करना बेहतर है
  • planet.osm को torrent पर डालकर, और scraping को सिर्फ torrent के जरिए अनुमति देकर network load को बाँटा जा सकता है
  • AI crawlers का web interface के जरिए सभी files के सभी revisions माँगना अक्षम है
    • इससे बिजली और resources की बर्बादी होती है
  • AI कंपनियों के लिए एक honeypot बनाने का सुझाव दिया गया, जो infinite loop में बेकार content generate करे
  • यह अफसोस जताया गया कि CommonCrawl जैसे projects अलग-अलग कंपनियों द्वारा servers को scrape करने की ज़रूरत खत्म नहीं कर पाए
    • शायद ऐसा इसलिए है क्योंकि वे और अधिक बार visit करना चाहते हैं, या investors को प्रभावित करने के लिए बहुत-सा VC funding खर्च कर रहे हैं
  • यह सवाल उठाया गया कि AI कंपनियाँ OSM से आखिर scrape क्या कर रही हैं