- "सार्वजनिक रूप से उपलब्ध data को scrape करना वैध है (CFAA का उल्लंघन नहीं)"
- LinkedIn द्वारा analytics company Hiq की scraping रोकने के लिए दायर मुकदमे में पहले के फैसले की फिर पुष्टि की गई (2019 में भी हार हुई थी)
- Web Archive, academia, researchers और journalists के लिए यह अच्छी खबर है
- अमेरिकी अदालत ने इस बार दशकों पुराने CFAA (Computer Fraud and Abuse Act, कंप्यूटर धोखाधड़ी और दुरुपयोग कानून) की फिर समीक्षा की
- इसके उल्लंघन को उन लोगों तक सीमित किया गया जिन्होंने कंप्यूटर सिस्टम में "बिना अनुमति access" हासिल किया हो
- सार्वजनिक websites पर 'unauthorized' की अवधारणा लागू नहीं होती
11 टिप्पणियां
मुझे जिज्ञासा है कि क्या कोरिया में भी web scraping पर कोई कानूनी समस्या नहीं है।
अगर किसी के पास अनुभव हो, तो क्या वह साझा कर सकता है?
हमारे देश के regulations के हिसाब से
personal credit information
यहाँ 'credit' का मतलब 'credit card' वाला credit नहीं है। किसी व्यक्ति की वित्तीय प्रतिष्ठा का आकलन किया जा सके ऐसी सामग्री (जैसे बैलेंस, transaction history आदि) को स्वयं उस व्यक्ति के लिए 'query' करने की सुविधा देने वाली सेवा प्रतिबंधित है। इसके लिए personal credit information management business का लाइसेंस लेना पड़ता है। लेकिन अगर उसे व्यक्ति को दिखाने के बजाय सिर्फ tax filing की तरह सामग्री के रूप में इस्तेमाल किया जाए, तो समस्या नहीं है। ह्म्म...?
वेबपेज पर crawl या scraping से मनचाही जानकारी मिल भी जाए, तब भी payment page को bypass करना, या स्क्रीन पर उपलब्ध/इरादतन दिए गए डेटा के अलावा जो भी जानकारी हासिल की जाए, वह सब illegal है। भले ही वह JSON के रूप में स्क्रीन पर दिखता न हो, फिर भी वह FE/BE के बीच आ-जा रहा होगा, और intended purpose के बाहर उसका उपयोग illegal है। लगता है मैंने खबर में देखा था कि किसी को Ministry of Justice से registry documents मुफ्त में निकालने पर गिरफ्तार किया गया था।
खैर, 2 को लेकर तो जिन financial companies (insurance/card/securities firms आदि... बैंकों को छोड़कर) के पास पैसे कम हैं, उनकी systems में बहुत छेद होते हैं, इसलिए protection के नज़रिए से इसे कुछ हद तक समझा जा सकता है... लेकिन 1 तो सच में बेवकूफी लगती है। 1 के पीछे भी personal data sovereignty वाली मंशा समझ आती है, लेकिन इसका जो रूप है, वह अभी जो किया जा रहा है, वह ActiveX 3.0? जैसा लगता है।
टिप्पणी करने वाले सभी लोगों का बहुत धन्यवाद! आपकी वजह से मुझे बहुत मदद मिली।
मैं जिस newsletter को subscribe करता हूँ, उसमें हाल ही में इसी तरह के विषय पर एक लिंक आया था, इसलिए साझा कर रहा हूँ.
नीचे rtyuiop ne जिन JobKorea VS Saramin मामलों का ज़िक्र किया है, उनके साथ यहाँ Yeogiotte VS Yanolja, Naver vs Darwin Brokerage के मामलों का भी सारांश दिया गया है.
https://stibee.com/api/v1.0/…==
ओह, Packple न्यूज़लेटर बढ़िया है। लिंक के लिए धन्यवाद~!
हमेशा आभारी रहता हूँ (_ _)
जहाँ तक मुझे पता है, सबसे मशहूर मामला Yeogi Eottae द्वारा Yanolja के डेटा को crawl करने का है। मेरी समझ के अनुसार, वह निश्चित रूप से सार्वजनिक डेटा था और crawling में अपने आप में कोई समस्या नहीं थी, लेकिन (1) सर्वर पर लोड बढ़ने से Yanolja को हुआ नुकसान और (2) एक ही उद्योग के भीतर दो ब्रांड होने के कारण इससे Yanolja को होने वाला संभावित नुकसान, ये मुख्य मुद्दे थे। मुकदमा अभी भी जारी है, और अलग-अलग लेख इसकी अलग-अलग तरह से व्याख्या करते हैं, इसलिए लगता है कि आपके लिए सीधे कुछ सामग्री पढ़कर देखना बेहतर होगा।
वित्तीय क्षेत्र में MyData की शुरुआत के बाद से scraping पर प्रतिबंध लगा दिया गया है.
https://news.einfomax.co.kr/news/articleView.html?idxno=4192027
मैंने एक वकील से इस बारे में बात की थी, और उस समय के हिसाब से उनका कहना था कि "सार्वजनिक रूप से उपलब्ध जानकारी को इकट्ठा करना अपने आप में समस्या नहीं है, लेकिन अगर crawling को रोकने की कोई व्यवस्था किसी भी रूप में मौजूद हो, तो उसे bypass करके डेटा सहेजने की कोशिश करते ही समस्या हो सकती है।"
आख़िरकार, कानून में तकनीकी पहलू से ज़्यादा यह देखा जाता है कि इरादा क्या था।
यह LinkedIn में मौजूद व्यक्तिगत प्रोफ़ाइल जानकारी है, इसलिए यह थोड़ा असहज ज़रूर लगता है..
लेकिन जो जानकारी सार्वजनिक रूप से उपलब्ध है, उसे भी स्क्रैप करने पर रोक लगाना कुछ ज़्यादा ही होगा, ऐसा लगता है।
2021 में web scraping की स्थिति
LinkedIn पर public रूप से उपलब्ध जानकारी भी काफ़ी है। लेकिन, LinkedIn scraping करने के लिए सबसे मुश्किल साइटों में से एक है। फिर भी, किसी न किसी तरह पेज इकट्ठा कर ही लिए जाते हैं। यह भाले और ढाल की लड़ाई है।