22 पॉइंट द्वारा xguru 2022-04-20 | 11 टिप्पणियां | WhatsApp पर शेयर करें
  • "सार्वजनिक रूप से उपलब्ध data को scrape करना वैध है (CFAA का उल्लंघन नहीं)"
  • LinkedIn द्वारा analytics company Hiq की scraping रोकने के लिए दायर मुकदमे में पहले के फैसले की फिर पुष्टि की गई (2019 में भी हार हुई थी)
  • Web Archive, academia, researchers और journalists के लिए यह अच्छी खबर है
  • अमेरिकी अदालत ने इस बार दशकों पुराने CFAA (Computer Fraud and Abuse Act, कंप्यूटर धोखाधड़ी और दुरुपयोग कानून) की फिर समीक्षा की
    • इसके उल्लंघन को उन लोगों तक सीमित किया गया जिन्होंने कंप्यूटर सिस्टम में "बिना अनुमति access" हासिल किया हो
    • सार्वजनिक websites पर 'unauthorized' की अवधारणा लागू नहीं होती

11 टिप्पणियां

 
devsejong 2022-04-20

मुझे जिज्ञासा है कि क्या कोरिया में भी web scraping पर कोई कानूनी समस्या नहीं है।
अगर किसी के पास अनुभव हो, तो क्या वह साझा कर सकता है?

 
nullvana 2022-04-25

हमारे देश के regulations के हिसाब से

  1. personal credit information
    यहाँ 'credit' का मतलब 'credit card' वाला credit नहीं है। किसी व्यक्ति की वित्तीय प्रतिष्ठा का आकलन किया जा सके ऐसी सामग्री (जैसे बैलेंस, transaction history आदि) को स्वयं उस व्यक्ति के लिए 'query' करने की सुविधा देने वाली सेवा प्रतिबंधित है। इसके लिए personal credit information management business का लाइसेंस लेना पड़ता है। लेकिन अगर उसे व्यक्ति को दिखाने के बजाय सिर्फ tax filing की तरह सामग्री के रूप में इस्तेमाल किया जाए, तो समस्या नहीं है। ह्म्म...?

  2. वेबपेज पर crawl या scraping से मनचाही जानकारी मिल भी जाए, तब भी payment page को bypass करना, या स्क्रीन पर उपलब्ध/इरादतन दिए गए डेटा के अलावा जो भी जानकारी हासिल की जाए, वह सब illegal है। भले ही वह JSON के रूप में स्क्रीन पर दिखता न हो, फिर भी वह FE/BE के बीच आ-जा रहा होगा, और intended purpose के बाहर उसका उपयोग illegal है। लगता है मैंने खबर में देखा था कि किसी को Ministry of Justice से registry documents मुफ्त में निकालने पर गिरफ्तार किया गया था।

खैर, 2 को लेकर तो जिन financial companies (insurance/card/securities firms आदि... बैंकों को छोड़कर) के पास पैसे कम हैं, उनकी systems में बहुत छेद होते हैं, इसलिए protection के नज़रिए से इसे कुछ हद तक समझा जा सकता है... लेकिन 1 तो सच में बेवकूफी लगती है। 1 के पीछे भी personal data sovereignty वाली मंशा समझ आती है, लेकिन इसका जो रूप है, वह अभी जो किया जा रहा है, वह ActiveX 3.0? जैसा लगता है।

 
devsejong 2022-04-21

टिप्पणी करने वाले सभी लोगों का बहुत धन्यवाद! आपकी वजह से मुझे बहुत मदद मिली।

 
ninebow 2022-04-21

मैं जिस newsletter को subscribe करता हूँ, उसमें हाल ही में इसी तरह के विषय पर एक लिंक आया था, इसलिए साझा कर रहा हूँ.

नीचे rtyuiop ne जिन JobKorea VS Saramin मामलों का ज़िक्र किया है, उनके साथ यहाँ Yeogiotte VS Yanolja, Naver vs Darwin Brokerage के मामलों का भी सारांश दिया गया है.
https://stibee.com/api/v1.0/…==

 
xguru 2022-04-21

ओह, Packple न्यूज़लेटर बढ़िया है। लिंक के लिए धन्यवाद~!

 
ninebow 2022-04-21

हमेशा आभारी रहता हूँ (_ _)

 
rtyuiop 2022-04-20

जहाँ तक मुझे पता है, सबसे मशहूर मामला Yeogi Eottae द्वारा Yanolja के डेटा को crawl करने का है। मेरी समझ के अनुसार, वह निश्चित रूप से सार्वजनिक डेटा था और crawling में अपने आप में कोई समस्या नहीं थी, लेकिन (1) सर्वर पर लोड बढ़ने से Yanolja को हुआ नुकसान और (2) एक ही उद्योग के भीतर दो ब्रांड होने के कारण इससे Yanolja को होने वाला संभावित नुकसान, ये मुख्य मुद्दे थे। मुकदमा अभी भी जारी है, और अलग-अलग लेख इसकी अलग-अलग तरह से व्याख्या करते हैं, इसलिए लगता है कि आपके लिए सीधे कुछ सामग्री पढ़कर देखना बेहतर होगा।

 
tingo29 2022-04-20

वित्तीय क्षेत्र में MyData की शुरुआत के बाद से scraping पर प्रतिबंध लगा दिया गया है.

https://news.einfomax.co.kr/news/articleView.html?idxno=4192027

 
tribela 2022-04-20

मैंने एक वकील से इस बारे में बात की थी, और उस समय के हिसाब से उनका कहना था कि "सार्वजनिक रूप से उपलब्ध जानकारी को इकट्ठा करना अपने आप में समस्या नहीं है, लेकिन अगर crawling को रोकने की कोई व्यवस्था किसी भी रूप में मौजूद हो, तो उसे bypass करके डेटा सहेजने की कोशिश करते ही समस्या हो सकती है।"
आख़िरकार, कानून में तकनीकी पहलू से ज़्यादा यह देखा जाता है कि इरादा क्या था।

 
xguru 2022-04-20

यह LinkedIn में मौजूद व्यक्तिगत प्रोफ़ाइल जानकारी है, इसलिए यह थोड़ा असहज ज़रूर लगता है..
लेकिन जो जानकारी सार्वजनिक रूप से उपलब्ध है, उसे भी स्क्रैप करने पर रोक लगाना कुछ ज़्यादा ही होगा, ऐसा लगता है।

2021 में web scraping की स्थिति

 
joone 2022-04-26

LinkedIn पर public रूप से उपलब्ध जानकारी भी काफ़ी है। लेकिन, LinkedIn scraping करने के लिए सबसे मुश्किल साइटों में से एक है। फिर भी, किसी न किसी तरह पेज इकट्ठा कर ही लिए जाते हैं। यह भाले और ढाल की लड़ाई है।