मेरे लिए वेब स्क्रैपिंग, लेकिन तुम्हारे लिए नहीं

(blog.ericgoldman.org)

1 पॉइंट द्वारा GN⁺ 2023-08-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

सार्वजनिक वेब डेटा generative AI और platform competition का एक प्रमुख संसाधन बन जाने से, डेटा कौन ले जा सकता है यह कानून, अनुबंध और market power का बड़ा प्रश्न बन गया है
LinkedIn·Facebook जैसे platforms जिस डेटा की रक्षा करना चाहते हैं, वह अधिकतर user-generated content है, इसलिए platform के लिए उस पर सीधे property rights का दावा करना कठिन होता है
स्क्रैपिंग को रोकने के कानूनी साधन शुरुआती trespass to chattels और 2000 के दशक के CFAA से, hiQ Labs v. LinkedIn के बाद contract breach claims पर केंद्रित हो गए
Twitter/X के Bright Data मुकदमे की तरह, हाल के विवाद terms of service के आधार पर contract breach, tortious interference और unjust enrichment तक सिमट गए हैं
कंपनियां अपने साइट के डेटा को “proprietary” बताकर रोक सकती हैं, जबकि दूसरों के सार्वजनिक डेटा को खुद लेना चाहती हैं; generative AI training data के मामले इस विरोधाभास की अगली परीक्षा बन रहे हैं

स्क्रैपिंग डेटा एक्सेस का प्रश्न है

वेब स्क्रैपिंग इंटरनेट पर सार्वजनिक रूप से उपलब्ध ज्ञान को बड़े पैमाने पर हासिल करने का तरीका है, और मूल सवाल यह है कि कौन, किस उद्देश्य से, डेटा तक पहुंच और उसका उपयोग कर सकता है
इंटरनेट पर कुछ डेटा copyright, trademark और अन्य intellectual property rights से सुरक्षित हो सकता है, लेकिन बहुत-सा डेटा ऐसा है जिस पर सुरक्षा चाहने वाला पक्ष आसानी से intellectual property का दावा नहीं कर सकता
social media कंपनियों ने स्क्रैपिंग के खिलाफ सक्रिय रूप से मुकदमे दायर किए हैं, लेकिन LinkedIn और Facebook जिस content की रक्षा करना चाहते हैं, वह अधिकतर user-generated content है
- terms of service platform को user content के उपयोग का license देते हैं, लेकिन copyright संबंधी हित आम तौर पर user के पास रहते हैं
- platform अपने नियमों में उस डेटा पर property rights से इनकार करते हैं, लेकिन व्यवहार में उसी डेटा को अपनी संपत्ति की तरह मानते हैं

स्क्रैपिंग रोकने के कानूनी साधनों का बदलाव

शुरुआती इंटरनेट दौर में trespass to chattels सिद्धांत का उपयोग स्क्रैपिंग रोकने के लिए किया जाता था
- तर्क यह था कि अवांछित बड़े पैमाने के data requests निजी मूर्त संपत्ति माने जाने वाले computer servers में दखल देते हैं
- इसमें नुकसान का तत्व जरूरी था, और 1990 के दशक के उत्तरार्ध तथा 2000 के शुरुआती वर्षों में भद्दे scraper वास्तव में websites पर बोझ डालते थे या उन्हें बंद करा देते थे
तकनीकी वातावरण बदलने के साथ यह सिद्धांत कम प्रभावशाली होता गया
- server capacity बहुत बढ़ गई
- कई scraper request rate सीमित रखकर इस तरह काम करने लगे कि host server पर उनका पता लगाना कठिन हो या प्रभाव बहुत मामूली हो
- server या अन्य मूर्त संपत्ति को वास्तविक नुकसान साबित करना दुर्लभ होता गया
2000 के शुरुआती वर्षों से 2017 तक Computer Fraud and Abuse Act (CFAA) मुख्य निवारक साधन था
- CFAA “protected computer” तक unauthorized access को प्रतिबंधित करता है
- स्क्रैपिंग मामलों में मुख्य सवाल यह था कि cease-and-desist letter या anti-bot उपायों के बाद किया गया access “unauthorized” है या नहीं

hiQ Labs v. LinkedIn का जटिल परिणाम

2001 से 2017 तक एक सरल व्याख्या आम थी कि अनुमति वापस लिए जाने के बाद भी पहुंच जारी रखने पर CFAA की जिम्मेदारी बनती है
2017 का मामला hiQ Labs, Inc. v. LinkedIn Corp. सार्वजनिक LinkedIn डेटा तक पहुंच के संबंध में scraper hiQ Labs के अधिकारों को मान्यता देने की दिशा में चर्चित हुआ
- Ninth Circuit ने माना कि LinkedIn जैसी कंपनियों को ऐसे डेटा पर, जिसे वे own नहीं करतीं, सार्वजनिक रूप से उपलब्ध कराती हैं, और खुद भी collect तथा use करती हैं, यह तय करने की छूट देना कि कौन उसे collect/use कर सकता है, सूचना एकाधिकार का जोखिम पैदा कर सकता है
लेकिन यह परिणाम लगभग पाइरिक विजय साबित हुआ
- बाद में district court ने माना कि “LinkedIn का User Agreement स्क्रैपिंग और scraped data के unauthorized use को स्पष्ट रूप से प्रतिबंधित करता है”
- इसी आधार पर LinkedIn ने hiQ Labs के खिलाफ permanent injunction और damages हासिल किए
इसके बाद स्क्रैपिंग रोकने का मुख्य साधन CFAA नहीं, बल्कि contract breach claims बन गया

contract law व्यवहार में data property rights जैसा काम करता है

हाल में Twitter/X Corp. ने Bright Data सहित कई scraper के खिलाफ मुकदमे दायर किए
- Bright Data को दुनिया की सबसे बड़ी web scraping कंपनियों में गिना जाता है
- Twitter ने Bright Data के खिलाफ contract breach, tortious interference और unjust enrichment—ये तीन दावे किए
दस साल पहले स्क्रैपिंग मुकदमों में वादी अक्सर 10–15 कानूनी दावे जोड़ते थे और अलग-अलग सिद्धांतों को आजमाते थे, लेकिन अब यह भरोसा बढ़ गया है कि अदालतें contract breach claims को लागू करेंगी
इस ढांचे में online terms of service के जरिए host website डेटा पर अपने अधिकारों को अपनी इच्छानुसार परिभाषित कर सकती है
Mark Lemley का 2006 का Minnesota Law Review लेख Terms of Use कहता है कि property law से contract law की ओर यह बदलाव वेबसाइट मालिक के अधिकारों की सीमा कानून नहीं, बल्कि स्वयं साइट मालिक तय करने लगता है
अदालतों ने सामान्य डेटा-उपयोग नियमों या मौजूदा intellectual property नियमों के बजाय ऐसी व्यवस्था को स्वीकार किया है, जिसमें online contracts साइट डेटा पर अस्थायी intellectual property rights की तरह काम करते हैं
- हालांकि, यदि इसे copyright protection के बिल्कुल समान ढंग से बनाया जाए, तो समस्या हो सकती है

कंपनियों का दोहरा स्क्रैपिंग रवैया

contract breach को property rights की तरह इस्तेमाल करने वाली कानूनी व्यवस्था में संगति की मांग नहीं है
- कंपनी अपनी साइट पर क्या “proprietary” है, इस पर बहुत सख्त दावा कर सकती है
- और साथ ही दूसरी साइटों पर यह कह सकती है कि कौन-सा डेटा स्वतंत्र रूप से लिया जा सकता है
Microsoft ने हाल में अपने सामान्य terms of service को अपडेट कर AI services के लिए scraping, harvesting और इसी तरह के extraction तरीकों पर रोक लगाई
उसी समय Microsoft की सहयोगी OpenAI ने इंटरनेट को scrape करने के लिए डिज़ाइन किया गया GPTbot जारी किया
OpenAI के terms of service भी scraping पर रोक लगाते हैं
Microsoft की सहायक कंपनी LinkedIn ने अमेरिका के सबसे चर्चित web scraping मुकदमों में से एक में जीत का दावा किया, और अपने पूर्व प्रतिद्वंद्वी को सार्वजनिक और निजी दोनों तरह के डेटा को स्थायी रूप से scrape या access करने से रोकने वाला permanent injunction हासिल किया
Meta ने भी सार्वजनिक content को scrape करके बेचने वाली एक कंपनी पर मुकदमा किया, लेकिन अतीत में उसी scraper को public data scraping के लिए भुगतान करने के उदाहरण मौजूद हैं

अदालतें और अगली परीक्षा

इस तरह का दोहरा रवैया केवल कंपनियों की समस्या नहीं है; आलोचकों का कहना है कि यह इसलिए संभव हुआ क्योंकि अदालतों ने ऐसी संरचना को अनुमति दी
आलोचना के दायरे में Register.com v. Verio, Inc., Southwest Airlines से जुड़े मुकदमों को संभव बनाने वाला Northern District of Texas, और hiQ Labs मामले में CFAA preliminary injunction तथा contract breach permanent injunction के बीच असंगति की व्याख्या न करने वाली अदालतें शामिल हैं
यदि private parties को online adhesion contracts के जरिए intellectual property rights गढ़ने की अनुमति दी जाती है, तो डेटा एक्सेस जैसे सार्वजनिक हित के प्रश्न निजी निर्णयकर्ताओं के नियंत्रण में जा सकते हैं
contract, online contracts सहित, state law का विषय है, इसलिए किसी सरल समाधान की कल्पना करना कठिन है
एक संभावित समाधान के रूप में copyright preemption के अधिक व्यापक सिद्धांत की व्याख्या का उल्लेख होता है, लेकिन फिलहाल copyright preemption doctrine circuit courts के बीच विभाजन के कारण भ्रमित है, और Supreme Court ने हाल ही में इसे सुलझाने का अवसर ठुकरा दिया
मौजूदा कानूनी स्थिति चाहे जो भी हो, अगली परीक्षा generative AI training data से जुड़े मामले होंगे, और इस क्षेत्र की कानूनी असंगतियां आगे भी विवाद पैदा कर सकती हैं

1 टिप्पणियां

GN⁺ 2023-08-26

Hacker News की रायें

HiQ बनाम LinkedIn मामला आखिर कहाँ आकर रुका, इसे लेकर उलझन है। मेरी जानकारी में LinkedIn ने HiQ पर मुकदमा किया था, Ninth Circuit Court of Appeals ने HiQ के पक्ष में फैसला दिया, LinkedIn Supreme Court तक गया, लेकिन Supreme Court ने Van Buren का हवाला देते हुए फैसला रद्द कर वापस भेज दिया, और Ninth Circuit Court of Appeals ने फिर से समीक्षा कर वही निष्कर्ष निकाला।
इसके बाद LinkedIn ने HiQ को ब्लॉक करने पर लगी रोक वाली अस्थायी निषेधाज्ञा हटवा ली, और नवंबर 2022 में मिले-जुले फैसले के बाद अंततः मामला निजी समझौते से खत्म हुआ लगता है। लोग इस मामले को अक्सर उद्धृत करते हैं, लेकिन बारीकियों पर कम बात करते हैं।
नवंबर 2022 के फैसले का सार पढ़ने पर लगता है कि मुद्दा यह था कि HiQ ने लोगों से login करवाया, जिससे terms of use लागू हो गए, और अंत में अदालत ने LinkedIn की यह दलील स्वीकार की लगती है कि HiQ ने LinkedIn के terms of use का उल्लंघन किया।
https://www.natlawreview.com/article/court-finds-hiq-breache...
- दोबारा पढ़ने पर लगता है कि घटनाक्रम को इस तरह समझना सही होगा। hiQ ने Northern District of California की federal district court में LinkedIn के खिलाफ injunctive relief मांगी और CFAA claim पर जीत हासिल की; LinkedIn ने Ninth Circuit Court of Appeals में appeal की, लेकिन वहाँ भी CFAA मुद्दे पर hiQ जीता।
  hiQ का antitrust claim motion to dismiss के चरण में हार गया, और लगभग उसी दौरान hiQ बंद हो गया, लेकिन किसी संपन्न समर्थक ने litigation costs चुकाना जारी रखा। LinkedIn ने breach of contract आदि अन्य claims आगे बढ़ाए और motion to dismiss में जीत हासिल की; Supreme Court ने Van Buren के बाद मामला Ninth Circuit Court of Appeals को वापस भेज दिया, और Ninth Circuit Court of Appeals ने CFAA मुद्दे पर फिर hiQ का पक्ष लिया।
  इसके बाद preliminary injunction हटा दी गई, hiQ summary judgment में लगभग पूरी तरह हार गया, और अंततः हथियार डालते हुए LinkedIn की अधिकतर मांगों को स्वीकार करने वाली permanent injunction पर सहमत हुआ और LinkedIn को 500,000 डॉलर चुकाए।
- नवंबर 2022 का मिला-जुला फैसला कहने के बजाय यह hiQ Labs की भारी हार थी। अदालत द्वारा जारी permanent injunction पढ़ लेना काफी है।
- मुझे नहीं पता कि मिले-जुले फैसले की legal precedent जैसी चीज क्या होती है। मुझे यह भी नहीं पता था कि ऐसा संभव है।
terms-आधारित “contracts” बढ़ते जा रहे हैं, और आधुनिक समाज में उनसे सहमत हुए बिना जीना लगभग असंभव होता जा रहा है, इसलिए यह समस्या हर दिन बदतर हो रही है। एक नया SSD खरीदने तक में terms स्वीकार करना जुड़ गया है।
कानून की अहमियत घटती जा रही है, और हम increasingly बड़ी कंपनियों द्वारा एकतरफा थोपे गए one-sided contracts से शासित हो रहे हैं।
- अच्छा शब्द है। मुझे लगता है वेबपेज को देखने के दो तरीके हैं। एक नजरिया यह है कि वेबपेज billboard है, और दूसरा यह कि वेबपेज pamphlet है।
  अगर यह billboard है, तो मुझे पसंद न आने वाले हिस्से पर रंग पोतना, यानी ad blocker इस्तेमाल करना, नैतिक रूप से गलत हो जाता है। वेबपेज का मालिक पक्ष control चाहता है, इसलिए उसे यह नजरिया पसंद है, और जो लोग आम user की तरह वेबपेज का रूप नहीं बदल सकते वे भी आम तौर पर इसे ऐसा ही मान लेते हैं।
  अगर यह pamphlet है, तो मुझे उसे काटने-छांटने और अपनी मर्जी से दोबारा सजाने की आज़ादी है। तकनीकी रूप से यह नजरिया ज्यादा सही है। वेबपेज मेरे पास पहुंचाई गई कुछ bits of information भर है, और जब तक मेरा computer मेरे control में है, मैं उन bits को काटकर अपनी पसंद के तरीके से देख सकता हूँ।
  यह कहा जा सकता है कि Amazon.com में Amazon का वेबपेज है और Amazon उस page का मालिक है। लेकिन मैंने Amazon.com को हमेशा अपने device या किसी और के device पर ही देखा है, Amazon के स्वामित्व वाले device पर नहीं। Amazon.com किसी billboard पर मौजूद नहीं है; उसे दूसरे लोगों के स्वामित्व वाले electronic devices की जरूरत होती है। तो उन electronic devices के मालिक के क्या अधिकार हैं? मेरी screen के pixels किस क्षण से आपकी protected space बन जाते हैं?
- ऐसे contracts का physical world में भी दिखना सबसे अजीब उदाहरण है। सचमुच कुछ दुकानों में ऐसे signs लगे होते हैं कि अगर आप store में प्रवेश करते हैं तो माना जाएगा कि आपने contract terms स्वीकार कर लिए हैं।
  contract पढ़ने के लिए phone से QR code scan करने को कहा जाता है। मैंने parks में भी ऐसा ही देखा है, जहाँ प्रवेश करने पर आप इस कानूनी agreement से बंध जाते हैं कि आप park पर मुकदमा नहीं करेंगे या लगाए गए rules का पालन करेंगे।
- इसका मुकाबला करने के लिए customers के पास भी अपना terms-based contract होना चाहिए। उसमें लिखा हो कि अगर company मुझे customer के रूप में स्वीकार करती है, तो company का अपना contract अमान्य होगा।
  customer union या insurance जैसी किसी organization को हर महीने पैसे दिए जाएँ और उसके पीछे legal team हो। यह contract भी company के contract जितना ही enforceable या unenforceable होगा, इसलिए balance बन जाएगा। तब company ने fine print में क्या लिखा है, उसे पढ़ने की जरूरत नहीं रहेगी।
  अगर company customer का contract स्वीकार नहीं करती या अपने terms को bypass करने नहीं देती, तो बस वहाँ से चले जाएँ। transaction नहीं होगा, और कोई दूसरी company customer ले जाएगी।
- आधुनिक contract law private property rights का लगातार उल्लंघन करता है। forced arbitration clauses इसे और बदतर बना देते हैं।
जो बात पाखंड जैसी लगती है, वह अगर इसे सहयोग या बराबरी वाले समुदाय की बजाय competition के रूप में देखें तो कुछ हद तक गायब हो जाती है। असल में यह competition ही है। आप किसी football team से यह नहीं कहेंगे, “तुम मेरा goal करने की कोशिश करो तो ठीक, लेकिन मैं goal करने लगा तो अचानक ball रोकते हो?”
स्वाभाविक है कि वे “web scraping resources खर्च करती है, इसलिए बंद करो” कहते हुए भी पीछे से web scraping जारी रखेंगे।
यह निश्चित रूप से गलत व्यवहार है, लेकिन मुझे यह पाखंड नहीं लगता। क्योंकि यह लगातार लड़ने वाली अनैतिक कंपनियों के उस रवैये से पूरी तरह मेल खाता है, जिसमें वे अपना फायदा अधिकतम और दूसरों का फायदा न्यूनतम करना चाहती हैं।
- तुलना रोचक है, लेकिन पक्का नहीं कि यही सही framing है। scraping को तकनीकी रूप से मुश्किल बनाना goal करने की कोशिश जैसा है, इसलिए पूरी दुनिया के लिए बहुत अच्छा न होते हुए भी यह पाखंड न हो सकता है।
  लेकिन किसी खास व्यवहार को कानूनी तरीकों से रोकने की कोशिश करना, खुद वही play करते हुए referee से किसी खास तरह के play को ban करने की मांग करने जैसा है। Sports में भी ऐसा अक्सर होता है, लेकिन आम तौर पर यह पाखंड जैसा ही दिखता है।
- “web scraping resources खर्च करती है, इसलिए बंद करो” कहना उस लागत का हिस्सा है जिसकी उम्मीद public internet पर कुछ publish करते समय करनी चाहिए। लोग उसे access करेंगे। जो चीज़ जनता को देखने के लिए डाली गई है, उसे लोग access करें तो शिकायत करने का हक नहीं है।
  हां, scrapers भी परेशान करने वाली हरकतें कर सकते हैं। आलस में server को लगातार hit करते रहना या गलती से वही content बार-बार download करना। लेकिन इसके लिए मुकदमे की जरूरत नहीं है। अगर यह denial-of-service attack के स्तर का है, तो मौजूदा कानूनों से भी इसे पहले से संभाला जा सकता है।
  अगर कुछ कंपनियां सबकी स्थिति खराब करके सिर्फ खुद अमीर बनती हैं, तो ऐसी कंपनियों को corporate personhood privilege देते रहना चाहिए या नहीं, इस पर फिर से सोचना चाहिए। हमारे खर्च पर अपनी मर्जी की चीजें उठा ले जाने वाले parasites और predators को अनुमति देने की जरूरत नहीं है।
- पाखंड केवल तब नहीं होता जब कोई अपने बताए आदर्शों पर नेकनीयती से विश्वास करता हो लेकिन व्यवहार में उनका पालन न कर पाए। Football team वाली तुलना से बात धुंधली हो सकती है, लेकिन यह तथ्य नहीं बदलता कि वे दूसरों पर standards थोपते हैं और खुद पर वही standards लागू नहीं करते।
  वे अगर अनैतिक रूप से, बुरी नीयत से ऐसा करते हैं, तब भी यह पाखंड ही है। बल्कि ऐसे में तो और भी ज्यादा। अहम बात यह है कि वे कौन-सी policy आगे रख रहे हैं; उस पर सचमुच विश्वास न करना उन्हें छूट नहीं देता।
- “अनैतिक कंपनियां तो ऐसी ही होती हैं” वाली दलील की समस्या यह है कि कंपनियों को अस्तित्व की अनुमति इसलिए दी जाती है क्योंकि माना जाता है कि वे पूरे समाज को net benefit देती हैं। अगर यह धारणा खत्म हो जाए, तो समाज के पास कंपनियों को भूखे Lovecraftian nightmare की तरह देखकर आग और steamships से मिटा न देने का कारण भी खत्म हो जाता है।
- Football में fair game बनाने के लिए नियमों में बहुत सारे बदलाव किए गए हैं। लगता है company law में भी ऐसे कुछ और बदलाव करने चाहिए।
समझ नहीं आता कि यह पाखंड कैसे दिखाता है। Publicly accessible web को crawl करने और authenticated web application या API को scrape करने में बड़ा फर्क है। Legitimate search engines हमेशा public web crawling करते हैं।
- पाखंड यहीं से आता है। OpenAI आदि ने public web को scrape करके models train और build किए, फिर उन models से subscriptions बेचकर पैसा कमाते हैं, लेकिन training data के creators को कुछ नहीं मिलता।
  और फिर वे दूसरों को वही काम करने से रोकते हैं जो उन्होंने खुद किया था।
  Search engines से तुलना अलग है। Search engines public web को scrape करके search index बनाते हैं, और उस index से search results और ads देते हैं। अहम बात यह है कि search results आम तौर पर लोगों को scrape की गई websites पर भेजते हैं, जिससे उन sites को पैसा कमाने का मौका मिलता है।
- Microsoft ने OpenAI में निवेश किया है, यह सही है, लेकिन वह OpenAI को control नहीं करता।
दो समस्याएं दिखती हैं। web scraping साफ तौर पर business model problem है, और इसका एक हिस्सा scale की वजह से है।
अगर आप content मुफ्त में देते हैं और ads से उसे sustain करने की कोशिश करते हैं, तो जैसे ही कोई दूसरा ads देखे बिना content की value ले जाता है, model टूटना शुरू हो जाता है। Ad blockers, Google search results में शामिल answers, Stack Overflow clones, ChatGPT जैसी चीजें उदाहरण हैं।
दूसरी समस्या scale है, और इसे कैसे हल किया जाए, पता नहीं। जब सरकार park में shovel इस्तेमाल करने की अनुमति जैसी friendly policy बनाती है, तो वह सोच सकती है कि campers जैसे लोगों के लिए यह उपयोगी होगी। लेकिन अगर professional open-pit mining team आ जाए, तो बात अलग हो जाती है।
अगर कोई site अच्छी जानकारी मुफ्त देती है और book sales या professional services से पैसा कमाती है, तो यह ठीक-ठाक आजीविका हो सकती है। जवाब Google answer box में चला भी जाए, तब भी ज्यादा complex content या analysis पढ़ने के लिए लोगों को site पर आना होगा, और वहां से followers बन सकते हैं।
लेकिन अगर ChatGPT जैसी कोई चीज़ मेरी writing को “पढ़कर” value का 80% बिना source पता चले बांट सकती है, तो सब खत्म है। business model अब काम नहीं करता। अच्छी जानकारी मुफ्त में बांटने वाले सभी models fail हो जाते हैं। यह वही समस्या है जिससे अभी artists जूझ रहे हैं।
किसी तरह के ban के बिना इसे ठीक करने का तरीका मुझे नहीं दिखता। लेकिन जब तक हर देश इसे enforce नहीं करता, तब तक lowest common denominator के हिसाब से चलना होगा, और आखिरकार सारे content को lock करना पड़ेगा। Web search भी नहीं, Google answers भी नहीं, ChatGPT भी नहीं। robots.txt में “कृपया scrape न करें” लिखने से भी काम नहीं चलेगा।
- दिलचस्प बात यह है कि यह मूल रूप से पारंपरिक copyright debate से लगभग बिल्कुल समान है। फर्क बस इतना है कि book authors आम तौर पर अपनी personal websites पर books मुफ्त में distribute नहीं करते।
  Copyright उस author के business model को protect करने की कोशिश है जो ऐसी चीज़ बेच रहा है जिसे copy करना बहुत आसान और सस्ता है। Web scraping को कानूनी रूप से सीमित करने की कोशिश उस creator के business model को protect करने की कोशिश है जो ऐसी चीज़ मुफ्त में देता है जिसे copy करना आसान और सस्ता है, लेकिन चाहता है कि free copy लेने के लिए लोग सीधे creator के पास ही आएं।
- सही। इसलिए scraping सभी के लिए unlimited और legal होनी चाहिए। Internet पर accessible सभी जानकारी को process करना भी legal होना चाहिए।
  इसलिए हमें GPT services का इस्तेमाल करके अपने models train करने या publicly accessible किसी भी चीज़ को scrape करने की भी अनुमति होनी चाहिए। हमारा एकमात्र बचाव ऐसी competing services हैं जो किसी भी general-purpose large language model से बेहतर तरीके से data process करें। समाधान लगभग हमेशा regulation नहीं, बल्कि fair competition होता है।
- Paywall से यह हल होता नहीं दिखता। Scraper के लिए एक paid account काफी है। नई posts आते ही उन्हें “पढ़ने” भर की बात हो तो rate limiting भी व्यावहारिक रूप से मुश्किल है।
  Data मिल जाने के बाद उसे distribute किया जा सकता है। अगर सीधे वैसा ही publish करना copyright infringement है, तो AI के पीछे छिपाकर उसे धुंधला बनाने का तरीका काफी हद तक bypass कर देगा।
अगर free lending libraries और web search indexes पहले से मौजूद न होते और आज उन्हें नया बनाने की कोशिश की जाती, तो lawsuits से उन्हें पूरी तरह कुचल दिया जाता।
ऐसी घटनाओं का मुख्य आधार contract agreement की धुंधली समझ है। मेरी राय दो बातों की है। EULA वह दस्तावेज़ नहीं है जिसे कंपनियां हस्ताक्षर कराने के लिए बनाती हैं, और मेरे हिसाब से EULA शुरू से ही कचरा है
यह पूरी तरह एकतरफा होता है, और इसका ज़्यादातर हिस्सा, अगर किसी के पास सच में लड़ने के संसाधन हों, तो गैरकानूनी होगा या अदालत में टिक नहीं पाएगा
EULA को पढ़ा और समझा गया है, यह सुनिश्चित करने की ज़िम्मेदारी उसे बनाने वाली कंपनी पर होनी चाहिए, और अगर साइट access से पहले यह साबित न किया जा सके कि उस व्यक्ति ने पूरा EULA समझ लिया था, तो उसे enforce नहीं किया जा सकना चाहिए। EULA कोई business contract नहीं है। यह एक तरह का corporate pseudo-law है जिसे कंपनी product के इस्तेमाल पर थोपना चाहती है
दुनिया में कौन-सा product इस्तेमाल के तरीकों पर नियमों की इतनी लंबी सूची साथ भेजता है और कहता है कि तोड़ोगे तो मुकदमा हो सकता है?
इसलिए जब बात “company-to-company scraping” पर आती है, अगर आपने उसे web पर डाल रखा है और उस content पर आपका असली copyright नहीं है, यानी वह आपने खुद नहीं बनाया है, तो उसे “चोरी” से बचाने का आपको अधिकार नहीं है
बेशक मुझे पता है कि John Deere ग्राहकों को अपना tractor repair नहीं करने देता, लेकिन वह भी बकवास है
- इस तरह के online agreements अक्सर enforceable होते हैं, भले ही कंपनियों के पास बचाव के लिए बहुत संसाधन हों
लिंक किया गया Register.com बनाम Verio मामला दिलचस्प था। मेरे हिसाब से अदालत ने terms-type contracts पर आम धारणा से कहीं ज़्यादा nuanced फैसला दिया था
इस मामले में Verio ने Register के API को उन उद्देश्यों के लिए call किया जिन्हें Register ने प्रतिबंधित किया था। लेकिन Register ने restrictions बताने वाला “contract” text call खत्म होने के बाद ही दिया था। शायद वह API response का हिस्सा था
अदालत ने सच में माना कि यह बहुत देर से था। अगर API call की conditions जानने का एकमात्र तरीका उसी API को call करना है, तो यह shrinkwrap contract है और conditions अमान्य हैं
हालांकि अदालत ने यह निष्कर्ष केवल पहले API call पर लागू किया। Verio में ऐसे कर्मचारी थे जिनसे common sense की उम्मीद की जा सकती थी, और पहले call के बाद उनके पास text पढ़कर restrictions जानने का मौका था। इसलिए उसके बाद के सभी API calls में, चूंकि Verio के कर्मचारी यह जानते हुए भी कर रहे थे कि Register ने इसे स्पष्ट रूप से मना किया है, अदालत ने इसे contract breach माना
अहम बात यह है कि अदालत ने यह सिद्धांत नहीं छोड़ा कि contract बनाने के लिए व्यक्ति को contract terms पता होने चाहिए। यह मामला असल में conditions जानते हुए भी न जानने का दिखावा करने वाली स्थिति को खारिज करने जैसा था
[1] https://en.m.wikipedia.org/wiki/Register.com_v._Verio
पिछले हफ्ते चर्चा में आया Allen Institute का मामला अच्छा उदाहरण है
https://news.ycombinator.com/item?id=37181415
उन्होंने public domain सामग्री scrape करके बनाए गए dataset को “open” किया, लेकिन साथ में एक license लगा दिया जो सीमित करता था कि लोग उसे कैसे इस्तेमाल कर सकते हैं
“वे जिस content को protect करना चाहते हैं, वह उनका नहीं बल्कि users का है” यह बात कुछ हद तक ही सही है। Facebook कहता है कि content users का है। इससे illegal content होने पर यह समझाना आसान हो जाता है कि उनकी जिम्मेदारी नहीं है
लेकिन user भी Facebook को “Facebook पर या Facebook से संबंधित पोस्ट किए गए सभी intellectual property content को इस्तेमाल करने के लिए non-exclusive, transferable, sub-licensable, royalty-free, worldwide license” देने पर सहमत होता है
उदाहरण के लिए, user अपना content delete कर दे तब भी Facebook उसे इस्तेमाल कर सकता है और friends को दिखा सकता है। इसलिए मैं इसे “कुछ हद तक” मानता हूं
- इससे यह नहीं बदलता कि content किसका है। यह सिर्फ Facebook को कुछ अधिकार देता है। दरअसल अगर “perpetual” या “irrevocable” जैसे शब्द न हों, तो इसका मतलब यह नहीं होता कि delete करने के बाद भी उसे इस्तेमाल किया जा सकता है या अधिकार देने को वापस नहीं लिया जा सकता
- License ownership नहीं है। वैसे भी लेख का वह हिस्सा सिर्फ context explanation है, और यहां समझाई गई बातें चर्चा वाले मुकदमे या फैसले का कानूनी आधार नहीं हैं। यह बताने वाला हिस्सा है कि property law क्यों इस्तेमाल नहीं हुआ
- क्या आपने लगा हुआ sign पढ़ा? उस पर लिखा था, “मेरी निजी property के बाहर वाली सड़क पर चलना मना है”
- मुझे नहीं लगता कि यह कहना सही है कि user अपना content delete कर दे तब भी Facebook उसे इस्तेमाल करता रह सकता है और friends को दिखा सकता है। अगर मैंने Facebook से platform पर अपना data delete करने को कहा और उसने 1 महीने में delete नहीं किया, तो Facebook GDPR का उल्लंघन करेगा और शायद CCPA आदि का भी

मेरे लिए वेब स्क्रैपिंग, लेकिन तुम्हारे लिए नहीं

स्क्रैपिंग डेटा एक्सेस का प्रश्न है

स्क्रैपिंग रोकने के कानूनी साधनों का बदलाव

hiQ Labs v. LinkedIn का जटिल परिणाम

contract law व्यवहार में data property rights जैसा काम करता है

कंपनियों का दोहरा स्क्रैपिंग रवैया

अदालतें और अगली परीक्षा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें