Google, AI डील की वजह से Reddit पर काम करने वाला एकमात्र सर्च इंजन बन गया

(404media.co)

8 पॉइंट द्वारा GN⁺ 2024-07-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google अब एकमात्र सर्च इंजन है जो Reddit के परिणाम दिखा सकता है
Reddit ने हाल ही में अपनी robots.txt फ़ाइल अपडेट करके Google को छोड़कर सभी सर्च इंजनों की crawling ब्लॉक कर दी है
Bing, DuckDuckGo, Mojeek, Qwant जैसे वैकल्पिक सर्च इंजन, जो Google की indexing पर निर्भर नहीं हैं, पिछले 1 हफ्ते के Reddit सर्च परिणाम नहीं दिखा सकते
- DuckDuckGo Reddit सर्च पर 7 लिंक दिखाता है, लेकिन लिंक के गंतव्य या कारण के बारे में जानकारी नहीं देता
- Kagi, Google के सर्च index का कुछ हिस्सा खरीदता है, इसलिए वह Reddit सर्च कर सकता है
यह ऐसे समय में हुआ है जब Google का सर्च एकाधिकार दूसरी कंपनियों की प्रतिस्पर्धा करने की क्षमता को कमजोर कर रहा है
Reddit और Google ने इस पर मीडिया की टिप्पणी मांग का जवाब नहीं दिया, लेकिन ऐसा लगता है कि दूसरे सर्च इंजनों को बाहर रखने की वजह वह करोड़ों डॉलर की डील है जो Google को AI प्रोडक्ट training के लिए Reddit डेटा scrape करने का अधिकार देती है

Mojeek CEO की प्रतिक्रिया

Mojeek के CEO Colin Hayhurst ने कहा कि जून की शुरुआत में Mojeek ने पाया कि Reddit crawling ब्लॉक हो गई है, और उन्होंने ईमेल से संपर्क किया लेकिन कोई जवाब नहीं मिला
Hayhurst ने कहा, "कई बार अज्ञानता या मूर्खता की वजह से ब्लॉक कर दिया जाता है, लेकिन संपर्क करने पर इसे सुलझाया जा सकता था; इस बार किसी से भी जवाब न मिलना अभूतपूर्व है"
Reddit, crawler को ब्लॉक करने के अलावा, Mojeek के crawler को सक्रिय रूप से भी ब्लॉक कर रहा है

AI कंपनियों द्वारा डेटा scraping रोकने की बढ़ती प्रवृत्ति

कई वेबसाइटें अपनी robots.txt फ़ाइल अपडेट कर रही हैं, और AI कंपनियों के training डेटा scrape करने वाले bots को ब्लॉक करने की कोशिशों में तेज़ बढ़ोतरी हुई है
Google ने हाल ही में दो crawler पेश किए हैं: सर्च परिणाम बेहतर बनाने के लिए Googlebot और Gemini ऐप को बेहतर बनाने के लिए Google-Extended
Robots.txt फ़ाइल सिर्फ़ एक guideline है, और crawler इसे अनदेखा कर सकते हैं

Reddit की कार्रवाई की पृष्ठभूमि

Reddit लंबे समय से उन AI कंपनियों से असंतुष्ट था जो large language model training के लिए उसकी साइट को scrape कर रही थीं, और इसे रोकने के लिए उसने सार्वजनिक और आक्रामक कदम उठाए हैं
पिछले साल उसने API access के लिए शुल्क लेना शुरू किया, जिससे कई third-party apps को चलाना बहुत महंगा हो गया और वे बंद हो गए
इस साल की शुरुआत में उसने Google के साथ 6 करोड़ डॉलर की डील की और Google को AI प्रोडक्ट training के लिए Reddit content license करने की अनुमति दी

Reddit की robots.txt फ़ाइल में बदलाव

पहले यह मज़ाकों से भरे जटिल रूप में थी, लेकिन हाल ही में यह सरल और सख्त हो गई है
अभी इसमें सिर्फ़ यह निर्देश है: "User-agent: *, Disallow: /", जिसका मतलब है कि कोई भी bot साइट के किसी भी हिस्से को scrape नहीं करे
Reddit ने कहा, "हम खुले इंटरनेट में विश्वास करते हैं, लेकिन सार्वजनिक content के दुरुपयोग को बर्दाश्त नहीं कर सकते"

Reddit का पक्ष

हाल के समय में ऐसे मामलों में बढ़ोतरी हुई है जहाँ commercial entities Reddit को scrape करके दावा करती हैं कि वे terms या policies से बंधी नहीं हैं
Robots.txt के पीछे छिपकर यह कहना कि Reddit content को किसी भी उद्देश्य के लिए इस्तेमाल किया जा सकता है, और भी गंभीर समस्या है
Reddit ने कहा कि वह बुरे इरादे वाले actors को खोजकर सक्रिय रूप से ब्लॉक करने की पूरी कोशिश करेगा, लेकिन Redditors के योगदान की रक्षा के लिए और ज़्यादा प्रयास की ज़रूरत है
आगे चलकर robots.txt निर्देशों को यथासंभव स्पष्ट रूप से अपडेट किया जाएगा। अगर आप किसी automated agent के रूप में Reddit access करते हैं, तो आपको terms और policies का पालन करना होगा और Reddit से संवाद करना होगा

गैर-व्यावसायिक उद्देश्यों के लिए Reddit डेटा access अभी भी संभव

Reddit ने कहा, "good-faith actors (शोधकर्ता, internet archive आदि) गैर-व्यावसायिक उपयोग के लिए Reddit content तक पहुँच बनाए रख सकेंगे"
उसने कहा कि Reddit डेटा तक बड़े पैमाने की पहुँच के लिए वह भरोसेमंद पक्षों का चयनात्मक रूप से चुनाव करता है
Reddit डेटा access guide के अनुसार, "search या website advertising" को "commercial use" माना जाता है, और अनुमति या शुल्क भुगतान के बिना Reddit डेटा का उपयोग नहीं किया जा सकता

केवल Google द्वारा Reddit सर्च सपोर्ट किए जाने की वास्तविकता के निहितार्थ

Google सर्च की प्रासंगिकता लगातार घटने के बीच, अच्छे सर्च परिणाम पाने का एक तरीका अब भी यह है कि query में "Reddit" जोड़ दिया जाए
इसकी वजह यह है कि लगभग 20 साल से Reddit पर वास्तविक users सलाह और recommendations छोड़ते आए हैं
अब सिर्फ़ Google ही users को इस तरह की जानकारी तक ले जा सकता है, और यह कि यह AI training डेटा से जुड़ी 6 करोड़ डॉलर की डील का परिणाम है, यह दिखाने वाला एक और उदाहरण है कि generative AI tools को ताकत देने के लिए पूरे इंटरनेट को अंधाधुंध scrape करने के अनपेक्षित परिणाम क्या हो सकते हैं

Mojeek CEO की चिंता

Mojeek 20 साल से सम्मानजनक तरीके से crawling करता आया है, और यह एक पारंपरिक सर्च इंजन है जो AI को train नहीं करता और tracking भी नहीं करता
Reddit की Google के साथ डील वेब को खोजने के वैकल्पिक तरीके उपलब्ध कराना और कठिन बना देती है
यह उस व्यापक प्रवृत्ति का हिस्सा है जो धीरे-धीरे वेब को कमजोर और क्षीण कर रही है
यह घटना छोटी कंपनियों के लिए मददगार नहीं है

GN⁺ की राय

Reddit की यह कार्रवाई content creators के अधिकारों की रक्षा और commercial misuse को रोकने के लिए है, लेकिन इसका नतीजा सर्च इंजन बाज़ार में प्रतिस्पर्धा को नुकसान पहुँचाने वाला हो सकता है
खासकर AI training के लिए Reddit डेटा पर Google की विशेष पहुँच, Google की बाज़ार शक्ति के दुरुपयोग को लेकर चिंता बढ़ाती है
लंबे समय में content providers, search engines और AI कंपनियों के बीच सह-अस्तित्व वाले norms और policies बनाना तत्काल ज़रूरी दिखता है
दूसरी ओर, सर्च क्वालिटी में गिरावट के विकल्प के रूप में Reddit सर्च का उभरना अपने आप में विडंबनापूर्ण है। मूल रूप से सर्च इंजनों की प्रासंगिकता और विविधता बढ़ाने के लिए प्रयास की ज़रूरत है
Kagi जैसे उभरते सर्च इंजनों की वृद्धि पर भी ध्यान देने लायक है, जो Google search index का कुछ हिस्सा इस्तेमाल करते हुए भी अपना अलग approach खोज रहे हैं

1 टिप्पणियां

GN⁺ 2024-07-25

Hacker News राय

Reddit का robots.txt बदलाव AI संदर्भ में समझ में आता है, लेकिन दूसरे search engines के लिए anti-competitive है
यह इंटरनेट के लिए एक खतरनाक मिसाल बन सकता है
कई sites के पास indexing के लिए शुल्क लेने की ताकत आ सकती है
ऐसी दुनिया आ सकती है जहाँ किसी खास site के जवाब पाने के लिए आपको कोई खास search engine ही इस्तेमाल करना पड़े
efficiency के नज़रिए से websites का अपना data search engines को lease पर देना बेहतर हो सकता है
व्यावहारिक रूप से अभी सिर्फ दो ही search engines हैं
यह Kagi के लिए बहुत बुरी स्थिति है, लेकिन इससे शौकिया तौर पर चलने वाले non-commercial web की फिर से खोज भी हो सकती है
अमेरिकी क़ानून के तहत robots.txt या terms of service में बदलाव web scrapers पर बाध्यकारी नहीं होते
- क्योंकि data publicly accessible है
- site इस्तेमाल करते समय terms से सहमति वाला banner दिखाने पर भी वह बाध्यकारी नहीं होता
- बाध्यकारी होने के लिए data access सीमित करना होगा और ऐसा बनाना होगा कि account बनाकर ही access मिले
Reddit ने एक महीने पहले robots.txt बदला था
- 19 साल तक उसने बहुत उदार robots.txt इस्तेमाल किया
- लगता है कि data misuse की वजह से यह बदलाव किया गया
- अगर search engines इस बात पर सहमत हों कि वे data को training में इस्तेमाल नहीं करेंगे, तो संभव है कि access फिर खोल दिया जाए
AI bots द्वारा sites को scrape करके LLM को train करने की समस्या गंभीर होती जा रही है
- उदाहरण: thegreatestbooks.org site को 24 घंटे में bots/automation से 12 लाख requests मिलीं
Reddit, Google पर काम करने वाला एकमात्र search engine बन गया है
समझ नहीं आता कि Reddit का यह व्यवहार anti-competitive क्यों नहीं माना जा रहा
- इसे Google के competitors को भी मिलती-जुलती शर्तों पर देना चाहिए

Google, AI डील की वजह से Reddit पर काम करने वाला एकमात्र सर्च इंजन बन गया

Mojeek CEO की प्रतिक्रिया

AI कंपनियों द्वारा डेटा scraping रोकने की बढ़ती प्रवृत्ति

Reddit की कार्रवाई की पृष्ठभूमि

Reddit की robots.txt फ़ाइल में बदलाव

Reddit का पक्ष

गैर-व्यावसायिक उद्देश्यों के लिए Reddit डेटा access अभी भी संभव

केवल Google द्वारा Reddit सर्च सपोर्ट किए जाने की वास्तविकता के निहितार्थ

Mojeek CEO की चिंता

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय