- Google अब एकमात्र सर्च इंजन है जो Reddit के परिणाम दिखा सकता है
- Reddit ने हाल ही में अपनी robots.txt फ़ाइल अपडेट करके Google को छोड़कर सभी सर्च इंजनों की crawling ब्लॉक कर दी है
- Bing, DuckDuckGo, Mojeek, Qwant जैसे वैकल्पिक सर्च इंजन, जो Google की indexing पर निर्भर नहीं हैं, पिछले 1 हफ्ते के Reddit सर्च परिणाम नहीं दिखा सकते
- DuckDuckGo Reddit सर्च पर 7 लिंक दिखाता है, लेकिन लिंक के गंतव्य या कारण के बारे में जानकारी नहीं देता
- Kagi, Google के सर्च index का कुछ हिस्सा खरीदता है, इसलिए वह Reddit सर्च कर सकता है
- यह ऐसे समय में हुआ है जब Google का सर्च एकाधिकार दूसरी कंपनियों की प्रतिस्पर्धा करने की क्षमता को कमजोर कर रहा है
- Reddit और Google ने इस पर मीडिया की टिप्पणी मांग का जवाब नहीं दिया, लेकिन ऐसा लगता है कि दूसरे सर्च इंजनों को बाहर रखने की वजह वह करोड़ों डॉलर की डील है जो Google को AI प्रोडक्ट training के लिए Reddit डेटा scrape करने का अधिकार देती है
Mojeek CEO की प्रतिक्रिया
- Mojeek के CEO Colin Hayhurst ने कहा कि जून की शुरुआत में Mojeek ने पाया कि Reddit crawling ब्लॉक हो गई है, और उन्होंने ईमेल से संपर्क किया लेकिन कोई जवाब नहीं मिला
- Hayhurst ने कहा, "कई बार अज्ञानता या मूर्खता की वजह से ब्लॉक कर दिया जाता है, लेकिन संपर्क करने पर इसे सुलझाया जा सकता था; इस बार किसी से भी जवाब न मिलना अभूतपूर्व है"
- Reddit, crawler को ब्लॉक करने के अलावा, Mojeek के crawler को सक्रिय रूप से भी ब्लॉक कर रहा है
AI कंपनियों द्वारा डेटा scraping रोकने की बढ़ती प्रवृत्ति
- कई वेबसाइटें अपनी robots.txt फ़ाइल अपडेट कर रही हैं, और AI कंपनियों के training डेटा scrape करने वाले bots को ब्लॉक करने की कोशिशों में तेज़ बढ़ोतरी हुई है
- Google ने हाल ही में दो crawler पेश किए हैं: सर्च परिणाम बेहतर बनाने के लिए Googlebot और Gemini ऐप को बेहतर बनाने के लिए Google-Extended
- Robots.txt फ़ाइल सिर्फ़ एक guideline है, और crawler इसे अनदेखा कर सकते हैं
Reddit की कार्रवाई की पृष्ठभूमि
- Reddit लंबे समय से उन AI कंपनियों से असंतुष्ट था जो large language model training के लिए उसकी साइट को scrape कर रही थीं, और इसे रोकने के लिए उसने सार्वजनिक और आक्रामक कदम उठाए हैं
- पिछले साल उसने API access के लिए शुल्क लेना शुरू किया, जिससे कई third-party apps को चलाना बहुत महंगा हो गया और वे बंद हो गए
- इस साल की शुरुआत में उसने Google के साथ 6 करोड़ डॉलर की डील की और Google को AI प्रोडक्ट training के लिए Reddit content license करने की अनुमति दी
Reddit की robots.txt फ़ाइल में बदलाव
- पहले यह मज़ाकों से भरे जटिल रूप में थी, लेकिन हाल ही में यह सरल और सख्त हो गई है
- अभी इसमें सिर्फ़ यह निर्देश है: "User-agent: *, Disallow: /", जिसका मतलब है कि कोई भी bot साइट के किसी भी हिस्से को scrape नहीं करे
- Reddit ने कहा, "हम खुले इंटरनेट में विश्वास करते हैं, लेकिन सार्वजनिक content के दुरुपयोग को बर्दाश्त नहीं कर सकते"
Reddit का पक्ष
- हाल के समय में ऐसे मामलों में बढ़ोतरी हुई है जहाँ commercial entities Reddit को scrape करके दावा करती हैं कि वे terms या policies से बंधी नहीं हैं
- Robots.txt के पीछे छिपकर यह कहना कि Reddit content को किसी भी उद्देश्य के लिए इस्तेमाल किया जा सकता है, और भी गंभीर समस्या है
- Reddit ने कहा कि वह बुरे इरादे वाले actors को खोजकर सक्रिय रूप से ब्लॉक करने की पूरी कोशिश करेगा, लेकिन Redditors के योगदान की रक्षा के लिए और ज़्यादा प्रयास की ज़रूरत है
- आगे चलकर robots.txt निर्देशों को यथासंभव स्पष्ट रूप से अपडेट किया जाएगा। अगर आप किसी automated agent के रूप में Reddit access करते हैं, तो आपको terms और policies का पालन करना होगा और Reddit से संवाद करना होगा
गैर-व्यावसायिक उद्देश्यों के लिए Reddit डेटा access अभी भी संभव
- Reddit ने कहा, "good-faith actors (शोधकर्ता, internet archive आदि) गैर-व्यावसायिक उपयोग के लिए Reddit content तक पहुँच बनाए रख सकेंगे"
- उसने कहा कि Reddit डेटा तक बड़े पैमाने की पहुँच के लिए वह भरोसेमंद पक्षों का चयनात्मक रूप से चुनाव करता है
- Reddit डेटा access guide के अनुसार, "search या website advertising" को "commercial use" माना जाता है, और अनुमति या शुल्क भुगतान के बिना Reddit डेटा का उपयोग नहीं किया जा सकता
केवल Google द्वारा Reddit सर्च सपोर्ट किए जाने की वास्तविकता के निहितार्थ
- Google सर्च की प्रासंगिकता लगातार घटने के बीच, अच्छे सर्च परिणाम पाने का एक तरीका अब भी यह है कि query में "Reddit" जोड़ दिया जाए
- इसकी वजह यह है कि लगभग 20 साल से Reddit पर वास्तविक users सलाह और recommendations छोड़ते आए हैं
- अब सिर्फ़ Google ही users को इस तरह की जानकारी तक ले जा सकता है, और यह कि यह AI training डेटा से जुड़ी 6 करोड़ डॉलर की डील का परिणाम है, यह दिखाने वाला एक और उदाहरण है कि generative AI tools को ताकत देने के लिए पूरे इंटरनेट को अंधाधुंध scrape करने के अनपेक्षित परिणाम क्या हो सकते हैं
Mojeek CEO की चिंता
- Mojeek 20 साल से सम्मानजनक तरीके से crawling करता आया है, और यह एक पारंपरिक सर्च इंजन है जो AI को train नहीं करता और tracking भी नहीं करता
- Reddit की Google के साथ डील वेब को खोजने के वैकल्पिक तरीके उपलब्ध कराना और कठिन बना देती है
- यह उस व्यापक प्रवृत्ति का हिस्सा है जो धीरे-धीरे वेब को कमजोर और क्षीण कर रही है
- यह घटना छोटी कंपनियों के लिए मददगार नहीं है
GN⁺ की राय
- Reddit की यह कार्रवाई content creators के अधिकारों की रक्षा और commercial misuse को रोकने के लिए है, लेकिन इसका नतीजा सर्च इंजन बाज़ार में प्रतिस्पर्धा को नुकसान पहुँचाने वाला हो सकता है
- खासकर AI training के लिए Reddit डेटा पर Google की विशेष पहुँच, Google की बाज़ार शक्ति के दुरुपयोग को लेकर चिंता बढ़ाती है
- लंबे समय में content providers, search engines और AI कंपनियों के बीच सह-अस्तित्व वाले norms और policies बनाना तत्काल ज़रूरी दिखता है
- दूसरी ओर, सर्च क्वालिटी में गिरावट के विकल्प के रूप में Reddit सर्च का उभरना अपने आप में विडंबनापूर्ण है। मूल रूप से सर्च इंजनों की प्रासंगिकता और विविधता बढ़ाने के लिए प्रयास की ज़रूरत है
- Kagi जैसे उभरते सर्च इंजनों की वृद्धि पर भी ध्यान देने लायक है, जो Google search index का कुछ हिस्सा इस्तेमाल करते हुए भी अपना अलग approach खोज रहे हैं
1 टिप्पणियां
Hacker News राय
robots.txtबदलाव AI संदर्भ में समझ में आता है, लेकिन दूसरे search engines के लिए anti-competitive हैrobots.txtया terms of service में बदलाव web scrapers पर बाध्यकारी नहीं होतेrobots.txtबदला थाrobots.txtइस्तेमाल किया