12 पॉइंट द्वारा GN⁺ 2023-08-08 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI द्वारा विकसित वेब क्रॉलर GPTBot का परिचय
  • इसे "GPTBot" नाम के user-agent token और पूर्ण user-agent string से पहचाना जा सकता है
  • GPTBot द्वारा क्रॉल किए गए वेब पेज भविष्य के AI models को बेहतर बनाने में उपयोग किए जा सकते हैं
  • क्रॉलर paywall एक्सेस की आवश्यकता वाले sources, व्यक्तिगत पहचान योग्य जानकारी (PII) इकट्ठा करने के लिए ज्ञात स्थानों, और OpenAI नीतियों का उल्लंघन करने वाले टेक्स्ट को फ़िल्टर करता है
  • साइट पर GPTBot की पहुँच की अनुमति देने से AI models की सटीकता, सामान्य क्षमताओं और सुरक्षा को बेहतर बनाने में मदद मिल सकती है
  • साइट के robots.txt में GPTBot जोड़कर उसकी पहुँच रोकी जा सकती है, और साइट की विशिष्ट directories के लिए GPTBot की पहुँच की अनुमति भी दी जा सकती है
  • क्रॉलर द्वारा उपयोग की जाने वाली IP egress range OpenAI वेबसाइट पर अलग से दी गई है

3 टिप्पणियां

 
ragingwind 2023-08-08

लगता है, अब सच में बहुत सारे experiments होंगे

 
xguru 2023-08-08

क्या जिन वेबसाइटों के एडमिन को paywall access की ज़रूरत होती है, वे अपनी सामग्री ChatGPT मॉडल में शामिल कराने के लिए Bot access खोल देंगे?
अभी भी जिन साइटों पर paid access चाहिए, वे कभी-कभी Google bot के लिए caching की अनुमति दे देती हैं.
बेशक, इसका उल्टा इस्तेमाल करके crawling करने वाले bots भी होते हैं, हाहा

 
GN⁺ 2023-08-08
Hacker News की राय
  • OpenAI के web crawler, GPTBot, के वेबसाइटों पर संभावित प्रभाव पर चर्चा चल रही है
  • कुछ उपयोगकर्ताओं ने GPTBot को अलग content लौटाने का प्रयोग सुझाया, ताकि देखा जा सके कि इसका AI model training पर क्या असर पड़ता है
  • 429 Too Many Requests response header को नज़रअंदाज़ करने वाले GPTBot को लेकर चिंता, जिससे rate-limited API वाले छोटे projects में समस्या हो सकती है
  • उपयोगकर्ता इस बात पर सवाल उठा रहे हैं कि अपनी साइट पर GPTBot की पहुँच की अनुमति देने का क्या लाभ है, क्योंकि उनकी content का उपयोग मूल content creators को सीधा लाभ या credit दिए बिना AI models को बेहतर बनाने में किया जा सकता है
  • plagiarism की संभावना को लेकर चिंता, क्योंकि GPTBot content को paraphrase कर सकता है और स्रोत का citation नहीं देता, जिससे सामग्री के मूल स्रोत को साबित करना कठिन हो जाता है
  • कुछ उपयोगकर्ता इन चिंताओं के कारण GPTBot को block करने पर विचार कर रहे हैं, लेकिन यह भी सोच रहे हैं कि क्या इससे उन bots को competitive advantage मिलेगा जो ऐसे प्रतिबंधों का सम्मान नहीं करते
  • चर्चा में web crawling के ज़रिए copyright infringement के व्यापक मुद्दे का भी उल्लेख है, और कुछ उपयोगकर्ताओं का तर्क है कि source citation न देने वाले machine learning models को शत्रुतापूर्ण और संभावित रूप से copyright का उल्लंघन करने वाला माना जाना चाहिए