- OpenAI द्वारा विकसित वेब क्रॉलर GPTBot का परिचय
- इसे "GPTBot" नाम के user-agent token और पूर्ण user-agent string से पहचाना जा सकता है
- GPTBot द्वारा क्रॉल किए गए वेब पेज भविष्य के AI models को बेहतर बनाने में उपयोग किए जा सकते हैं
- क्रॉलर paywall एक्सेस की आवश्यकता वाले sources, व्यक्तिगत पहचान योग्य जानकारी (PII) इकट्ठा करने के लिए ज्ञात स्थानों, और OpenAI नीतियों का उल्लंघन करने वाले टेक्स्ट को फ़िल्टर करता है
- साइट पर GPTBot की पहुँच की अनुमति देने से AI models की सटीकता, सामान्य क्षमताओं और सुरक्षा को बेहतर बनाने में मदद मिल सकती है
- साइट के robots.txt में GPTBot जोड़कर उसकी पहुँच रोकी जा सकती है, और साइट की विशिष्ट directories के लिए GPTBot की पहुँच की अनुमति भी दी जा सकती है
- क्रॉलर द्वारा उपयोग की जाने वाली IP egress range OpenAI वेबसाइट पर अलग से दी गई है
3 टिप्पणियां
लगता है, अब सच में बहुत सारे experiments होंगे
क्या जिन वेबसाइटों के एडमिन को paywall access की ज़रूरत होती है, वे अपनी सामग्री ChatGPT मॉडल में शामिल कराने के लिए Bot access खोल देंगे?
अभी भी जिन साइटों पर paid access चाहिए, वे कभी-कभी Google bot के लिए caching की अनुमति दे देती हैं.
बेशक, इसका उल्टा इस्तेमाल करके crawling करने वाले bots भी होते हैं, हाहा
Hacker News की राय
429 Too Many Requestsresponse header को नज़रअंदाज़ करने वाले GPTBot को लेकर चिंता, जिससे rate-limited API वाले छोटे projects में समस्या हो सकती है