हाल में LLM-इंटीग्रेटेड सेवाओं से आने वाले अत्यधिक ट्रैफ़िक से नुकसान के मामले कभी-कभी दिख रहे हैं, और मुझे लगता है कि इसे व्यावहारिक रूप से ऐसे प्रकार के लिए एक उपाय के तौर पर भी देखा जा सकता है। उदाहरण के लिए, ChatGPT के web search feature जैसी चीज़ों को देखें तो उसके user pool की प्रकृति के कारण 'दुर्भावनापूर्ण नहीं' लेकिन अत्यधिक ट्रैफ़िक पैदा होने की काफी संभावना रहती है, और सुना है कि इन्हें simple agent matching से आसानी से फ़िल्टर किया जा सकता है। अगर सच में इरादा यही है, तो फिर यह बेवजह OpenAI के server cost (और reputation?) ही जलाने का रास्ता है..
इन दिनों Google ने सिर्फ foundation model की performance ही बेहतर नहीं की है, बल्कि इस तरह की services के साथ उनका integration भी बहुत शानदार लग रहा है.
आपके बताए गए User-Agent हों या मूल पोस्ट में उल्लेखित IP-आधारित detection, मैं इस बात से सहमत हूँ कि पहचान संबंधी जानकारी को छिपाकर बदला जा सकता है, इसलिए केवल उससे किसी चीज़ को malicious कहना मुश्किल है। वास्तव में malicious bots इससे भी ज़्यादा चालाकी से पहुँचेंगे।
मेरे हिसाब से ऐसे हमलों की बजाय, rate limit वाला crawling API देना शायद ज़्यादा व्यावहारिक "nudge" होगा—ताकि वैध automated access की अनुमति भी रहे और server resources भी सुरक्षित रहें। हा हा
सच में... कमाल है.. अगर यह paid हो भी जाए, तब भी यह ऐसी quality है जिसके लिए पैसे देकर इस्तेमाल करूँगा।
जिस विषय में मेरी रुचि है, उसे podcast के रूप में सुनने पर मैं जानकारी को और अधिक दिलचस्पी के साथ ग्रहण कर पाता हूँ।
बहुत अच्छा है।
बेशक, क्योंकि यह कोई सार्वजनिक जगह नहीं है, हो सकता है कि उन्होंने बिना ज़्यादा सोचे-समझे बस पोस्ट कर दिया हो।
जैसे कम्युनिटी में भी लोग बिना ज़्यादा सोचे-समझे कमेंट कर देते हैं।
मैं crawlers को पूरी तरह रोक नहीं सकता, इसलिए सबसे अच्छा तो यही होगा कि कोशिश ही स्वीकार न करूँ, लेकिन मुझे यह जानने की जिज्ञासा थी कि उनका उकसाने वाला इरादा क्या था।
ऐसा लेख पोस्ट करने का मकसद क्या है?
मेरा तो मानना है कि जिन कंपनियों के पास वास्तव में crawler चल रहे हैं, उनके इस लेख को पढ़कर खुद को इससे बाहर रखने की संभावना लगभग नहीं के बराबर है।
तो फिर यह लेख किस तरह के पाठकों को ध्यान में रखकर लिखा गया होगा?
क्या यह उन लोगों के लिए एक परिचयात्मक पोस्ट है जो साथ में ब्लॉग चलाते हैं, ताकि उन्हें पता चले कि ऐसा तरीका भी मौजूद है,
या फिर यह इस तरह का उकसावा है कि मेरा ब्लॉग इतना secure है, तो अगर कर सकते हो तो एक बार crawl करके देख लो?
यह सच में जानने की उत्सुकता होती है कि ऐसा लेख पोस्ट करके आखिर मिलता क्या है।
यह पढ़कर मज़ा आया, जैसे पार्सल चोर को glitter bomb देना :)
बस, शायद यह भी एक तरीका हो सकता है..
वाह.. कमाल है.. सच में। यह इतना स्वाभाविक है, यकीन नहीं होता
हाल में LLM-इंटीग्रेटेड सेवाओं से आने वाले अत्यधिक ट्रैफ़िक से नुकसान के मामले कभी-कभी दिख रहे हैं, और मुझे लगता है कि इसे व्यावहारिक रूप से ऐसे प्रकार के लिए एक उपाय के तौर पर भी देखा जा सकता है। उदाहरण के लिए, ChatGPT के web search feature जैसी चीज़ों को देखें तो उसके user pool की प्रकृति के कारण 'दुर्भावनापूर्ण नहीं' लेकिन अत्यधिक ट्रैफ़िक पैदा होने की काफी संभावना रहती है, और सुना है कि इन्हें simple agent matching से आसानी से फ़िल्टर किया जा सकता है। अगर सच में इरादा यही है, तो फिर यह बेवजह OpenAI के server cost (और reputation?) ही जलाने का रास्ता है..
और जानकारी भी बहुत आसानी से समझ में आ रही है...
नैतिक रूप से यह अच्छा तरीका नहीं है। और यह कोई मूलभूत समाधान भी नहीं है।
काफ़ी मज़ेदार लेख है! यह एक ऐसा तरीका है जिसके बारे में मैंने सोचा नहीं था, बताने के लिए धन्यवाद!
ओ~ उम्मीद है।
इन दिनों Google ने सिर्फ foundation model की performance ही बेहतर नहीं की है, बल्कि इस तरह की services के साथ उनका integration भी बहुत शानदार लग रहा है.
वाह, यह तो कमाल है;;
https://freederia.com/researcharchive/
यह AI वैज्ञानिकों की साइट है
इस तरह की दिशा विभिन्न संभावनाओं को और बढ़ावा देगी
जब इनाम किसी व्यक्ति की स्वायत्तता का उल्लंघन करते हैं, तो वे आंतरिक प्रेरणा को कमज़ोर कर देते हैं— यह बात काफ़ी असरदार लगी।आपके बताए गए User-Agent हों या मूल पोस्ट में उल्लेखित IP-आधारित detection, मैं इस बात से सहमत हूँ कि पहचान संबंधी जानकारी को छिपाकर बदला जा सकता है, इसलिए केवल उससे किसी चीज़ को malicious कहना मुश्किल है। वास्तव में malicious bots इससे भी ज़्यादा चालाकी से पहुँचेंगे।
मेरे हिसाब से ऐसे हमलों की बजाय, rate limit वाला crawling API देना शायद ज़्यादा व्यावहारिक "nudge" होगा—ताकि वैध automated access की अनुमति भी रहे और server resources भी सुरक्षित रहें। हा हा
सच में... कमाल है.. अगर यह paid हो भी जाए, तब भी यह ऐसी quality है जिसके लिए पैसे देकर इस्तेमाल करूँगा।
जिस विषय में मेरी रुचि है, उसे podcast के रूप में सुनने पर मैं जानकारी को और अधिक दिलचस्पी के साथ ग्रहण कर पाता हूँ।
बहुत अच्छा है।
सुना तो था, लेकिन यह सच में कमाल है....
अगर पैसे देकर इस्तेमाल करना पड़े, तो लगता है मैं सिर्फ यही एक चीज़ इस्तेमाल करूँगा। इसी तरह की दूसरी services पर इसका असर काफ़ी बड़ा पड़ेगा।
बेशक, क्योंकि यह कोई सार्वजनिक जगह नहीं है, हो सकता है कि उन्होंने बिना ज़्यादा सोचे-समझे बस पोस्ट कर दिया हो।
जैसे कम्युनिटी में भी लोग बिना ज़्यादा सोचे-समझे कमेंट कर देते हैं।
मैं crawlers को पूरी तरह रोक नहीं सकता, इसलिए सबसे अच्छा तो यही होगा कि कोशिश ही स्वीकार न करूँ, लेकिन मुझे यह जानने की जिज्ञासा थी कि उनका उकसाने वाला इरादा क्या था।
वाह, कमाल है।
यह एक personal blog है, तो क्या मैं इसमें कुछ भी नहीं लिख सकता? 🤔
वर्ज़न बदलने पर आप कैसे निपटते हैं?
ऐसा लेख पोस्ट करने का मकसद क्या है?
मेरा तो मानना है कि जिन कंपनियों के पास वास्तव में crawler चल रहे हैं, उनके इस लेख को पढ़कर खुद को इससे बाहर रखने की संभावना लगभग नहीं के बराबर है।
तो फिर यह लेख किस तरह के पाठकों को ध्यान में रखकर लिखा गया होगा?
क्या यह उन लोगों के लिए एक परिचयात्मक पोस्ट है जो साथ में ब्लॉग चलाते हैं, ताकि उन्हें पता चले कि ऐसा तरीका भी मौजूद है,
या फिर यह इस तरह का उकसावा है कि मेरा ब्लॉग इतना secure है, तो अगर कर सकते हो तो एक बार crawl करके देख लो?
यह सच में जानने की उत्सुकता होती है कि ऐसा लेख पोस्ट करके आखिर मिलता क्या है।