1 पॉइंट द्वारा GN⁺ 2025-09-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloudflare Radar में AI Insights के लिए समर्पित पेज जोड़ा गया है, जिससे AI bot·crawler ट्रैफ़िक, DNS-आधारित generative AI services की लोकप्रियता, robots.txt निर्देश, और Workers AI model usage trends को एक ही स्क्रीन पर समझना संभव है
  • AI bot और crawler ट्रैफ़िक ग्राफ़ ai.robots.txt सूची के आधार पर शीर्ष UA के time-series/summary data प्रदान करता है, और Radar API·Data Explorer के जरिए विस्तृत विश्लेषण का समर्थन करता है
  • 1.1.1.1 DNS डेटा का उपयोग करने वाली generative AI service rankings दैनिक एग्रीगेशन के साथ बदलाव का रुझान दिखाती हैं, और जनवरी 2025 के अंत में DeepSeek की तेज़ उछाल (1/26 पर पहली एंट्री → 1/29 को 3रा स्थान) जैसी उभरती सेवाओं की तेज़ अस्थिरता की पुष्टि करती हैं
  • robots.txt विश्लेषण शीर्ष 10,000 domains के AI-संबंधित Allow/Disallow निर्देशों को एग्रीगेट कर category-wise block trends को विज़ुअलाइज़ करता है, और news·media क्षेत्र में व्यापक disallow trend दिखाता है
  • Workers AI model/task popularity साझा डेटा के आधार on model और task-wise usage trends तथा अवधि-तुलना प्रदान करती है, जिससे तेज़ी से विकसित हो रहे model ecosystem की दिशा समझने में मदद मिलती है

अवलोकन

  • Cloudflare ने Radar में AI Insights पेज नया जोड़ा है, जो AI-संबंधित ट्रैफ़िक रुझान·service popularity·access control·model usage को एकीकृत रूप से उपलब्ध कराता है
  • डेटा स्रोत हैं 1.1.1.1 DNS traffic, ai.robots.txt user agent list, Workers AI shared data, और Radar API/Data Explorer इंटीग्रेशन

AI bot और crawler ट्रैफ़िक रुझान

  • शीर्ष 5 AI bot/crawler की गतिविधि को अवधि के अनुसार विज़ुअलाइज़ करके request intensity·periodicity को समझने की सुविधा देता है
    • user agent collection का आधार ai.robots.txt सूची है और इसे लगातार अपडेट किया जाता है
    • time-series/summary API endpoints के जरिए programmatic access समर्थित है
  • Data Explorer में AI bot के पूरे set पर व्यापक रुझान खोजे जा सकते हैं
    • operators region·period·UA के आधार पर anomalous traffic की जाँच कर सकते हैं
    • आंतरिक response policy के साथ correlation analysis में उपयोग संभव है

generative AI services की लोकप्रियता

  • 1.1.1.1 DNS request volume के आधार पर public generative AI services की relative ranking दैनिक आधार पर उपलब्ध कराई जाती है
    • 2023/2024 annual review में ChatGPT के लगातार 1st rank पर रहने का रिकॉर्ड था
    • जनवरी 2025 के अंत में 6–10 रैंक बैंड में उच्च अस्थिरता देखी गई
  • DeepSeek ने 26 जनवरी को पहली बार दिखने के बाद 29 जनवरी को 3रा स्थान हासिल करते हुए तेज़ उछाल दर्ज की
    • तेज़ी से बढ़ती उभरती सेवाओं का पता लगाने के लिए high-frequency ranking data उपयोगी है
    • Radar API में serviceCategory=Generative%20AI parameter के साथ raw time-series data तक पहुँचा जा सकता है

robots.txt फ़ाइल विश्लेषण

  • शीर्ष 10,000 domains को नियमित रूप से एकत्र कर AI-संबंधित Allow/Disallow directives को एग्रीगेट किया जाता है
    • ग्राफ़ full allow/disallow·partial allow/disallow को user agent के अनुसार सारांशित करता है
    • news·media category में AI UA के लिए व्यापक disallow रुझान दिखाई देता है
  • Allow directives के आधार पर explicit allow साइटों की संख्या में बड़ी कमी देखी गई
    • UA का उल्लेख न होने और wildcard अनुपस्थित होने पर default full allow व्यवहार पर ध्यान देना चाहिए
    • Radar API·Data Explorer के जरिए bot-wise/directive-wise filter analysis समर्थित है

Workers AI model और task popularity

  • Workers AI में सार्वजनिक रूप से समर्थित models और tasks के usage trends को shared data के आधार पर विज़ुअलाइज़ किया जाता है
    • model popularity/task popularity को अलग-अलग time-series और summary रूप में दिया जाता है
    • Data Explorer में period comparison (timeCompare) फ़ीचर से पिछले महीने की तुलना में बढ़त/कमी का विश्लेषण किया जा सकता है
  • model examples: text generation, image generation, speech recognition, image classification जैसे विविध tasks शामिल हैं
    • नए शक्तिशाली models के रिलीज़ होने पर early visibility के माध्यम से proactive response में उपयोग किया जा सकता है

निष्कर्ष और संकेत

  • AI ecosystem में तेज़ अस्थिरता दिखाई देती है और नई सेवाओं के कम समय में तेज़ी से बढ़ने के कई उदाहरण हैं
    • generative services के विस्तार के साथ content scraping·copyright·access control मुद्दे लगातार तनावपूर्ण संबंध में बने हुए हैं
  • AI Insights पेज ट्रैफ़िक·लोकप्रियता·access control·model usage को एकीकृत रूप से उपलब्ध कराता है, जिससे industry observers और practitioners के लिए समय पर रुझानों को समझना उपयोगी होता है
    • operators Radar API·Data Explorer के जरिए automated monitoring·reporting सिस्टम बना सकते हैं
    • robots.txt directive strategy और CDN/security policy को जोड़कर AI bot response को अधिक परिष्कृत किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-09-02
Hacker News राय
  • OpenAI ने WebBotAuth के ज़रिए पुष्टि की है कि उसका authentication status "In Progress" है। लगता है Cloudflare खुद को "अच्छे bots" का gatekeeper बनाना चाहता है। सिर्फ़ "In Progress" status का मौजूद होना ही काफ़ी मायने रखता है। दूसरी कंपनियों को सीधा "No" मिलता है, लेकिन OpenAI से कहा जा रहा है, "अभी नहीं, लेकिन CF को plans बता दिए गए हैं।"
    • लगता है Cloudflare दोहरी monetization की तरफ़ बढ़ रहा है। पहले CDN users से पैसे लेता है, और अब उन्हीं users के content तक पहुंच की permission के लिए भी पैसे लेना चाहता है। OpenAI को इस स्थिति में देखना थोड़ा संतोषजनक ज़रूर है, लेकिन शायद बात यहीं नहीं रुकेगी। सोचने वाली बात है कि Kagi या दूसरे search engines आगे भी सस्ते और उपयोगी रह पाएंगे या नहीं। Internet Archive जैसी services इस माहौल में कैसे चलेंगी, यह भी दिलचस्प है।
    • यह बात इतनी चौंकाने वाली क्यों लग रही है कि Cloudflare websites के unwanted traffic को block कर रहा है, समझ नहीं आता। मूल रूप से यही तो उसका business model है।
    • सच कहें तो bots को थोड़ा ज़्यादा तार्किक तरीके से authenticate करने का तरीका बहुत पहले से चाहिए था। यह सिर्फ़ AI bots तक सीमित मामला नहीं है।
    • Cloudflare अब इंटरनेट के gatekeepers की कतार में शामिल हो गया है। फिलहाल सिर्फ़ OpenAI इस तरह का authentication पाने की कोशिश कर रहा है, और Amazon भी कुछ हद तक उसके पीछे आता दिख रहा है। उम्मीद है बाकी कंपनियां ऐसी मांगों का विरोध करेंगी।
    • Eastdakota (Cloudflare CEO) ने कुछ इस अंदाज़ में कहा, "आजकल हर कोई अगले दौर के खेल में जगह बनाने के लिए बेतहाशा दौड़ रहा है, मैं तुम्हारे लिए फिर से एक सीट लगा सकता हूँ।" इस पर Sam (शायद OpenAI की तरफ़ से) ने कहा, "मुझे पता ही नहीं था कि मेरी सीट चली गई है।" फिर Eastdakota ने जवाब दिया, "पूरी तरह गई नहीं है, लेकिन अब पछताने वाली स्थिति बन चुकी है।"
  • यह सचमुच हैरान करने वाला data है। "Generative AI services popularity" chart में ChatGPT का नंबर 1 होना तो स्वाभाविक है, लेकिन Character.AI का Anthropic, Perplexity और xAI से आगे निकलकर नंबर 2 होना चौंकाता है। मुझे लगता है कि इस data पर हर service की DNS cache strategy का बड़ा असर हो सकता है। एक और दिलचस्प chart है "Workers AI model popularity"। उसमें llama-3-8b-instruct अप्रैल से 30~40% share के साथ नंबर 1 पर है। इतने लोकप्रिय छोटे LLM कम ही देखने को मिलते हैं। मेरी अपेक्षा थी कि Meta का m2m100-1.2b या Alphabet का Gemma 3 270M ज़्यादा इस्तेमाल होगा। शायद वजह यह है कि लोग CF worker पर चल सकने वाला सबसे ताकतवर model चुन रहे हैं। और अलग-अलग popularity trends के लिए मेरी "LLM Assistant Census" blog post देख सकते हैं।
    Generative AI services ranking देखें
    Workers AI model ranking देखें
    LLM Assistant Census
    • मुझे समझ नहीं आता कि DNS cache results को कैसे distort करेगा। जब Cloudflare sites को proxy करता है तो वह पूरे HTTP requests देख सकता है, इसलिए ऐसा नहीं लगता कि उसने statistics सिर्फ़ DNS queries के आधार पर बनाई होंगी। दूसरे comments में DNS की बात आई है, लेकिन लगता है aggregation method में कुछ context missing है।
    • Character.AI युवा users के बीच बहुत ज़्यादा लोकप्रिय है, इसलिए उसका नंबर 2 पर होना इतना भी चौंकाने वाला नहीं है।
  • मैंने हाल ही में यह जानने की कोशिश की कि अलग-अलग कंपनियां web को कितनी गहराई तक crawl करती हैं। नतीजा यह निकला कि OpenAI bot सबसे thorough था। उसने 405 links follow किए।
    Crawling data विस्तार से देखें
    • दिलचस्प आंकड़ा है। मेरे honeypot में GPTBot 92 levels की depth तक पहुंचा था। शायद मेरी site उसे कम दिलचस्प लगी होगी।
  • Bot classification में Cloudflare खुद तय करता है कि AI Bot किसे माना जाए। उदाहरण के लिए Common Crawl का CCBot कई तरह के कामों में इस्तेमाल होता है, और research papers में 10,000 से ज़्यादा बार cite किया गया है, लेकिन Cloudflare उसे सीधा "AI Bot" मान लेता है। मुझे लगता है कि ज़्यादातर website operators को यह भी ठीक से पता नहीं होगा कि कौन-सा bot AI Bot है, या वह list किन कारणों से चुनी गई है।
  • "Top Browser & user agents" में Firefox का 3.8% share देखना दुखद है।
    Cloudflare browser statistics
    • मेरी नज़र में Firefox top 5 browsers में एकमात्र browser है जो default रूप से preinstall नहीं आता। ज़्यादातर लोग default से हटने लायक असुविधा महसूस ही नहीं करते। इसलिए 90% से ज़्यादा users Firefox जैसे alternative browser खोजने तक नहीं पहुंचते।
    • शुरुआती दौर में Firefox बेहतर browser था, और उसमें ऐसे वास्तविक features थे जो मौजूदा browsers में नहीं थे, इसी वजह से उसे market share मिला था। आज का Firefox बिना किसी अलग पहचान वाला Chrome clone बनकर रह गया है। आम users, जिन्हें add-ons वगैरह का पता नहीं, उनके पास Firefox चुनने की कोई वजह नहीं है। अगर Firefox सच में उपयोगी features दे, जैसे built-in ad/junk blocking, तो शायद वह फिर से market पकड़ सकता है, लेकिन ऐसा करने की उसमें इच्छा नहीं दिखती।
    • लोग स्वेच्छा से किसी ad company के बनाए browser का इस्तेमाल कैसे करते हैं, यह मेरी समझ से बाहर है। Chrome users में ज़्यादातर को शायद यह बात पता नहीं होगी, लेकिन यहां पढ़ने वालों में भी कई लोग Google और Chrome की असलियत जानते हुए उसे इस्तेमाल करते होंगे।
    • जानना दिलचस्प होगा कि Cloudflare statistics में Firefox को अपने-आप bot मानकर filter कर देने से उसके share पर कितना असर पड़ता है।
    • Firefox user agent information ठीक से, शायद default रूप से भी, नहीं देता, इसलिए यह share वास्तविकता से और कम दिख सकता है।
  • DNS requests पर आधारित AI ranking data दिलचस्प है। 4-week view में Character.AI weekends पर लगातार नंबर 2 रहता है, Claude नंबर 3 पर, और weekdays में दोनों की ranking उलट जाती है। लेकिन aggregation graph में यह बदलाव Sunday~Monday के बीच दिखता है, इसलिए संभव है कि यह US timezone और UTC के अंतर का असर हो।
  • यह data AI कंपनियों और publishers दोनों के लिए बेहद मूल्यवान है। Cloudflare के पास इस बात की अभूतपूर्व visibility है कि कौन, कब, क्या और कितना crawl कर रहा है। मुझे लगता है कि यह जल्द ही premium paid products के रूप में सामने आ सकता है, जैसे bot authentication service या detailed crawling analytics।
    • यह Cloudflare की growth के लिए बहुत बड़ा leverage साबित होगा। उसका इरादा OpenAI जैसी बड़ी कंपनियों से जितना संभव हो उतना revenue निकालने का होगा।
  • अगर Anthropic API से search करने के बाद user traffic को link के ज़रिए सीधे target site पर भेज दिया जाए, तो Cloudflare उस search को Anthropic से match नहीं कर पाएगा। इसलिए crawling के मुकाबले referred traffic का ratio वास्तविकता से अलग दिख सकता है।
  • संभवतः इस तरह की statistics में वे malicious crawlers शामिल नहीं होंगे जो अपनी पहचान छिपाने के लिए residential proxies वगैरह का इस्तेमाल करते हैं।
  • दिल से उम्मीद है कि WebBotAuth authentication को लेकर कोई भी Cloudflare के आगे झुके नहीं, और यह कोशिश विफल हो जाए।