7 पॉइंट द्वारा GN⁺ 2024-09-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloudflare ने घोषणा की है कि वह अगले साल एक marketplace लॉन्च करने की योजना बना रहा है, जहाँ वेबसाइट मालिक AI model providers को अपनी साइट के content scraping access बेच सकेंगे
  • यह marketplace Cloudflare के CEO Matthew Prince की बड़ी योजना का अंतिम चरण है, जिसका उद्देश्य publishers को इस बात पर बेहतर नियंत्रण देना है कि AI bots उनकी वेबसाइट को कैसे और कब scrape करें
  • इसके पहले चरण के रूप में Cloudflare ने मुफ्त observability tool AI Audit लॉन्च किया है
    • वेबसाइट मालिकों को एक dashboard मिलेगा, जहाँ वे analytics देख सकेंगे कि AI models उनकी साइट को कितनी बार scrape कर रहे हैं
    • AI Audit के जरिए वेबसाइट मालिक AI bots को block कर सकते हैं या किसी खास web scraper को allow कर सकते हैं
    • AI Audit demo वेबसाइट मालिकों को यह देखने देता है कि हर scraper कहाँ से आ रहा है, और एक वैकल्पिक window देता है जिसमें OpenAI, Meta, Amazon जैसी AI model providers उनकी साइट पर कितनी बार आती हैं, यह देखा जा सकता है
  • AI उद्योग की समस्या का समाधान
    • AI model providers हजारों छोटी वेबसाइटों को scrape करके उस जानकारी का उपयोग LLMs चलाने के लिए करते हैं
    • ज्यादातर वेबसाइटों को इसके बदले कोई भुगतान नहीं मिलता, और इससे कई वेबसाइटों का business model टूट सकता है
    • Cloudflare ने एक button भी लॉन्च किया है, जिससे वेबसाइट मालिक AI bots को block कर सकते हैं
  • ग्राहकों की मांग को दर्शाता है
    • Cloudflare के ग्राहक ऐसे tools मांग रहे थे जिनसे वे चुन सकें कि कौन-से AI models उनकी साइट तक पहुँच सकते हैं
    • Cloudflare का नया tool कुछ AI crawlers को block करते हुए दूसरों को allow करने की सुविधा देता है
  • marketplace का लक्ष्य
    • Cloudflare का marketplace छोटे publishers को AI model providers के साथ deal करने में सक्षम बनाएगा
    • वेबसाइटें scraping fee तय कर सकेंगी या AI labs से credits मांग सकेंगी
  • AI ecosystem पर प्रभाव
    • अभी कुछ AI companies content के लिए कोई भुगतान नहीं कर रही हैं, और यह स्थिति टिकाऊ नहीं है
    • Cloudflare के CEO का मानना है कि यह marketplace अंततः AI ecosystem के लिए अच्छा साबित होगा

GN⁺ का सारांश

  • Cloudflare ने वेबसाइट मालिकों को AI model providers को site content scraping access बेचने वाला marketplace लॉन्च करने की योजना घोषित की है
  • AI Audit tool के जरिए वेबसाइट मालिक यह विश्लेषण कर सकेंगे कि AI models उनकी साइट को कितनी बार scrape कर रहे हैं
  • यह marketplace छोटे publishers को AI model providers के साथ deal करने और अपने content का मुआवजा पाने में मदद करेगा
  • इससे AI ecosystem की sustainability बढ़ाने में योगदान मिल सकता है

2 टिप्पणियां

 
yangeok 2024-10-01

मकसद अच्छा है।

 
GN⁺ 2024-09-24
Hacker News राय
  • Common Crawl, OpenAI और Anthropic के साथ "Providers" सूची में शामिल है

    • Common Crawl का उपयोग AI training के अलावा भी कई उद्देश्यों के लिए होता है
    • यह Wayback Machine के लिए एक प्रमुख content source है
    • Common Crawl प्रोजेक्ट का उद्देश्य यह है कि कई कंपनियां अलग-अलग crawler चलाने के बजाय, Common Crawl डेटा इकट्ठा करे और उसे standard format में उपलब्ध कराए
    • अगर Cloudflare content access को सीमित करता है, तो इसका बड़ा असर पड़ सकता है
    • ऐसा समय आ सकता है जब ज़्यादातर websites access को सीमित करने के लिए security products का इस्तेमाल करें
  • OpenFoodFacts, OpenStreetMap और Wikipedia पर DDoS हमले होते हैं

    • डेटा मुफ्त में download किया जा सकता है, फिर भी bots सब कुछ scrape करते हैं
    • इससे बेवजह traffic पैदा होता है और लागत बढ़ती है
    • यह copyright का मुद्दा नहीं, बल्कि bots की inefficiency और operators की उदासीनता का नतीजा है
    • इसका कोई समाधान चाहिए
  • Crawling को रोकना शायद बेकार काम हो सकता है

    • यह feature उन बड़े players को और मजबूत कर सकता है जिन्होंने पहले से बहुत सारा डेटा crawl कर लिया है
    • false positives और ज़रूरत से ज़्यादा CAPTCHA की वजह से users प्रभावित हो सकते हैं
  • Cloudflare abuse से बचाने के लिए एक नई तरह की service दे रहा है

    • Cloudflare abusers के साथ मिलकर एक "marketplace" बना रहा है
    • अगर Cloudflare की service इस्तेमाल न की जाए, तो abuse जारी रहेगा
    • यह protection money मांगने जैसा लग सकता है
  • World Wide Web के भविष्य पर सवाल

    • यह हमेशा के लिए रहने वाला लगा था, लेकिन कभी न कभी IRC की तरह गायब हो सकता है
    • इसका golden age शायद पहले ही बीत चुका है, और "AI" अंत की शुरुआत हो सकता है
  • Cloudflare blog में और details देखी जा सकती हैं

    • AI Audit का demo website owners को यह देखने देता है कि AI models उनकी site को कैसे scrape करते हैं
    • देखा जा सकता है कि OpenAI, Meta, Amazon जैसे scrapers site पर कितनी बार आए
  • AI Audit का इस्तेमाल करने वाले Bingeclock का उदाहरण

    • Cloudflare की announcement के बाद 48 घंटों में दिलचस्प बदलाव
    • payment program दिलचस्प है, लेकिन traffic में कमी की वजह से website कम असरदार हो सकती है
    • AI scrapers शायद सिर्फ न्यूनतम payment ही करेंगे
  • अगला कदम: generative AI से content बनाओ, और जब Cloudflare उसे scan करे तो payment पाओ

  • एक ही site को बार-बार scrape करना बहुत बड़ी बर्बादी है

    • अगर Cloudflare changes और updates को manage कर सके, तो बहुत से resources बचाए जा सकते हैं
    • sites सीधे Cloudflare को changes बताएं, और Cloudflare उन्हें AI तक पहुंचाए
    • AI उन changes को खरीदे, और Cloudflare site को payment दे कर अपना margin रखे