SlopStop: Kagi Search की community-आधारित AI जनित सामग्री पहचान प्रणाली

(blog.kagi.com)

5 पॉइंट द्वारा GN⁺ 2025-11-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI-जनित spam और content farms से प्रदूषित वेब माहौल को साफ़ करने के लिए Kagi Search ने community-participation detection system ‘SlopStop’ पेश किया
SlopStop search results में AI-जनित text·image·video का real-time ‘AI slop score’ दिखाता है, और users को low-quality content सीधे report करने देता है
डोमेन-स्तर के automatic demotion और AI-जनित media filtering feature के ज़रिए अधिक भरोसेमंद जानकारी की visibility बढ़ाई जाती है
SlopStop, ‘Small Web’ project के साथ जुड़कर, human-centric creators और authentic content को प्राथमिकता देता है
Kagi का लक्ष्य इसके माध्यम से दुनिया का सबसे बड़ा AI slop dataset बनाना है, जिसे आगे चलकर AI hallucination और misinformation defense technology में इस्तेमाल किया जाएगा

AI Slop की परिभाषा और Kagi की प्रतिक्रिया

AI slop का मतलब है search ranking में हेरफेर या attention हासिल करने के उद्देश्य से बनाई गई भ्रामक या कम-मूल्य वाली AI content
- उदाहरण के तौर पर fake reviews, झूठी विशेषज्ञता, गलत जानकारी, revenue-केंद्रित content farms शामिल हैं
Kagi AI का विरोध नहीं करता, लेकिन यह साफ़ कहता है कि ऐसी AI content जो मानवीय insight और connection की जगह लेती है, हानिकारक है
Kagi का दर्शन “ऐसा search experience जिसमें नियंत्रण इंसान के पास हो” है, और वह पहले से ही ad·tracker-केंद्रित low-quality pages को नीचे रैंक करता रहा है
SlopStop मौजूदा image filter का विस्तार करके video, article, domain सहित पूरे दायरे की AI-जनित सामग्री का पता लगाता है

SlopStop कैसे काम करता है

Search results में AI slop score display जोड़ा गया है, जिससे users तुरंत content की विश्वसनीयता देख सकते हैं
Users web, image और video results में ‘AI-जनित सामग्री के रूप में report करें’ feature के ज़रिए low-quality content की सूचना दे सकते हैं
- Kagi इसे अपने internal signals से verify करने के बाद, AI content का अनुपात अधिक होने वाले domains को अपने-आप demote करता है
- Mixed domains के मामले में, सिर्फ़ individual pages पर AI-generated label लगाया जाता है
AI-जनित images·videos की पुष्टि होते ही उन्हें label किया जाता है और automatic demotion लागू होता है, जबकि users AI media को पूरी तरह block करने वाला filter चुन सकते हैं
CEO Vlad ने कहा कि “AI slop, human-centric internet के लिए अस्तित्वगत ख़तरा है, और SlopStop इसे हटाने की पहली सीढ़ी है”

SlopStop और Small Web का संयोजन

AI की प्रगति तेज़ है, लेकिन SlopStop और Small Web मिलकर मानव-केंद्रित web ecosystem की बहाली को लक्ष्य बनाते हैं
Small Web, verified human creators की whitelist बनाता है, ताकि authentic content को प्राथमिकता से दिखाया जा सके
SlopStop जितना अधिक AI content को फ़िल्टर करेगा, रचनात्मक और मानवीय content की visibility उतनी बढ़ेगी
दोनों systems व्यावसायीकरण और कृत्रिम प्रदूषण से internet की रक्षा करने वाली दोहरी सुरक्षा व्यवस्था की तरह काम करते हैं

AI Slop dataset का निर्माण और उपयोग

SlopStop, Kagi ecosystem में विश्वसनीयता मज़बूत करने का एक चरण है, जो community reports और internal detection technology को मिलाकर दुनिया का सबसे बड़ा AI slop domain dataset बनाने का लक्ष्य रखता है
इस dataset का उपयोग AI hallucination, झूठे दावे और misinformation की रोकथाम के लिए detection technology विकसित करने में किया जाएगा
Kagi ने NewsGuard की जाँच का हवाला देते हुए कहा कि अन्य chatbots के 30~41% responses झूठे होते हैं
यह database आगे चलकर public किया जाएगा, और इच्छुक users registration के ज़रिए updates पा सकेंगे

उपयोगकर्ता भागीदारी और quality protection

Kagi, crowdsourcing-आधारित SlopStop संचालन के माध्यम से automated final solution विकसित करना चाहता है
Users search results के बगल में shield icon पर क्लिक → ‘AI-जनित सामग्री के रूप में report करें’ चुनकर भाग ले सकते हैं
सभी reports को Kagi review team जाँचने के बाद लागू करती है, जिससे search quality बेहतर होती है
SlopStop से जुड़े technical docs और forum के माध्यम से इसकी कार्यप्रणाली और feedback channel उपलब्ध कराए गए हैं
Kagi ने ज़ोर देकर कहा कि “हर user की भागीदारी एक अधिक भरोसेमंद search experience बनाती है”

1 टिप्पणियां

GN⁺ 2025-11-14

Hacker News राय

यह वाकई दिलचस्प खबर है। अच्छा होगा अगर HN भी इससे प्रेरणा लेकर ऐसा ही कोई फ़्लैग जोड़ दे
- मैंने @freediver से डेटाबेस एक्सेस मांगा है। यह जल्द ही hcker.news में इंटीग्रेट हो जाएगा
  Kagi का community-केंद्रित approach मुझे पसंद है। सार्वजनिक Small Web सूची सच में उपयोगी है।
  HN पर smallweb फ़िल्टर लगाने से मुख्य पेज काफ़ी ताज़ा लगता है
- सहमत हूँ
HN में भी ऐसा कुछ होना चाहिए। उन्नत spam mail जैसे कंटेंट से बचने के लिए कोई सुरक्षित शरणस्थल होना अच्छा रहेगा
- समाधान सरल है। हर कमेंट के लिए मानव सत्यापन अनिवार्य कर दो। उदाहरण के लिए, हर कमेंट पर खून की एक बूंद जमा करनी पड़े
दस्तावेज़ में इमेज, वीडियो और “वेबपेज” slop को अलग-अलग बताया गया है, तो सोच रहा हूँ कि क्या सिर्फ वेबपेज slop को अलग से आक्रामक रूप से फ़िल्टर करने का कोई तरीका हो सकता है
कई बार कोई लेख काफ़ी अंतर्दृष्टिपूर्ण होता है, लेकिन उसके साथ AI-जनित header image लगा दी जाती है। अगर मुख्य लेख असली है, तो मैं ऐसे लेखों को फ़िल्टर होकर निकलते नहीं देखना चाहूँगा। सोच रहा हूँ कि दस्तावेज़ की यह श्रेणीकरण इतनी बारीक फ़िल्टरिंग की अनुमति देगा या नहीं
काश कोई होशियार व्यक्ति मेरी इस थ्योरी पर शोध करे। हो सकता है कि मानव-लिखित कंटेंट और LLM-लिखित कंटेंट के बीच entropy के अंतर को सीखना ही detection की कुंजी हो
उदाहरण के लिए “Will Smith spaghetti test” की तरह, असली दृश्य और generated दृश्य की entropy की तुलना करें तो अंतर साफ़ दिख सकता है। आख़िर में “असली जैसा दिखना” का मतलब यही है कि वह entropy के उस स्तर से मेल खाता है जिसकी हमें अपेक्षा होती है
- मुझे नहीं लगता कि AI slop, AI slop की समस्या हल कर सकता है। विज्ञापन और attention economy पहले से ही slop-युक्त थे, AI ने बस उसे और उजागर कर दिया है।
  AI के लिए entropy को कृत्रिम रूप से बढ़ाना आसान है। अंततः सूचना युद्ध होगा, और लोग ही उसके शिकार बनेंगे
- दरअसल यही “AI detector” का मूल सिद्धांत है। यह ऐसा मॉडल होता है जिसे मानव बनाम LLM-जनित कंटेंट classify करने के लिए train किया जाता है, लेकिन जैसा कि सब जानते हैं, इसकी accuracy बहुत खराब है
- ऐसे प्रयास पहले से मौजूद हैं। इमेज में यह diffusion model artifacts की वजह से काम कर सकता है, लेकिन टेक्स्ट में नहीं।
  टेक्स्ट में information density बहुत ज़्यादा होती है, और GPT-प्रकार के मॉडल तो उल्टा तुम्हारे बताए entropy को न्यूनतम करने के लिए train किए जाते हैं
- असली फ़ोटो और AI-जनित फ़ोटो में फ़र्क करने में यह चल सकता है, लेकिन टेक्स्ट में entropy उतनी महत्वपूर्ण नहीं लगती।
  ऊपर से AI को आसानी से इस detection को चकमा देने के लिए train किया जा सकता है
- मुझे लगा “Will Smith spaghetti test” मज़ाक है, लेकिन खोजने पर पता चला कि यह सच में था। हैरानी हुई
इंटरनेट मरा नहीं है, लेकिन उसमें अजीब सी गंध आने लगी है
मैं पिछले 1 साल से Kagi का paid user हूँ। अब तक किए गए खर्चों में यह सबसे अधिक मूल्यवान खर्च रहा है।
हाल ही में Google search इस्तेमाल की, और वह सच में भयानक था।
मुझे शांत इंटरनेट चाहिए — जहाँ सवाल पूछो तो जवाब मिले, बिना किसी इरादे या विज्ञापन के, सिर्फ़ ईमानदार जवाबों वाली जगह
मुझे लगता है कि scalable approach अंततः AI से AI की पहचान करवाना ही होगा। बेशक human review ज़रूरी रहेगा
ज़्यादातर लोग शायद prompt के “default voice” से बाहर के AI टेक्स्ट को पहचान नहीं पाएँगे
- अगली पीढ़ी के मॉडल ऐसे evolve होंगे कि AI के रूप में classify किए गए samples को training data से बाहर कर देंगे।
  यह चक्र चलता रहेगा, और यह GAN(Generative Adversarial Network) जैसी संरचना से मिलता-जुलता है
- AI से AI को पकड़वाना कुछ-कुछ उस alignment problem वाली कल्पना जैसा है कि “अच्छी AI बुरी AI को हरा देगी”। संभव है, लेकिन यह बहुत सारी धारणाओं पर निर्भर करता है
- अगर AI, AI को detect कर सकती, तो यह समस्या अब तक हल हो चुकी होती। असली मुद्दा विश्वसनीयता की कमी है
- अगर prompt को सावधानी से संभाला जाए, तो ऐसा टेक्स्ट बनाया जा सकता है जिसे detect करना मुश्किल हो।
  लेकिन असली वेब पर अब भी AI slop भरा पड़ा है।
  मैं अक्सर ऐसी जानकारी खोजता हूँ जहाँ factual correctness महत्वपूर्ण होती है, इसलिए मेरे लिए AI detection से ज़्यादा source की विश्वसनीयता मायने रखती है।
  आख़िर में सबसे महत्वपूर्ण यह है कि किसने अपना नाम या प्रतिष्ठा दाँव पर लगाकर लिखा है
अभी दुनिया मानो दो ब्रह्मांडों में बँट गई है। एक generated content को ज़बरदस्ती ठूंसने वाला ब्रह्मांड, और दूसरा उसे पूरी तरह ठुकराने वाला ब्रह्मांड
समझ नहीं आता कि कुछ CEO इस पर इतने अड़े क्यों हैं। लोग artificial content पसंद नहीं करते, फिर भी वे उसी के पीछे पड़े हैं
- YouTube पर AI-जनित कंटेंट का आनंद लेने वाला बहुत बड़ा दर्शक वर्ग मौजूद है।
  उदाहरण के लिए यह वीडियो, यह वीडियो — दोनों GPT द्वारा लिखी स्क्रिप्ट, AI illustration और AI voice से बनाए गए हैं।
  Reddit पर भी GPT-लिखित पोस्ट ऊपर पहुँच जाती हैं, और लोग उन्हें “सुंदर रूपक” कहकर सराहते हैं।
  अंततः बहुत से लोग जाने-अनजाने AI कंटेंट का आनंद ले रहे हैं
- CEO की यह ज़िद ज़्यादातर board और Wall Street के दबाव की वजह से है। असल में जिन लोगों ने कभी LLM का उपयोग भी नहीं किया, वे सिर्फ़ market signals पर प्रतिक्रिया दे रहे हैं
- यह पूरी तरह sunk cost fallacy और growth obsession का मामला है। तर्क से ज़्यादा trend और investors की अधीरता हावी है
- Kagi ने भी LLM को पूरी तरह बाहर नहीं किया है। वह वास्तव में news summaries में LLM का उपयोग करता है
  जैसा कि संबंधित issue में देखा जा सकता है, आर्थिक दक्षता के कारण पूरी तरह बहिष्कार करना मुश्किल है
- अगर creators को AI उपयोग का खुलासा करना चाहिए, तो मुझे उसे फ़िल्टर करने का अधिकार भी होना चाहिए।
  आजकल असली कंटेंट ढूँढना बहुत मुश्किल हो गया है।
  समस्या AI कंटेंट से ज़्यादा उस पर्यावरण की है जहाँ मेहनती creators दब जाते हैं
मौजूदा स्थिति कुछ ऐसी लगती है जैसे AI खुद से शतरंज खेल रही हो।
detection और अधिक परिष्कृत हो रहा है, और AI और अधिक चालाक। detection बनाम evasion की अंतहीन जंग जारी है
“slop war शुरू हो चुका है”
search results में AI slop की बाढ़ रोकने की हर कोशिश का मैं समर्थन करता हूँ।
यह पुराने SEO spam के लौट आने जैसा लगता है, बस पैकेजिंग बदल गई है
- इस बार मामला कहीं ज़्यादा गंभीर है। पहले SEO spam को इंसान देखते ही पहचान लेते थे, लेकिन अब ऊपरी तौर पर बिल्कुल परफ़ेक्ट कचरा भरा पड़ा है।
  दूसरे search engines को यह इसलिए पसंद आता है क्योंकि बिना खुद कंटेंट बनाए भी वे entry point की भूमिका मज़बूत कर सकते हैं
- विडंबना यह है कि AI कंटेंट से सबसे ज़्यादा नफ़रत SEO industry करती है।
  क्योंकि AI summaries उनके clickbait कंटेंट की जगह ले रही हैं।
  हो सकता है ऐसी फ़िल्टरिंग मुहिम के पीछे वही लोग हों

SlopStop: Kagi Search की community-आधारित AI जनित सामग्री पहचान प्रणाली

AI Slop की परिभाषा और Kagi की प्रतिक्रिया

SlopStop कैसे काम करता है

SlopStop और Small Web का संयोजन

AI Slop dataset का निर्माण और उपयोग

उपयोगकर्ता भागीदारी और quality protection

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय