1 पॉइंट द्वारा GN⁺ 2023-12-24 | 7 टिप्पणियां | WhatsApp पर शेयर करें

Google Search बड़े पैमाने के spam हमले से अभिभूत

  • पिछले कुछ दिनों में Google के search results पर spam हमला हुआ है और स्थिति पूरी तरह नियंत्रण से बाहर बताई जा रही है.
  • कई domains सैकड़ों हज़ार keywords के लिए rank कर रहे हैं, इसलिए इस हमले का पैमाना लाखों keyword phrases तक पहुँच सकता है.

Google का algorithm कैसे इस्तेमाल किया जा सकता है

  • ऐसा लगता है कि spam sites, Google द्वारा websites को rank करने के तरीके में कम-से-कम तीन मौकों का फायदा उठा रही हैं.
  • जिन search queries पर spam sites rank हो रही हैं, उनमें competition कम है, इसलिए rank करना आसान है.
  • local search algorithm, long-tail keywords, और newly registered domains से जुड़े मौके मौजूद हैं.
  • नई sites को थोड़े समय के लिए यह फायदा मिल जाता है कि Google का algorithm साइट को समझने के दौरान उन्हें search queries पर rank कर देता है.

Links, Google को spam sites खोजने में मदद करते हैं

  • Bill Hartzer ने Majestic backlink tool का उपयोग करके कई spam sites के link network को उजागर करने वाली एक post साझा की, जिससे यह बात सामने आई.
  • backlink network बनाने में बहुत मेहनत की गई, लेकिन ऊँची ranking तय करने में links वास्तव में मुख्य कारण नहीं हैं.
  • links, Google को नई spam sites खोजने, crawl करने और अंततः rank करने में मदद करते हैं.

Google SERPs में बेकाबू spam

  • कई sites, ऐसे long-tail phrases और local search component वाले phrases पर rank कर रही हैं जिन्हें rank करना आसान है.
  • long-tail का concept लगभग 20 साल से मौजूद है और 2006 में प्रकाशित "The Long Tail" नामक किताब से लोकप्रिय हुआ.
  • spam sites कम प्रतिस्पर्धा वाले phrases पर rank कर सकती हैं और इसका उपयोग करके कम समय में सैकड़ों हज़ार keywords पर rank कर रही हैं.

Spam pages कैसे दिखते हैं

  • spam pages को browser से सीधे विज़िट करना संभव नहीं है.
  • spam sites अपने-आप दूसरे domains पर redirect हो जाती हैं.
  • spam site पर जाने और page का HTML रिकॉर्ड करने के लिए Google के Rich Results tester का उपयोग किया गया.

एक domain 300,000 से अधिक keywords पर rank कर रहा है

  • Bill द्वारा भेजी गई spreadsheet में उन keyword phrases की सूची शामिल थी जिन पर एक spam site rank कर रही थी.
  • एक spam site 300,000 से अधिक keyword phrases पर rank कर रही थी.

यह spam technique प्रभावी क्यों है

  • local search, non-local algorithm से अलग algorithm का उपयोग करता है.
  • local search algorithm, local प्रकार की sites को rank करने के मामले में अधिक permissive है.
  • Google को इस spam समस्या की जानकारी कम-से-कम 19 दिसंबर से थी, जिसकी पुष्टि Danny Sullivan के tweet से होती है.

GN⁺ की राय

  • इस लेख की सबसे महत्वपूर्ण बात यह है कि Google Search के results बड़े पैमाने के spam हमले के प्रति संवेदनशील हैं, और इससे search engine की विश्वसनीयता प्रभावित हो सकती है.
  • spam हमले के प्रभावी होने की वजह यह है कि वह Google algorithm की कुछ खास कमजोरियों का फायदा उठाता है, जो यह दिखाता है कि Google को अपने algorithm में सुधार करने की ज़रूरत है.
  • यह लेख इसलिए दिलचस्प है क्योंकि यह सिर्फ तकनीकी पहलू नहीं दिखाता, बल्कि यह भी बताता है कि Google जैसी बड़ी tech company भी अब तक अप्रत्याशित समस्याओं का सामना कर सकती है.

7 टिप्पणियां

 
devstudyman7 2024-03-09

Google स्पैम रिपोर्ट वेब दस्तावेज़: जब आप वेब स्पैम की रिपोर्ट करें और डोमेन abc.abc.uk/trashasda जैसा हो, तो abc.uk के रूप में रिपोर्ट करें, और abc.abc.uk/sitemap.xml को ऐसे सर्च क्वेरी में डालकर रिपोर्ट करें जिससे समस्या को ठीक-ठीक समझा जा सके। लगता है कि यह पहले से किसी solution से मज़बूत किया गया web है, लेकिन इसकी संरचना ऐसी है कि सामान्य user के पहुँचते ही यह तुरंत derived documents फिर से बना देता है। इससे निपटने का सही तरीका है कि आप सक्रिय रूप से रिपोर्ट करें। Google में जितनी बार इसे दबाया जाता है, उतनी ही बार फिर से spam pages बन जाते हैं, और google.com/url, image.google.com/url, naver redirect आदि के ज़रिए bot को पहुँचने दिया जाता है, जिससे वह फिर 생성된 spam page पर चला जाता है। इसलिए इन्हें क्लिक न करें; सिर्फ़ link कॉपी करके रिपोर्ट करें। जब तक google.com/url के ज़रिए होने वाले redirecting algorithm को हटाया नहीं जाता, तब तक लगता है कि मौजूदा समस्या लगातार बनी रहेगी।

 
devstudyman7 2024-03-09

ऊपर दिए गए स्पैम समाधान के अंतर्गत आने वाले वेब दस्तावेज़ की रिपोर्ट करते समय
कुल 5 खानों में पहले में मुख्य डोमेन लिखना सही है, और 4 अतिरिक्त URL में उससे निकली हुई दस्तावेज़ों की सूची लिखनी चाहिए। साथ ही, उस डोमेन का sitemap खोज शब्द में डालना बेहतर है। sitemap खोलकर देखें तो वे /new/asdasd जैसी पाथ को एक्सेस करते ही बना देने की रणनीति अपनाए हुए हैं, इसलिए जब आप रिपोर्ट दस्तावेज़ तैयार करते हैं तो अंततः Google के देखने के समय भाग जाने वाले दस्तावेज़ों को अतिरिक्त रूप से बना देते हैं। यह इतना चालाक मामला है कि आपको पूरे डोमेन को ही रिपोर्ट करना चाहिए।

 
devstudyman7 2024-03-09

मेरे मामले में
(h को x से, / को | से बदल दिया है)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

ऐसे रिपोर्ट तैयार करने के बाद

अगर मामला ऐसा है जहाँ subdomain से ही सब सड़ चुका हो, तो site:*baddomain.com
keyword के साथ इसी तरह रिपोर्ट बनाकर भेज देता हूँ.

इसके बाद अगर साइट खुद पूरी तरह spam प्रकृति की हो, तो phishing site report भी साथ में भेज देता हूँ.

 
devstudyman7 2024-03-09

विडंबना यह है कि इन spam websites का software Tag Manager से जुड़ा हुआ है, और https://picsum.photos जैसी sites इस्तेमाल होने के बावजूद indexing सामान्य रूप से हो रही है। इसका मतलब यह भी है कि Google में कोई proper review नहीं हो रहा। spam activity सामान्य दायरे से बहुत आगे निकल जाने के बाद भी, अगर spam web pages + AdWords ads लगे हुए हों, तो report करने पर भी ad traffic जितनी तेजी से derivative pages बनते जाते हैं। यह बात सचमुच सिहराने वाली है कि spam websites Tag Manager का सामान्य रूप से इस्तेमाल कर रही हैं।

 
devstudyman7 2024-03-09

मैं एक महीने से spam report सबमिट कर रहा हूँ, लेकिन अगर आप इसे spam document, fraud document के रूप में report करने के साथ phishing site report page पर भी साथ में report कर दें, तो इसे ज़्यादा जल्दी साफ़ किया जा सकता है। उस page को भी शामिल किया जाता है, लेकिन अगर top-level domain abc.abc.uk है, तो abc.uk दर्ज करना चाहिए, तभी domain को ही साफ़ करने में मदद मिलती है। यह webmasters के लिए रोज़मर्रा का एक होमवर्क बन गया है।

 
aobamisaki 2023-12-24

वैसे भी Google के search results की overall quality पहले से ही गिरती हुई साफ़ दिख रही थी, और अगर इस तरह कम समय में बड़े पैमाने पर हमले होते रहे तो बहुत से लोग Google search results पर और भी कम भरोसा करेंगे।

 
GN⁺ 2023-12-24
Hacker News की राय
  • स्पैम साइटें Googlebot के IP address की जांच करती हैं

    • अगर उसे Googlebot के रूप में पहचान लिया जाए, तो उस पेज पर content दिखाया जाता है
    • अन्य विज़िटर्स को संदिग्ध content वाले किसी दूसरे domain पर redirect कर दिया जाता है
    • पहले Google उन साइटों की अनुमति नहीं देता था जो Googlebot और सामान्य users को अलग-अलग content दिखाती थीं, और ऐसा करने पर भारी penalty लगती थी
    • यह policy अब गायब हो चुकी है, लेकिन अगर automated tools ठीक से काम करें तो यह अब भी उपयोगी हो सकती है
  • Kagi search engine पर स्विच करने वाले user का अनुभव

    • कभी-कभी अच्छे search results पाना मुश्किल होता है, लेकिन Google में भी results बेहतर हों, ऐसा नहीं है
    • user domains को 'boost' और 'pin' करके search results को अपनी पसंद के हिसाब से adjust करता है
    • वह अब भी Gmail और Google Maps जैसी दूसरी Google services इस्तेमाल करता है, लेकिन search अब नहीं करता
  • साधारण सवालों का जवाब देने के लिए बहुत ज़्यादा text देने वाली साइटों में बढ़ोतरी

    • असली जवाब पेज के सबसे नीचे होता है
    • ऊपर-ऊपर से वे relevant लगती हैं, लेकिन वास्तव में generic content होता है
  • Google search results की quality में गिरावट पर टिप्पणी

    • यह रुझान कब शुरू हुआ, यह स्पष्ट नहीं है, लेकिन संभव है कि इसे लंबे समय तक पर्याप्त ध्यान नहीं मिला
    • स्पैम हमले शायद इसका अंतिम चरण हो सकते हैं
  • search engines को लेकर सवाल

    • web crawling पर आधारित single-purpose search engine की अवधारणा शायद खत्म हो सकती है
    • Google की जगह अलग-अलग उद्देश्यों के लिए कई systems इस्तेमाल करना बेहतर हो सकता है
    • उदाहरण के लिए, technical questions के लिए सीधे StackOverflow और Github में search करना, local places के लिए भरोसेमंद databases में search करना
    • search engines, LLM (Large Language Model) का उपयोग करके search के प्रकार का अनुमान लगाएँ और curated specialized search की ओर ले जाएँ, इस दिशा में विकसित हो सकते हैं
  • Google के search engine algorithm changes पर टिप्पणी

    • Google समय-समय पर algorithm बदलता है, जिससे site rankings प्रभावित होती हैं
    • इन बदलावों के कारण कुछ queries पर low-quality results ऊपर आ सकते हैं
    • पहले SEO से जुड़ी साइटों पर इन algorithm updates की monitoring और discussion महत्वपूर्ण मानी जाती थी
  • Google द्वारा organic search छोड़ देने का दावा

    • SEO में माहिर users के लिए भी यह समझना मुश्किल है कि Google search results की ranking किस आधार पर तय करता है
    • Google paid results को अधिक मूल्यवान बनाता है ताकि users paid ads पर click करें
  • Google search engine की सीमाओं पर टिप्पणी

    • किसी खास चीज़ को ढूंढने में यह उपयोगी है, लेकिन बाकी मामलों में लोग Bing, ChatGPT, Phind आदि का इस्तेमाल करते हैं
    • user का game Bing और दूसरे search engines में top results में आता है, लेकिन Google में spam ad sites को प्राथमिकता मिलती है
  • Bing पर स्विच करने का अनुभव साझा किया गया

    • ChatGPT का उपयोग करके Bing में आए सुधारों के बाद, Google की जगह Bing इस्तेमाल करना शुरू किया गया
    • यह perfect नहीं है, लेकिन Google की तुलना में अधिक संतोषजनक results देता है
  • एक advertising company के रूप में Google के व्यवहार की आलोचना

    • नया Gmail account बनाया गया और किसी को भी नहीं बताया गया, फिर भी spam mail आने लगे
    • यह मान लेना तर्कसंगत है कि Google अपने email address lists खुद बेचता है