लगता है Google अब हमसे नफ़रत करता है

(twitter.com/pokemoncentral)

7 पॉइंट द्वारा GN⁺ 2026-05-21 | 4 टिप्पणियां | WhatsApp पर शेयर करें

Pokémon Central Wiki 15 साल से अधिक समय से इटालियन Pokémon जानकारी का प्रमुख स्रोत रहा है, लेकिन अब Google सर्च रिज़ल्ट्स से लगभग गायब हो गया है
wiki.pokemoncentral.it, MediaWiki आधारित एक बड़ा wiki होने के बावजूद, site: सर्च में शाब्दिक रूप से सिर्फ 4 रिज़ल्ट देता है
इंडेक्सिंग में तेज गिरावट March 2026 core update के आसपास शुरू हुई, और Search Console में "crawled - currently not indexed" बड़े पैमाने पर दिख रहा है
Bing, DuckDuckGo आदि इसे सामान्य रूप से इंडेक्स कर रहे हैं, इसलिए यह Google-विशिष्ट समस्या लगती है, और दस्तावेज़ों के अनुसार Google-Extended ब्लॉक करने से इंडेक्सिंग पर असर नहीं पड़ना चाहिए
सर्वर·Cloudflare सेटिंग्स, Open Graph और schema.org tags, SWR जैसी ऑप्टिमाइज़ेशन लागू की गईं, लेकिन अभी तक कोई असर नहीं दिखा और कारण अब भी अस्पष्ट है

Google सर्च इंडेक्सिंग में तेज गिरावट

Pokémon Central Wiki 15 साल से अधिक समय से इटालियन Pokémon जानकारी का सबसे प्रसिद्ध स्रोत रहा है, लेकिन अब Google सर्च रिज़ल्ट्स में लगभग दिखाई नहीं देता
wiki.pokemoncentral.it वही open source software MediaWiki पर चलता है जिसका उपयोग Wikipedia में होता है, और Wikistats के अनुसार यह दुनिया की शीर्ष 500 MediaWiki instances में से एक है
PCW, Encyclopaediae Pokémonis अंतरराष्ट्रीय wiki network का हिस्सा है, जिसमें Bulbapedia भी शामिल है
बहुत-सा कंटेंट अनुमति लेकर Bulbapedia से अनुवादित किया गया है, और इस काम में हज़ारों मानव volunteers शामिल रहे हैं
समुदाय की जाँच और site: सर्च के आधार पर अन्य EP wikis सामान्य रूप से इंडेक्स हो रही हैं
PCW के लिए site:http://wiki.pokemoncentral.it सर्च करने पर अभी सिर्फ 4 रिज़ल्ट मिलते हैं
कुछ हफ्ते पहले March 2026 core update के आसपास Google Search Console में कई पेज "crawled - currently not indexed" स्टेटस के साथ दिखने लगे
Google सिर्फ इतना दिखाता है कि ये पेज आगे चलकर इंडेक्स हो भी सकते हैं और नहीं भी, लेकिन कोई ठोस कारण नहीं देता

जाँचे गए कारण और प्रतिक्रिया

इसे कंटेंट क्वालिटी में गिरावट या ऑपरेशन से जुड़ी समस्या मानना कठिन है
- एडिटिंग नीति में कोई बदलाव, दुरुपयोग या क्वालिटी में गिरावट नहीं हुई
- अगर यह 5xx errors जैसी शुद्ध तकनीकी समस्या होती, तो Google Search Console में संभवतः किसी और रूप में दिखती
यह Google-विशिष्ट समस्या लगती है
- Bing, DuckDuckGo और अन्य search engines PCW को सामान्य रूप से इंडेक्स कर रहे हैं
Cloudflare के जरिए AI training scrapers को ब्लॉक किया जा रहा है
- लेकिन उन AI bots को ब्लॉक नहीं किया जा रहा जो user queries में PCW को source material या reference के रूप में इस्तेमाल करना चाहते हैं
- robots.txt में Google-Extended को ब्लॉक किया गया है, लेकिन Google के दस्तावेज़ों के अनुसार इससे search indexing पर असर नहीं पड़ना चाहिए
Cloudflare का managed challenge केवल उन sections पर लागू है जो इंडेक्सिंग के लिए महत्वपूर्ण नहीं हैं, जैसे page history और technical pages
- इन sections को robots.txt में स्पष्ट रूप से allow नहीं किया गया है
- इन पेजों को cache करना कठिन है और ये server resources बहुत ज़्यादा इस्तेमाल करते हैं
- bots प्रति मिनट हज़ारों requests भेजकर सर्वर पर overload पैदा कर रहे थे
साइट की speed बढ़ाने के लिए server और Cloudflare settings में बदलाव किए गए
- पिछले कुछ हफ्तों में लागू की जा सकने वाली ईमानदार SEO और optimization best practices अपनाई गईं
- Claude Code के साथ Open Graph और schema.org tags को बार-बार सुधारा गया
- Cloudflare SWR को काम करने लायक बनाया गया ताकि ज़्यादातर requests server तक जाए बिना edge से milliseconds में serve हों और background में revalidation हो
इन बदलावों का अभी तक कोई असर नहीं दिखा
- बदलावों का असर दिखने में कुछ हफ्ते लग सकते हैं, और Google की अपारदर्शिता के कारण वास्तविक असर को तुरंत समझना मुश्किल है
एक संभावित अनुमान यह है कि Google ने algorithm को समायोजित करते हुए AI युग में PCW की “content quality” को पर्याप्त नहीं माना होगा
- संभव है कि LLMs, ब्लॉक किए जाने से पहले ही PCW के टेक्स्ट पर train हो चुके हों
- PCW का कंटेंट लगभग ज्यों का त्यों कॉपी करने वाली दूसरी साइटें अब भी search results में मौजूद हैं
- PCW का कंटेंट CC BY-NC-SA लाइसेंस के तहत है, इसलिए सामान्य तौर पर कॉपी होना अपने आप में समस्या नहीं है
वफ़ादार विज़िटर्स स्थिति को समझ नहीं पा रहे और पूछताछ कर रहे हैं, और Reddit पर भी इस बारे में पोस्ट आई है
फिलहाल लोगों से कहा जा रहा है कि वे सीधे पहुँच के लिए wiki.pokemoncentral.it को bookmark कर लें
उम्मीद है कि Google के भीतर किसी ऐसे व्यक्ति तक बात पहुँचे जो यह समझने में मदद कर सके कि आखिर हो क्या रहा है

4 टिप्पणियां

ndrgrd 2026-05-21

मैंने कई साल पहले Tistory ब्लॉग पर तरह-तरह की चीज़ें व्यवस्थित करके रखी थीं, और वहाँ अब भी वे search results में अच्छी तरह ऊपर आती हैं और views भी मिलते हैं, लेकिन personal domain का indexing भी शायद आधा ही होता है और वह अच्छी तरह ऊपर नहीं आता।

quilt8703 2026-05-21

मैं Ghost आधारित पर्सनल ब्लॉग चला रहा हूँ। करीब 100 पोस्ट जमा होने पर मैंने Search Console देखना शुरू किया, लेकिन मुख्य पेज को छोड़कर बाकी सब crawled not indexed स्थिति में पड़े थे। इस पर मैंने बहुत कुछ आज़माया और आधा हार मान चुका था, तभी जब पोस्ट की संख्या लगभग 500 के पार गई तो वे अचानक index होने लगे। अभी भी कुछ पोस्ट index नहीं हुए हैं, और कुछ पेज ऐसे भी हैं जिन्हें index किया गया था लेकिन बाद में हटा दिया गया, इसलिए इसका मानदंड क्या है यह ठीक से समझ नहीं आता। फिर भी, यह काफ़ी निराशाजनक है।

xguru 2026-05-21

लगता है यह सच में Google की तरफ़ की समस्या है। मेरे द्वारा चलाए जा रहे कई sites पर भी यही चीज़ एक जैसी हो रही है।
बस बिना किसी वजह के Google indexing ही नहीं कर रहा है। कहते हैं कि शायद कभी कर दे, लेकिन सच में लगता है कि वह "कभी" बहुत बाद में आएगा

GN⁺ 2026-05-21

Hacker News की रायें

ऐसा नहीं है कि Google हमसे नफ़रत करता है, बल्कि उससे भी बुरा, वह लगभग उदासीन है
नफ़रत करने के लिए कम-से-कम आपकी मौजूदगी का एहसास होना चाहिए। हो सकता है कि सिर्फ़ इस एक घटना से कुछ साबित न होता हो, लेकिन कुल मिलाकर Google अजीब दिशा में जाता दिख रहा है। कभी यह cutting edge था, लेकिन 20 साल बाद यह भी शायद एक और बड़ी कंपनी बन गया है जो quality को shareholder profit के लिए क़ुर्बान करती है
search engine के तौर पर अब यह काम का नहीं रहा। असल में जो ढूँढना होता है, उससे पहले ऊपर sponsored links दिखते हैं। Kagi पर जाने के बाद पीछे मुड़कर नहीं देखा
AI के लिए भी यह ठीक नहीं बैठता। 5 घंटे बाद reset हो जाने वाली मनमानी usage limits, और percent में दिखने वाला weekly quota — पारदर्शिता की हद से उलटा। Kagi में usage details में साफ़ दिखता है कितना बचा है। वैसे मैं Kagi का कर्मचारी नहीं हूँ, बस एक संतुष्ट ग्राहक हूँ
cloud storage के तौर पर भी खास नहीं है। जिन shared folders पर मैं साथ काम करता हूँ, उनमें कहीं कोई spam user या hacked account हो तो यह समय-समय पर adult content notifications भेज देता है। यह सिर्फ़ मेरे साथ नहीं हुआ(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...)। Apple iCloud पर चला गया और बात ख़त्म
mail ठीक-ठाक है। 22 साल इस्तेमाल करने के बाद अब इसे अपनी ज़िंदगी में कम महत्वपूर्ण चीज़ की तरह रख दिया है। ज़रूरी चीज़ें तो वैसे भी European providers पर shift कर दी हैं
- यह पागलपन जैसा लग सकता है, लेकिन आख़िरी उपाय के तौर पर मैं Yandex इस्तेमाल कर रहा हूँ, और यह ऐसी चीज़ें ढूँढने में अच्छे नतीजे देता है जिन्हें लगता है Google अब दिखाना ही नहीं चाहता
  DDG भी आज़माया, लेकिन मेरे काम के लिए वह Google से भी बदतर था
- Google Maps में अगर किसी खास restaurant को खोजो, तो लगता है वह बस मान लेता है कि तुम सामान्य रूप से भूखे हो
  अभी A&W खोजा तो Tim Hortons, Popeyes, McDonald's भी साथ में आ गए। Apple Maps ऐसा कभी नहीं करता। फिर भी खुला है या नहीं और hours सही हैं या नहीं, यह देखने के लिए आमतौर पर Google ही इस्तेमाल करता हूँ
- Kagi शानदार है
  फिर भी यह काफ़ी प्रभावशाली है कि Google जैसी दिग्गज कंपनी AlphaFold या थोड़ा कम सही, लेकिन Gemma जैसी free और बेहतरीन research जारी करती है। यह हमारे दौर का ATT PAC Bell या IBM जैसा लगता है
- sponsored links का स्तर पागलपन भरा हो गया है, और अक्सर ऊपर के 5-6 links विज्ञापन जैसे लगते हैं
- जानना चाहता हूँ कि Kagi AI कैसा इस्तेमाल होता है
  search service के लिए मैं एक साल से पैसे दे रहा हूँ, लेकिन उसके AI features अभी तक नहीं देखे
यह wiki है, तो ऐसा हो सकता है। आजकल wiki spammers बहुत ही लगातार लगे रहते हैं
एक छोटे, कम-ज्ञात game wiki में, जिसे manage करने में मैं मदद करता हूँ और जिसके 10,000 से कम players हैं, हमें हाल ही में नए sign-ups बंद करने पड़े। spam बहुत ज़्यादा था, और हम MediaWiki के पुराने version पर फँसे थे जो CAPTCHA support नहीं करता
अगर wiki लोकप्रिय हो, और यह भी काफ़ी popular लगती है, तो सिर्फ़ CAPTCHA से wiki spammers को रोकना मुश्किल होगा। अगर spammers सिर्फ़ “sexual performance pills खरीदें” जैसा कचरा नहीं बल्कि malware sites के links भी डाल रहे थे, तो हो सकता है Google ने कुछ हद तक जायज़ तौर पर उस wiki को ऐसे malware का source माना हो
मूल पोस्ट लिखने वाले के लिए शायद समाधान यह होगा कि wiki की malicious content के लिए पूरी audit और सफ़ाई की जाए, फिर Google में appeal डाली जाए। बेशक Google है, तो जवाब आने में महीनों लग सकते हैं
आख़िरकार, अगर Google की इस चीज़ को देखने वाली टीम में कोई इटालियन Pokémon fan नहीं है, तो मामला काफ़ी निराशाजनक लगता है
- हम anti-bot system चला रहे हैं जिसमें नए accounts पर permission restrictions, अच्छी तरह tuned Cloudflare rules, और हाल की edits पर लगातार नज़र रखने वाली dedicated volunteers की टीम है
  37,000 से ज़्यादा pages में कहीं कोई spam link ऐसे पेज पर हो सकता है जहाँ लगभग कोई जाता ही न हो, इसे पूरी तरह नकारा नहीं जा सकता, लेकिन इसे deindexing की वजह मानना मुश्किल है। अगर ऐसा होता, तो शायद Google Search Console में भी दिखता
- अगर कोई project इतना मशहूर हो जाए कि उसके लिए custom automation बनाई जा सके, तो spam से लड़ने का व्यावहारिक तरीका लगभग नहीं बचता
  अगर आप काफ़ी छोटे हैं, तो signup flow में बस एक non-standard step जोड़कर आम तौर पर सारे spam bots से बचा जा सकता है। जैसे कोई static image या audio जिसे सिर्फ़ audience समझे, और “मैं bot नहीं हूँ” dropdown में उसे चुनना हो, या first post/edit से पहले एक extra email verification, या YouTube की किसी लंबी video के खास timestamp पर मौजूद जवाब पूछना। non-standard हो, तो लगभग कुछ भी काम करता है
  automation का 99.9% टूट जाएगा, और search-results-manipulation वाले spammers किसी खास wiki या forum के लिए अलग automation नहीं बनाएँगे
  अगर site बहुत मशहूर हो, तो फिर यह अंतहीन arms race बन जाती है। तब Hashcash जैसी चीज़ इस्तेमाल करके हर बार CPU/GPU/RAM ज़्यादा खर्च करवाओ, ताकि spammers सीधा blacklist कर दें
- कुछ दिन पहले यहाँ किसी ने कहा था कि वह रोज़मर्रा में Captcha AI bots इस्तेमाल करता है, और एक solve की लागत $0.003 बताई थी
  इसलिए अगर यह CAPTCHA वाला नया version भी होता, तब भी शायद मदद न मिलती
- CAPTCHA spammers के ख़िलाफ़ कुछ खास नहीं करता
  signup के समय email domains block करना काफ़ी असरदार रहा। मेरी list यहाँ है: https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai...। यह MediaWiki का built-in feature है, इसलिए ज़्यादातर versions में ठीक काम करना चाहिए
- मुझे नहीं पता इस wiki के spam से पट जाने की बात कहने के लिए कोई आधार है भी या नहीं, या यह बस अंदाज़ा लगाया जा रहा है
  उन्होंने Twitter thread में साफ़ कहा कि यह AI garbage content से भरी नहीं थी, और “crawled but not indexed” के रूप में चिह्नित pages की list देखकर भी abuse के निशान नहीं मिले
  यह समझ आता है कि अपनी managed wiki पर spam attack देखकर आप चौंक गए होंगे, लेकिन अपने साथ जो हुआ उसे वहाँ भी सामान्य नियम की तरह लागू करना तर्कसंगत नहीं है
ईमानदारी से कहूँ तो, इसकी अच्छी-ख़ासी संभावना है कि यह Google की तरफ़ का कोई लापरवाह bug हो
search में delayed cause-and-effect बहुत होते हैं, और किसी website के 0.1% में crawling या indexing से बाहर कर देने वाली छोटी गलती कर बैठना, उस गलती का पता लगाने से कहीं आसान है। ख़ासकर तब तक, जब तक affected site खुद बताने न लगे
marginalia में मुझे भी ऐसा bug मिला था। जिन sites में root path HEAD support नहीं करता था, लेकिन Range header वाले GET को support करके HTTP 206 के साथ सही जवाब देता था, वे index नहीं हो रही थीं। वजह यह थी कि initial discovery में root document की समस्या जाँचने वाला code उसे error state मान रहा था
range requests support करने वाली ज़्यादातर sites HEAD भी support करती हैं। आमतौर पर इसका मतलब होता है कि document dynamically generated नहीं है। लेकिन कुछ Caddy-based setups, यानी लगभग 0.3% servers, इसके अपवाद थे
- या फिर किसी AI ने इसे ऐसे content के रूप में mark कर दिया हो जो वह दिखाना नहीं चाहता
  ऐसा classification कभी परफ़ेक्ट नहीं हो सकता
- अगर indexed pages 511,000 से घटकर 11 रह गए, तो यह काफ़ी गंभीर लापरवाही है
Google ने जब data scrape करके model training भी पूरी कर ली, तो फिर websites पर traffic भेजने की क्या ज़रूरत रह जाती है
content creators और वैध websites के साथ एक बार इस्तेमाल करो और छोड़ दो जैसा व्यवहार हुआ है
- Google को इस तरह personify करना यथार्थवादी नहीं है
  सिर्फ़ Google की search team ही हज़ारों लोगों की है, और वे सब वेब को कम नहीं बल्कि ज़्यादा accessible बनाने के बड़े mission के भीतर अलग-अलग चीज़ों पर काम करते हैं। उनमें से किसी की भी deployment इस तरह के side effects पैदा कर सकती है
  यह किसी intentional policy implementation का नतीजा भी हो सकता है, लेकिन उसकी संभावना बहुत कम लगती है
- मैंने भी यही सोचा था। इस data का काफ़ी हिस्सा स्थिर और static नहीं होता क्या
  अगर corpus पहले से ही कार्यात्मक रूप से पूरा है, तो कम-value वाली चीज़ों को बार-बार crawl और index करते रहने की वजह समझ नहीं आती
- यह अभिव्यक्ति पढ़ते समय मैं David Bowie का Suffragette City सुन रहा था
  लगता है “wham bam, thank you ma’am” अभिव्यक्ति को लोकप्रिय बनाने वालों में Bowie भी था
- तो फिर यह वही नहीं हुआ जो पिछले 20 साल से ad-block users करते आए हैं
  downvote करने से भी फ़र्क़ समझाया नहीं जा सकेगा
  जब कहा जाता था कि ad-block users creators की कमाई रोकते हैं, तब जवाब में लोग कहते थे कि 1996 का internet भी ठीक था, या online content डालने पर reward की उम्मीद नहीं करनी चाहिए, या यह उनका computer है इसलिए वे तय करेंगे क्या load होगा। वह तर्क अब कहाँ गए
कुछ हफ़्ते पहले मेरे blog के साथ भी यही हुआ
वह blog सालों से अच्छी तरह referenced था, लेकिन अचानक लगभग सारी posts index होना बंद हो गईं। Search Console में दिखता है कि URL crawled है लेकिन अभी indexed नहीं है, और technical problems के उलट इसमें ऐसा कुछ नहीं जिसे मैं ठीक कर सकूँ। अब मुझे यह मान लेना होगा कि मेरी ज़्यादातर posts Google से नहीं मिलेंगी
मुझे सच में नहीं लगता कि यह जुड़ा हुआ है, लेकिन पीछे मुड़कर देखूँ तो timing उस समय से मिलती है जब मैंने अपने content को LLM training के लिए इस्तेमाल होने से रोकने के लिए TDMRep configure करना शुरू किया था
- मेरे साथ भी वही हुआ। मैं 20 साल से ज़्यादा समय से personal blog चला रहा हूँ, और पिछले साल Google में मुझे अपने blog का एक भी link नहीं मिला
  Google Search Console देखने पर सारे links “crawled but not indexed” स्थिति में थे, और कोई कारण नहीं दिया गया था
- अगर Google साइट का training data पहले ही खींच चुका है, तो index न करना उन competitors के ख़िलाफ़ एक तरह की moat बन सकता है जो site discovery के लिए Google Search पर निर्भर हैं
असली community site बनाना एक क्लासिक SEO गलती थी
Reddit threads, coupon subfolders, और AI summaries बनानी चाहिए थीं। मज़ाक अलग, उम्मीद है कि यह जल्दी recover कर ले
यह भी कहा जा सकता है कि Google हम सब से नफ़रत करता है
- Google हममें से किसी से न नफ़रत करता है न प्यार
  एक संस्था के रूप में उसे बस इतना फ़र्क़ पड़ता है कि जितने हो सकें उतने लोगों के सामने जितने हो सकें उतने ads ठूँस दे, ताकि और भी बेतुके पैसों के ढेर बनते रहें
  यह Google का बचाव नहीं है। Google, लगभग हर बड़ी कंपनी की तरह, पूरी तरह sociopathic है
जानकारी के लिए, Google OpenCV से भी नफ़रत करता है
जो चीज़ें पहले आसानी से search हो जाती थीं, जैसे “opencv orb”, अब उनके लिए page दर page spam sites आती हैं। मूलतः “यहाँ OpenCV सीखें!” तरह का blog spam
“docs.opencv.org” का पहला result सचमुच page 4 पर आता है, और वह भी 9 साल पुराने 3.4 version की तरफ़ इशारा करता है
जो page मैं चाहता हूँ, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., वह कहीं नहीं मिलता
- जो products subscriber payments से नहीं चलते, उनके लिए मुझे लगता है enshittification की लिखावट दीवार पर काफ़ी समय से साफ़ दिख रही थी
  पैसे से vote करो, और ad-driven नहीं बल्कि customer-driven बेहतर products पर जाओ
  किशोरावस्था और शुरुआती युवावस्था में Newgrounds पर घूमते हुए मैं उन लोगों के लिए आभारी था जो server bills भरते थे। तब मैंने ठान लिया था कि जब मैं settled हो जाऊँगा और extra पैसे होंगे, तो अगली पीढ़ी के लिए मैं भी दूँगा। उम्मीद से ज़्यादा समय लगा, लेकिन मैं लगभग 10 साल से ऐसा कर रहा हूँ
  इसलिए मैं कहूँगा कि ऐसी culture को सामान्य बनाना चाहिए। ऐसा ढाँचा जहाँ paying customers का एक तय हिस्सा हो, ताकि जो लोग भुगतान नहीं कर सकते उनके लिए free access बना रहे या growth को support मिले। Newgrounds जैसी शानदार site ने शायद हज़ारों programming और animation careers शुरू करवाईं या कम-से-कम प्रेरित ज़रूर किया, और सामाजिक रूप से इसका net positive बहुत बड़ा रहा होगा
- Google Search में OpenStack docs के साथ भी ऐसा ही मसला रहा है
कल के keynote और Search changes को देखकर साफ़ हो गया कि निकट भविष्य में Google websites को traffic भेजना बंद कर देगा
search results बस Gemini answers के footnotes बनकर रह जाएँगे
wiki, SEO के नज़रिए से high-risk होती है
अपनी personal wiki को index करवाना भी इतना मुश्किल था कि मैं लगभग हार मान चुका था, लेकिन इस क्षेत्र को बेहतर समझने वाले एक दोस्त ने ज़रूरी settings ठीक जगह रखने में मदद की, तब जाकर हुआ
अगर सावधान न रहें, तो लोग site के अलग-अलग हिस्सों में आसानी से spam डाल सकते हैं, और फिर search engines में आपकी मौजूदगी सचमुच बर्बाद हो जाती है
लेकिन Google बहुत बड़ा है। बहुत, बहुत बड़ा। इतना बड़ा कि Google के अंदर के लोग भी ऐसे विषयों पर Google की ओर से पूरी तरह भरोसेमंद प्रतिनिधि नहीं माने जा सकते
फिर भी ऐसा नहीं कि Google सामान्य रूप से wikis से नफ़रत करता है। बस बहुत काम करना पड़ता है — यह सुनिश्चित करना कि wiki पर spam न हो, meta tag information भरना, sitemap.xml रखना, वगैरह। मेरी wiki का उदाहरण यहाँ है: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...