- Pokémon Central Wiki 15 साल से अधिक समय से इटालियन Pokémon जानकारी का प्रमुख स्रोत रहा है, लेकिन अब Google सर्च रिज़ल्ट्स से लगभग गायब हो गया है
- wiki.pokemoncentral.it, MediaWiki आधारित एक बड़ा wiki होने के बावजूद,
site: सर्च में शाब्दिक रूप से सिर्फ 4 रिज़ल्ट देता है
- इंडेक्सिंग में तेज गिरावट March 2026 core update के आसपास शुरू हुई, और Search Console में
"crawled - currently not indexed" बड़े पैमाने पर दिख रहा है
- Bing, DuckDuckGo आदि इसे सामान्य रूप से इंडेक्स कर रहे हैं, इसलिए यह Google-विशिष्ट समस्या लगती है, और दस्तावेज़ों के अनुसार Google-Extended ब्लॉक करने से इंडेक्सिंग पर असर नहीं पड़ना चाहिए
- सर्वर·Cloudflare सेटिंग्स, Open Graph और schema.org tags, SWR जैसी ऑप्टिमाइज़ेशन लागू की गईं, लेकिन अभी तक कोई असर नहीं दिखा और कारण अब भी अस्पष्ट है
Google सर्च इंडेक्सिंग में तेज गिरावट
- Pokémon Central Wiki 15 साल से अधिक समय से इटालियन Pokémon जानकारी का सबसे प्रसिद्ध स्रोत रहा है, लेकिन अब Google सर्च रिज़ल्ट्स में लगभग दिखाई नहीं देता
- wiki.pokemoncentral.it वही open source software MediaWiki पर चलता है जिसका उपयोग Wikipedia में होता है, और Wikistats के अनुसार यह दुनिया की शीर्ष 500 MediaWiki instances में से एक है
- PCW, Encyclopaediae Pokémonis अंतरराष्ट्रीय wiki network का हिस्सा है, जिसमें Bulbapedia भी शामिल है
- बहुत-सा कंटेंट अनुमति लेकर Bulbapedia से अनुवादित किया गया है, और इस काम में हज़ारों मानव volunteers शामिल रहे हैं
- समुदाय की जाँच और
site: सर्च के आधार पर अन्य EP wikis सामान्य रूप से इंडेक्स हो रही हैं
- PCW के लिए
site:http://wiki.pokemoncentral.it सर्च करने पर अभी सिर्फ 4 रिज़ल्ट मिलते हैं
- कुछ हफ्ते पहले March 2026 core update के आसपास Google Search Console में कई पेज
"crawled - currently not indexed" स्टेटस के साथ दिखने लगे
- Google सिर्फ इतना दिखाता है कि ये पेज आगे चलकर इंडेक्स हो भी सकते हैं और नहीं भी, लेकिन कोई ठोस कारण नहीं देता
जाँचे गए कारण और प्रतिक्रिया
- इसे कंटेंट क्वालिटी में गिरावट या ऑपरेशन से जुड़ी समस्या मानना कठिन है
- एडिटिंग नीति में कोई बदलाव, दुरुपयोग या क्वालिटी में गिरावट नहीं हुई
- अगर यह 5xx errors जैसी शुद्ध तकनीकी समस्या होती, तो Google Search Console में संभवतः किसी और रूप में दिखती
- यह Google-विशिष्ट समस्या लगती है
- Bing, DuckDuckGo और अन्य search engines PCW को सामान्य रूप से इंडेक्स कर रहे हैं
- Cloudflare के जरिए AI training scrapers को ब्लॉक किया जा रहा है
- लेकिन उन AI bots को ब्लॉक नहीं किया जा रहा जो user queries में PCW को source material या reference के रूप में इस्तेमाल करना चाहते हैं
robots.txt में Google-Extended को ब्लॉक किया गया है, लेकिन Google के दस्तावेज़ों के अनुसार इससे search indexing पर असर नहीं पड़ना चाहिए
- Cloudflare का managed challenge केवल उन sections पर लागू है जो इंडेक्सिंग के लिए महत्वपूर्ण नहीं हैं, जैसे page history और technical pages
- इन sections को
robots.txt में स्पष्ट रूप से allow नहीं किया गया है
- इन पेजों को cache करना कठिन है और ये server resources बहुत ज़्यादा इस्तेमाल करते हैं
- bots प्रति मिनट हज़ारों requests भेजकर सर्वर पर overload पैदा कर रहे थे
- साइट की speed बढ़ाने के लिए server और Cloudflare settings में बदलाव किए गए
- पिछले कुछ हफ्तों में लागू की जा सकने वाली ईमानदार SEO और optimization best practices अपनाई गईं
- Claude Code के साथ Open Graph और schema.org tags को बार-बार सुधारा गया
- Cloudflare SWR को काम करने लायक बनाया गया ताकि ज़्यादातर requests server तक जाए बिना edge से milliseconds में serve हों और background में revalidation हो
- इन बदलावों का अभी तक कोई असर नहीं दिखा
- बदलावों का असर दिखने में कुछ हफ्ते लग सकते हैं, और Google की अपारदर्शिता के कारण वास्तविक असर को तुरंत समझना मुश्किल है
- एक संभावित अनुमान यह है कि Google ने algorithm को समायोजित करते हुए AI युग में PCW की “content quality” को पर्याप्त नहीं माना होगा
- संभव है कि LLMs, ब्लॉक किए जाने से पहले ही PCW के टेक्स्ट पर train हो चुके हों
- PCW का कंटेंट लगभग ज्यों का त्यों कॉपी करने वाली दूसरी साइटें अब भी search results में मौजूद हैं
- PCW का कंटेंट CC BY-NC-SA लाइसेंस के तहत है, इसलिए सामान्य तौर पर कॉपी होना अपने आप में समस्या नहीं है
- वफ़ादार विज़िटर्स स्थिति को समझ नहीं पा रहे और पूछताछ कर रहे हैं, और Reddit पर भी इस बारे में पोस्ट आई है
- फिलहाल लोगों से कहा जा रहा है कि वे सीधे पहुँच के लिए wiki.pokemoncentral.it को bookmark कर लें
- उम्मीद है कि Google के भीतर किसी ऐसे व्यक्ति तक बात पहुँचे जो यह समझने में मदद कर सके कि आखिर हो क्या रहा है
2 टिप्पणियां
लगता है यह सच में Google की तरफ़ की समस्या है। मेरे द्वारा चलाए जा रहे कई sites पर भी यही चीज़ एक जैसी हो रही है।
बस बिना किसी वजह के Google indexing ही नहीं कर रहा है। कहते हैं कि शायद कभी कर दे, लेकिन सच में लगता है कि वह "कभी" बहुत बाद में आएगा
Hacker News की रायें
ऐसा नहीं है कि Google हमसे नफ़रत करता है, बल्कि उससे भी बुरा, वह लगभग उदासीन है
नफ़रत करने के लिए कम-से-कम आपकी मौजूदगी का एहसास होना चाहिए। हो सकता है कि सिर्फ़ इस एक घटना से कुछ साबित न होता हो, लेकिन कुल मिलाकर Google अजीब दिशा में जाता दिख रहा है। कभी यह cutting edge था, लेकिन 20 साल बाद यह भी शायद एक और बड़ी कंपनी बन गया है जो quality को shareholder profit के लिए क़ुर्बान करती है
search engine के तौर पर अब यह काम का नहीं रहा। असल में जो ढूँढना होता है, उससे पहले ऊपर sponsored links दिखते हैं। Kagi पर जाने के बाद पीछे मुड़कर नहीं देखा
AI के लिए भी यह ठीक नहीं बैठता। 5 घंटे बाद reset हो जाने वाली मनमानी usage limits, और percent में दिखने वाला weekly quota — पारदर्शिता की हद से उलटा। Kagi में usage details में साफ़ दिखता है कितना बचा है। वैसे मैं Kagi का कर्मचारी नहीं हूँ, बस एक संतुष्ट ग्राहक हूँ
cloud storage के तौर पर भी खास नहीं है। जिन shared folders पर मैं साथ काम करता हूँ, उनमें कहीं कोई spam user या hacked account हो तो यह समय-समय पर adult content notifications भेज देता है। यह सिर्फ़ मेरे साथ नहीं हुआ(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...)। Apple iCloud पर चला गया और बात ख़त्म
mail ठीक-ठाक है। 22 साल इस्तेमाल करने के बाद अब इसे अपनी ज़िंदगी में कम महत्वपूर्ण चीज़ की तरह रख दिया है। ज़रूरी चीज़ें तो वैसे भी European providers पर shift कर दी हैं
DDG भी आज़माया, लेकिन मेरे काम के लिए वह Google से भी बदतर था
अभी A&W खोजा तो Tim Hortons, Popeyes, McDonald's भी साथ में आ गए। Apple Maps ऐसा कभी नहीं करता। फिर भी खुला है या नहीं और hours सही हैं या नहीं, यह देखने के लिए आमतौर पर Google ही इस्तेमाल करता हूँ
फिर भी यह काफ़ी प्रभावशाली है कि Google जैसी दिग्गज कंपनी AlphaFold या थोड़ा कम सही, लेकिन Gemma जैसी free और बेहतरीन research जारी करती है। यह हमारे दौर का ATT PAC Bell या IBM जैसा लगता है
search service के लिए मैं एक साल से पैसे दे रहा हूँ, लेकिन उसके AI features अभी तक नहीं देखे
यह wiki है, तो ऐसा हो सकता है। आजकल wiki spammers बहुत ही लगातार लगे रहते हैं
एक छोटे, कम-ज्ञात game wiki में, जिसे manage करने में मैं मदद करता हूँ और जिसके 10,000 से कम players हैं, हमें हाल ही में नए sign-ups बंद करने पड़े। spam बहुत ज़्यादा था, और हम MediaWiki के पुराने version पर फँसे थे जो CAPTCHA support नहीं करता
अगर wiki लोकप्रिय हो, और यह भी काफ़ी popular लगती है, तो सिर्फ़ CAPTCHA से wiki spammers को रोकना मुश्किल होगा। अगर spammers सिर्फ़ “sexual performance pills खरीदें” जैसा कचरा नहीं बल्कि malware sites के links भी डाल रहे थे, तो हो सकता है Google ने कुछ हद तक जायज़ तौर पर उस wiki को ऐसे malware का source माना हो
मूल पोस्ट लिखने वाले के लिए शायद समाधान यह होगा कि wiki की malicious content के लिए पूरी audit और सफ़ाई की जाए, फिर Google में appeal डाली जाए। बेशक Google है, तो जवाब आने में महीनों लग सकते हैं
आख़िरकार, अगर Google की इस चीज़ को देखने वाली टीम में कोई इटालियन Pokémon fan नहीं है, तो मामला काफ़ी निराशाजनक लगता है
37,000 से ज़्यादा pages में कहीं कोई spam link ऐसे पेज पर हो सकता है जहाँ लगभग कोई जाता ही न हो, इसे पूरी तरह नकारा नहीं जा सकता, लेकिन इसे deindexing की वजह मानना मुश्किल है। अगर ऐसा होता, तो शायद Google Search Console में भी दिखता
अगर आप काफ़ी छोटे हैं, तो signup flow में बस एक non-standard step जोड़कर आम तौर पर सारे spam bots से बचा जा सकता है। जैसे कोई static image या audio जिसे सिर्फ़ audience समझे, और “मैं bot नहीं हूँ” dropdown में उसे चुनना हो, या first post/edit से पहले एक extra email verification, या YouTube की किसी लंबी video के खास timestamp पर मौजूद जवाब पूछना। non-standard हो, तो लगभग कुछ भी काम करता है
automation का 99.9% टूट जाएगा, और search-results-manipulation वाले spammers किसी खास wiki या forum के लिए अलग automation नहीं बनाएँगे
अगर site बहुत मशहूर हो, तो फिर यह अंतहीन arms race बन जाती है। तब Hashcash जैसी चीज़ इस्तेमाल करके हर बार CPU/GPU/RAM ज़्यादा खर्च करवाओ, ताकि spammers सीधा blacklist कर दें
इसलिए अगर यह CAPTCHA वाला नया version भी होता, तब भी शायद मदद न मिलती
signup के समय email domains block करना काफ़ी असरदार रहा। मेरी list यहाँ है: https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai...। यह MediaWiki का built-in feature है, इसलिए ज़्यादातर versions में ठीक काम करना चाहिए
उन्होंने Twitter thread में साफ़ कहा कि यह AI garbage content से भरी नहीं थी, और “crawled but not indexed” के रूप में चिह्नित pages की list देखकर भी abuse के निशान नहीं मिले
यह समझ आता है कि अपनी managed wiki पर spam attack देखकर आप चौंक गए होंगे, लेकिन अपने साथ जो हुआ उसे वहाँ भी सामान्य नियम की तरह लागू करना तर्कसंगत नहीं है
ईमानदारी से कहूँ तो, इसकी अच्छी-ख़ासी संभावना है कि यह Google की तरफ़ का कोई लापरवाह bug हो
search में delayed cause-and-effect बहुत होते हैं, और किसी website के 0.1% में crawling या indexing से बाहर कर देने वाली छोटी गलती कर बैठना, उस गलती का पता लगाने से कहीं आसान है। ख़ासकर तब तक, जब तक affected site खुद बताने न लगे
marginalia में मुझे भी ऐसा bug मिला था। जिन sites में root path HEAD support नहीं करता था, लेकिन
Rangeheader वाले GET को support करके HTTP 206 के साथ सही जवाब देता था, वे index नहीं हो रही थीं। वजह यह थी कि initial discovery में root document की समस्या जाँचने वाला code उसे error state मान रहा थाrange requests support करने वाली ज़्यादातर sites HEAD भी support करती हैं। आमतौर पर इसका मतलब होता है कि document dynamically generated नहीं है। लेकिन कुछ Caddy-based setups, यानी लगभग 0.3% servers, इसके अपवाद थे
ऐसा classification कभी परफ़ेक्ट नहीं हो सकता
Google ने जब data scrape करके model training भी पूरी कर ली, तो फिर websites पर traffic भेजने की क्या ज़रूरत रह जाती है
content creators और वैध websites के साथ एक बार इस्तेमाल करो और छोड़ दो जैसा व्यवहार हुआ है
सिर्फ़ Google की search team ही हज़ारों लोगों की है, और वे सब वेब को कम नहीं बल्कि ज़्यादा accessible बनाने के बड़े mission के भीतर अलग-अलग चीज़ों पर काम करते हैं। उनमें से किसी की भी deployment इस तरह के side effects पैदा कर सकती है
यह किसी intentional policy implementation का नतीजा भी हो सकता है, लेकिन उसकी संभावना बहुत कम लगती है
अगर corpus पहले से ही कार्यात्मक रूप से पूरा है, तो कम-value वाली चीज़ों को बार-बार crawl और index करते रहने की वजह समझ नहीं आती
लगता है “wham bam, thank you ma’am” अभिव्यक्ति को लोकप्रिय बनाने वालों में Bowie भी था
downvote करने से भी फ़र्क़ समझाया नहीं जा सकेगा
जब कहा जाता था कि ad-block users creators की कमाई रोकते हैं, तब जवाब में लोग कहते थे कि 1996 का internet भी ठीक था, या online content डालने पर reward की उम्मीद नहीं करनी चाहिए, या यह उनका computer है इसलिए वे तय करेंगे क्या load होगा। वह तर्क अब कहाँ गए
कुछ हफ़्ते पहले मेरे blog के साथ भी यही हुआ
वह blog सालों से अच्छी तरह referenced था, लेकिन अचानक लगभग सारी posts index होना बंद हो गईं। Search Console में दिखता है कि URL crawled है लेकिन अभी indexed नहीं है, और technical problems के उलट इसमें ऐसा कुछ नहीं जिसे मैं ठीक कर सकूँ। अब मुझे यह मान लेना होगा कि मेरी ज़्यादातर posts Google से नहीं मिलेंगी
मुझे सच में नहीं लगता कि यह जुड़ा हुआ है, लेकिन पीछे मुड़कर देखूँ तो timing उस समय से मिलती है जब मैंने अपने content को LLM training के लिए इस्तेमाल होने से रोकने के लिए TDMRep configure करना शुरू किया था
Google Search Console देखने पर सारे links “crawled but not indexed” स्थिति में थे, और कोई कारण नहीं दिया गया था
असली community site बनाना एक क्लासिक SEO गलती थी
Reddit threads, coupon subfolders, और AI summaries बनानी चाहिए थीं। मज़ाक अलग, उम्मीद है कि यह जल्दी recover कर ले
यह भी कहा जा सकता है कि Google हम सब से नफ़रत करता है
एक संस्था के रूप में उसे बस इतना फ़र्क़ पड़ता है कि जितने हो सकें उतने लोगों के सामने जितने हो सकें उतने ads ठूँस दे, ताकि और भी बेतुके पैसों के ढेर बनते रहें
यह Google का बचाव नहीं है। Google, लगभग हर बड़ी कंपनी की तरह, पूरी तरह sociopathic है
जानकारी के लिए, Google OpenCV से भी नफ़रत करता है
जो चीज़ें पहले आसानी से search हो जाती थीं, जैसे “opencv orb”, अब उनके लिए page दर page spam sites आती हैं। मूलतः “यहाँ OpenCV सीखें!” तरह का blog spam
“docs.opencv.org” का पहला result सचमुच page 4 पर आता है, और वह भी 9 साल पुराने 3.4 version की तरफ़ इशारा करता है
जो page मैं चाहता हूँ, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., वह कहीं नहीं मिलता
पैसे से vote करो, और ad-driven नहीं बल्कि customer-driven बेहतर products पर जाओ
किशोरावस्था और शुरुआती युवावस्था में Newgrounds पर घूमते हुए मैं उन लोगों के लिए आभारी था जो server bills भरते थे। तब मैंने ठान लिया था कि जब मैं settled हो जाऊँगा और extra पैसे होंगे, तो अगली पीढ़ी के लिए मैं भी दूँगा। उम्मीद से ज़्यादा समय लगा, लेकिन मैं लगभग 10 साल से ऐसा कर रहा हूँ
इसलिए मैं कहूँगा कि ऐसी culture को सामान्य बनाना चाहिए। ऐसा ढाँचा जहाँ paying customers का एक तय हिस्सा हो, ताकि जो लोग भुगतान नहीं कर सकते उनके लिए free access बना रहे या growth को support मिले। Newgrounds जैसी शानदार site ने शायद हज़ारों programming और animation careers शुरू करवाईं या कम-से-कम प्रेरित ज़रूर किया, और सामाजिक रूप से इसका net positive बहुत बड़ा रहा होगा
कल के keynote और Search changes को देखकर साफ़ हो गया कि निकट भविष्य में Google websites को traffic भेजना बंद कर देगा
search results बस Gemini answers के footnotes बनकर रह जाएँगे
wiki, SEO के नज़रिए से high-risk होती है
अपनी personal wiki को index करवाना भी इतना मुश्किल था कि मैं लगभग हार मान चुका था, लेकिन इस क्षेत्र को बेहतर समझने वाले एक दोस्त ने ज़रूरी settings ठीक जगह रखने में मदद की, तब जाकर हुआ
अगर सावधान न रहें, तो लोग site के अलग-अलग हिस्सों में आसानी से spam डाल सकते हैं, और फिर search engines में आपकी मौजूदगी सचमुच बर्बाद हो जाती है
लेकिन Google बहुत बड़ा है। बहुत, बहुत बड़ा। इतना बड़ा कि Google के अंदर के लोग भी ऐसे विषयों पर Google की ओर से पूरी तरह भरोसेमंद प्रतिनिधि नहीं माने जा सकते
फिर भी ऐसा नहीं कि Google सामान्य रूप से wikis से नफ़रत करता है। बस बहुत काम करना पड़ता है — यह सुनिश्चित करना कि wiki पर spam न हो, meta tag information भरना, sitemap.xml रखना, वगैरह। मेरी wiki का उदाहरण यहाँ है: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...