लीक हुए Google Search API दस्तावेज़ों का विश्लेषण
(sparktoro.com)- कुछ समय पहले एक गुमनाम स्रोत से ईमेल मिला कि Google के search API दस्तावेज़ बड़ी मात्रा में लीक हो गए हैं
- दस्तावेज़ों की प्रामाणिकता की पुष्टि पूर्व Google कर्मचारियों ने की, और कुछ पूर्व कर्मचारियों के साथ बातचीत से अतिरिक्त जानकारी भी शामिल हुई
मुख्य दावे
- Google बार-बार यह नकारता रहा है कि वह क्लिक-आधारित user signals का उपयोग करता है, लेकिन लीक हुए दस्तावेज़ इसका खंडन करते हैं
- Google के इस दावे का भी खंडन होता है कि subdomain का अलग से मूल्यांकन नहीं किया जाता, नई वेबसाइटों के लिए कोई sandbox नहीं है, और domain age पर विचार नहीं किया जाता
- Google search team को शुरू से ही search results की quality बेहतर करने के लिए बहुत से web users का clickstream data (ब्राउज़र में देखे गए सभी URL) चाहिए था
- DoJ में उद्धृत NavBoost system ने Google Toolbar PageRank से data इकट्ठा किया, और अधिक clickstream data पाने के लिए Chrome browser विकसित करने की प्रमुख प्रेरणा भी यही थी
- NavBoost किसी खास keyword के लिए searches की संख्या, search result clicks की संख्या, short clicks और long clicks का विश्लेषण करके user intent का मूल्यांकन करता है, और यदि video या image पर क्लिक अधिक हों तो NavBoost संबंधित query के लिए video या image feature ट्रिगर करता है
- क्लिक डेटा का उपयोग: Google cookie history, logged-in Chrome data, pattern detection आदि का उपयोग करके manual और automated click spam को रोकता है, और users के clicks व engagement का विश्लेषण करके उन्हें search results में दर्शाता है
- साइट quality मूल्यांकन: NavBoost data का उपयोग साइट की overall quality का मूल्यांकन करने में होता है (जिसे Panda कहा जाता है), और इस मूल्यांकन के आधार पर ranking बढ़ती/घटती है
- NavBoost क्लिक डेटा का मूल्यांकन geographic data को भी ध्यान में रखकर देश और राज्य/प्रांत स्तर पर अलग-अलग करता है
- COVID-19 और चुनाव से जुड़े search results पर whitelist लागू की जाती है ताकि कुछ खास sites को प्राथमिकता से दिखाया जा सके
दस्तावेज़ों की विश्वसनीयता की पुष्टि
- इनमें से कुछ बातें Google/DOJ मामले में सामने आई जानकारी से मिलती हैं, लेकिन अधिकांश सामग्री नई है
- गुमनाम स्रोत ने 5/28 को अपनी पहचान सार्वजनिक की, और वह Erfan Azimi (SEO विशेषज्ञ) हैं
- पूर्व Google कर्मचारियों की पुष्टि: तीन पूर्व Google कर्मचारियों में से दो ने दस्तावेज़ों की विश्वसनीयता की पुष्टि की
- तकनीकी समीक्षा: technical SEO विशेषज्ञ Mike King ने दस्तावेज़ों की समीक्षा कर उनकी विश्वसनीयता की पुष्टि की
Google API Contents Warehouse ?
- इस API दस्तावेज़ का उद्देश्य: Google team के सदस्यों को यह समझाने में मदद करना कि project में कौन-कौन से data elements उपयोग किए जा सकते हैं
- लीक का रास्ता: यह कुछ समय के लिए GitHub पर सार्वजनिक हो गया था, और उसी दौरान दस्तावेज़ लीक हो गए
मुख्य खोजें
#1: Navboost और क्लिक डेटा का उपयोग
- क्लिक डेटा filtering: Google ranking system में विचार किए जाने वाले click data को filter करता है, और click length व impressions को मापता है
- उसके पास ऐसे तरीके हैं जिनसे वह उन clicks को हटाता है जिन्हें ranking system में शामिल नहीं करना चाहता, और उन clicks को शामिल करता है जिन्हें शामिल करना चाहता है
- ऐसा लगता है कि click length (उदाहरण: जब search करने वाला search result पर क्लिक करे, फिर मिले जवाब से संतुष्ट न होकर जल्दी back button दबा दे) और impressions को मापा जाता है
#2: Chrome browser clickstream का उपयोग
- Chrome clickstream data: Google Chrome browser के क्लिक डेटा का उपयोग करके Sitelinks (उस वेबसाइट के लोकप्रिय URL) तय करता है
#3: यात्रा, COVID, राजनीति से जुड़ी whitelist
- whitelist का अस्तित्व: यात्रा, COVID और चुनाव से जुड़े search results में कुछ खास domains को प्राथमिकता से दिखाया जाता है
#4: quality rater feedback का उपयोग
- quality rater data: यह संभव है कि quality raters के मूल्यांकन का उपयोग search system में सीधे किया जाता हो
#5: link ranking weight तय करने में क्लिक डेटा का उपयोग
- link index classification: क्लिक डेटा का उपयोग करके link index को high quality, medium quality, low quality में वर्गीकृत किया जाता है
मार्केटर्स के लिए मुख्य संकेत
- brand का महत्व: Google बड़ी brands को ranking में प्राथमिकता देता है
- E-E-A-T factors का कम महत्व: कुछ SEO जिन experience, expertise, authoritativeness, trustworthiness factors पर ज़ोर देते हैं, संभव है कि वे सीधे ranking में परिलक्षित न होते हों
- Experience, Expertise, Authoritativeness, Trustworthiness
- user intent और click patterns content और links से अधिक महत्वपूर्ण ranking factors हैं
- PageRank, anchor text जैसे पारंपरिक ranking factors का महत्व घट रहा है
- SEO की कठिनाई: छोटे और मध्यम व्यवसायों तथा नए creators/publishers के लिए बड़ी brands से प्रतिस्पर्धा करना और कठिन हो रहा है
3 टिप्पणियां
तो फिर back button को काम करने से ही रोक दें, है ना? haha
धुंधला-सा अंदाज़ा तो था, लेकिन इसे इस तरह सामने खुला हुआ देखकर तो दिमाग सुन्न हो जाता है...
Navboost तक तो शायद मान भी लिया जाए...
लेकिन whitelist सचमुच चौंकाने वाली है। नाम भले whitelist हो, पर यह तो खुली भेदभावपूर्ण नीति है।
लीक हुए Google Content API Warehouse दस्तावेज़
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…