1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • AI Overviews और ChatGPT जैसे AI search answers सिर्फ एक वेबपेज या पोस्ट के आधार पर भी health और finance जैसे संवेदनशील विषयों में पक्षपाती हो सकते हैं
  • BBC के एक प्रयोग में, किसी निजी साइट पर डाली गई एक ही पोस्ट ने ChatGPT और Google को लेखक को world champion hotdog eating competitor बताने पर मजबूर कर दिया
  • जब AI वेब search results को समेटकर एक ही जवाब देता है, तो उपयोगकर्ता कई links की तुलना करने वाले पारंपरिक search की तुलना में उसे सही उत्तर मानने की अधिक संभावना रखते हैं
  • Google ने साफ कर दिया है कि AI responses में हेरफेर करना उसकी spam policies का उल्लंघन है, और नियम तोड़ने वाली sites को search results से हटाया जा सकता है या उनकी ranking घटाई जा सकती है
  • क्योंकि हेरफेर करने वाले blog crackdown से बचकर YouTube influencers जैसे माध्यमों की ओर जा सकते हैं, इसलिए AI answers पर ज्यों का त्यों भरोसा न करने का रवैया ज़रूरी है

AI search answers में हेरफेर की समस्या

  • ChatGPT, Gemini, और Google Search के शीर्ष पर दिखने वाले AI Overviews health और personal finance जैसे महत्वपूर्ण विषयों पर भी पक्षपाती जवाब देने के लिए manipulate किए जा सकते हैं
  • BBC की जांच में, एक निजी वेबसाइट पर डाली गई एकल पोस्ट भर से ChatGPT और Google को लेखक को “world champion hotdog eating competitor” बताने में सफलता मिली
  • संकेत मिले हैं कि यही तरीका medical supplements से जुड़ी health concerns को कम करके दिखाने या retirement से संबंधित financial information को प्रभावित करने में भी इस्तेमाल किया गया है
  • SEO और AI search consultant Lily Ray का मानना है कि जब AI “एक ही सही जवाब” देता है, तो उपयोगकर्ता पारंपरिक search की तरह कई links की तुलना करने के बजाय जवाब पर सीधे भरोसा करने लगते हैं
  • Google का कहना है कि उसने generative AI search features पर भी अपनी मौजूदा anti-spam policies और सुरक्षा उपाय लागू किए हैं, और AI के आने से पहले से ही नई तरकीबों के अनुसार spam से निपटने को मजबूत किया है

हेरफेर कैसे काम करता है

  • आम chatbot answers मॉडल में मौजूद डेटा पर आधारित होते हैं, लेकिन ChatGPT, Claude और Google के AI products की तरह जब सिस्टम इंटरनेट search करके जवाब ढूंढते हैं, तो manipulation का जोखिम बढ़ जाता है
  • अगर AI tool किसी एक वेबपेज या social media post से जानकारी उठा ले, तो एक अच्छी तरह तैयार की गई झूठी पोस्ट भी जवाब को दूषित कर सकती है
  • ऑनलाइन सिर्फ एक सुव्यवस्थित blog post डालकर भी AI जनता तक पहुँचने वाली जानकारी बदल सकता है
  • ऐसे manipulation को जल्दी ही कमाई के अवसर के रूप में देखा जाने लगा, और गलत या पक्षपाती जानकारी voting, service providers के चयन, medical advice और legal decisions को प्रभावित कर सकती है
  • Harpreet Chatha ने आर्थिक असर के साथ-साथ गलत medical advice से स्थिति बिगड़ने या किसी देश/क्षेत्र के कानूनों के मुताबिक न होने वाले कदम उठाने के जोखिम पर भी ज़ोर दिया

Google की policy change और प्रतिक्रिया

  • दुनिया भर में 1 अरब से अधिक लोग नियमित रूप से AI chatbots का उपयोग करते हैं, और हर महीने 2.5 अरब लोग Google के AI Overviews देखते हैं, इसलिए अगर ऐसे tools को प्रभावित किया जा सके तो उसका असर बहुत बड़ा होगा
  • Google ने पिछले हफ्ते अपनी spam policies अपडेट करके औपचारिक रूप से स्पष्ट किया कि AI responses में हेरफेर की कोशिशें कंपनी के नियमों का उल्लंघन हैं
  • नियम तोड़ने वाली कंपनियों या websites को Google search results से हटाया जा सकता है या उनकी ranking कम की जा सकती है
  • Google ने कहा कि यह approach में बदलाव नहीं बल्कि “स्पष्टीकरण” है, और वह 2025 में पहले ही AI Overview और AI Mode से जुड़े anti-spam प्रयासों की व्याख्या कर चुका है
  • फिर भी hotdog experiment लगभग एक साल बाद भी सफल रहा, और Lily Ray ने भी इस हफ्ते ऐसा ही एक प्रयोग किया जिसमें Google ने एक SEO expert को sandcastle building में निपुण व्यक्ति बताया

देखे गए बदलाव और सीमाएँ

  • Ray और Chatha के अनुसार, हाल के महीनों में ऐसे बदलाव दिखे हैं जो संकेत देते हैं कि Google और अन्य कंपनियाँ समाधान आजमा रही हैं
  • कुछ मामलों में, जब Google और ChatGPT किसी कंपनी के self-promotion पर शक करते हैं, तो वे AI answer से उस कंपनी को चुपचाप बाहर कर देते हैं
  • उदाहरण के लिए, अगर कोई लेख खुद को सबसे अच्छा hotdog eating competitor बताता है, तो AI उस लेख का हवाला देने के बावजूद उसका नाम उम्मीदवारों से बाहर रख सकता है
  • यह भी देखा गया है कि Google और अन्य AI tools जवाबों में अधिक uncertainty labels जोड़ रहे हैं, ताकि बताया जा सके कि chatbot पूरी तरह आश्वस्त नहीं है
  • ChatGPT और Anthropic के Claude ने कुछ queries पर यह स्पष्ट रूप से कहना शुरू किया है कि वे spam को फ़िल्टर करने की कोशिश कर रहे हैं, और Anthropic वही कंपनी है जिसने Claude बनाया
  • Ray का कहना है कि कुछ purchase decisions से जुड़े सवालों पर Google अब अधिक संकेत जोड़ता है और third-party reviews देखने की सलाह देता है
  • OpenAI और Anthropic ने टिप्पणी करने से इनकार किया, और Google के प्रवक्ता ने भी इन बदलावों पर सवालों का जवाब नहीं दिया

हेरफेर करने वालों और platforms के बीच लगातार पीछा-छुपी

  • Chatha का मानना है कि सिर्फ ये बदलाव पर्याप्त नहीं होंगे, और उन्होंने Google की प्रतिक्रिया की तुलना whack-a-mole से की
  • अगर Google manipulative blog posts पर कार्रवाई करता है, तो कंपनियाँ self-promotion के और अधिक गुप्त तरीके खोज लेंगी
  • websites को penalize किया जा सकता है, लेकिन 20 YouTube influencers को पैसे देकर किसी product को सर्वश्रेष्ठ कहलवाने जैसी रणनीति रोकना कठिन है
  • क्योंकि Google का AI अब YouTube videos को भी cite करता है, इसलिए manipulation की तरकीबें एक जगह से दूसरी जगह जाकर यह चक्र जारी रख सकती हैं
  • फिलहाल संभावना यही है कि manipulators एक कदम आगे रहें, और सबसे अच्छा बचाव यह याद रखना है कि AI ऐसा tool है जो सही हो या गलत, एक ही जवाब आत्मविश्वास से पेश करता है
  • सिर्फ इसलिए कि कोई जवाब किसी बड़ी tech company के interface से आया है, उसे किसी random website से अधिक भरोसेमंद मान लेना सही नहीं है

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की राय
  • Google कम-से-कम 2006 के Blekko दौर से ही खोज इंडेक्स में स्पैम वाला कचरा ठीक से फ़िल्टर नहीं कर पाया है, इसलिए यह समस्या भी शायद अच्छी तरह नहीं रोक पाएगा
    फिर भी, यह एक और अच्छा उदाहरण लगता है कि “AI” आखिरकार विश्वसनीय दिखने वाली पैकेज की गई search भर है, और पीछे कोई वास्तविक reasoning या thinking नहीं हो रही

    • मुझे नहीं लगता कि वह निष्कर्ष सही तरह से निकलता है। बेहतर शब्द न होने पर कहूँ तो यह ज़्यादा इस बात के करीब है कि LLM को “आसानी से बेवकूफ़ बनाया जा सकता है”
      यह इंटरनेट पर पढ़ी चीज़ों को ज्यों-का-त्यों मान लेने वाले इंसान से कितना अलग है? इंसान भी हमेशा स्पैम और धोखाधड़ी का शिकार होते हैं, लेकिन इसका मतलब यह नहीं कि वे सिर्फ विश्वसनीय दिखने वाली पैकेज की गई search हैं ;-)
      हाँ, इससे वह समस्या साफ़ दिखती है जिसका सामना सभी search engines करते हैं। AI-generated spam को पारंपरिक statistical तरीकों से रोकना बहुत ज़्यादा मुश्किल होगा, और prompt injection जैसी अस्तित्वगत समस्या तक पहुँचने से पहले ही यह सच है
      शायद यही वह बिंदु है जहाँ media organizations Big Tech के साथ अपने रिश्ते में फिर से सही जगह पा सकती हैं। यानी LLM के लिए सत्यापित और जाँचे-परखे information sources बनना जिन्हें वह आँख बंद करके भरोसा कर सके, और OpenAI / Atlantic जैसे deals का मतलब शायद यही हो सकता है
    • नए code generation को विश्वसनीय दिखने वाली पैकेज की गई search कहकर समझाना मुश्किल है
      आप agent system को कुछ datasheets पढ़ा सकते हैं, फिर project requirements समझाकर drivers, specs, protocols, interfaces और state machines design करवा सकते हैं। उसके आधार पर implementation plan बनवाकर, application skeleton लिखवाकर, उसे भरते हुए नए hardware combinations पर चलने वाला system बनाया जा सकता है
      अगर सही तरह किया जाए, तो पहले जहाँ एक छोटी team लगती थी, उससे भी ज़्यादा maintainable और छोटा code 1/100 लागत, 1/4 समय में मिल सकता है
      वह search से ज़्यादा reasoning के करीब लगता है। हाँ, अगर आप नए hardware पर bare-metal C development को भी search कहें, तो फिर आखिरकार सारी development ही search हो जाएगी
    • मैंने vintage lenses पर वीडियो और Reddit पोस्ट डाली थीं, और यह जानने की कोशिश की थी कि वह lens कितना पुराना है
      LLM ने “1940s में बना” जैसी dating बताई और source के तौर पर मेरी post का हवाला दिया, जबकि उस post में निर्माण वर्ष का कहीं ज़िक्र ही नहीं था
    • Google के पास इस समस्या को हल करने की पूरी क्षमता थी, और सच कहें तो यह इतना मुश्किल भी नहीं है
      यह समस्या मुश्किल बनी हुई है क्योंकि ज़्यादातर solutions ad revenue को बहुत कम कर देंगे
    • Google का AI Overview ऐसा लगता है जैसे search snippets को RAG से लाकर कोई बहुत तेज़ LLM उनका summary बना रहा हो। मैं उसे विश्वसनीय दिखने वाली पैकेज की गई search नहीं कहूँगा
  • इस thread में सबसे अजीब मान्यता यह है कि Google चाहता है कि AI answers सही हों
    बस इतना सही होना काफ़ी है कि user page न छोड़े। “सच” कभी product था ही नहीं; product तो यह है कि users SEO पर पैसा खर्च करें

    • वह बात ठीक नहीं लगती। ज़्यादातर SEO third parties करती हैं
      product तो ad impressions हैं, और Google ने non-ad search results में बहुत पहले ही दिलचस्पी खो दी थी। फिर भी, वह model की reputation की परवाह करेगा, और यह मामला वास्तव में असर डाल सकता है
  • यह देखकर मेरी चिंता काफ़ी कम हो गई कि manipulate किया गया result यह query था
    2026 South Dakota International Hot Dog Eating Champion
    अगर Nathan’s contest winner के overview को बदला गया होता तो मामला कहीं ज़्यादा गंभीर होता। या अगर उन्होंने ऐसे और उदाहरण दिखाए होते जहाँ लोग सच में search करने वाली queries manipulate हुई हों
    अभी यह कुछ ऐसा लगता है जैसे किसी काल्पनिक South Dakota hot dog contest के लिए fake Wikipedia page बना देना और फिर यह article लिख देना कि Wikipedia पर भरोसा नहीं किया जा सकता। सोचूँ तो 2005 के आसपास भी कोई ऐसा article लिख सकता था

    • सही है। इसका मतलब बस इतना है कि एक अकेला इंसान इतना कुछ कर सकता है
      Reddit, ज़्यादातर social media, और राजनीतिक फ़ायदे के लिए Wikipedia manipulation की कोशिशों में कितनी opinion-manipulating posts भरी रहती हैं, यह सोचें तो यह बहुत वास्तविक समस्या है
    • article में यह भी था: “लेकिन हमारी जाँच में पता चला कि यही तरीका health supplements से जुड़ी स्वास्थ्य चिंताओं को नज़रअंदाज़ करवाने, या retirement से जुड़ी Google AI की financial information को प्रभावित करने के लिए भी इस्तेमाल हो रहा था”
      यह hot dogs से कहीं ज़्यादा चिंताजनक है
    • बल्कि इससे मेरी चिंता तुरंत बढ़ गई। हाल में Gemini हर turn पर search spinner दिखाने लगा है
      इसका मतलब search जुड़े सभी responses prompt injection के संपर्क में आ सकते हैं, और वास्तव में लगभग हर response ऐसा हो सकता है
      यह link spam की तरह viral फैलेगा। user-generated content वाली सारी sites prompt injection hosts बन सकती हैं। समस्या यह है कि ऐसी चीज़ें links की तुलना में पकड़ना बहुत कठिन है
    • मैंने यह झेला है कि किसी ने AI Overview में scam customer-support phone number डाल दिया
      Google को उसे ठीक करने में एक हफ़्ता लगा, और उन्होंने search results को प्रदूषित करके अपना data ऐसे source में डाला जो ज़्यादा trusted tier जैसा दिखता था, शायद government contract website। इसलिए हमारे नंबर की जगह scam नंबर दिखा, और query खुद एक साधारण search थी
    • “मैंने 20 मिनट में ChatGPT और Google को यह कहने पर मजबूर कर दिया कि मैं दुनिया का champion hot dog eater हूँ। मज़ाक बेवकूफ़ी भरा था, लेकिन समस्या गंभीर है”
      यह Wikipedia page में opinion manipulation भरने से भी बुरा है। Wikipedia में sources और review systems खुले तौर पर काफ़ी व्यवस्थित हैं। fraudulent edits को लंबे समय तक टिकाए रखना वास्तव में काफ़ी मुश्किल है, और आपको दशकों से ऐसे लोगों से लड़ रहे अनेक human editors को भी बेवकूफ़ बनाना पड़ता है। सटीक और उपयोगी बनने की कोशिश के बावजूद उस बंद समूह के भीतर घुसना मुश्किल है
      दूसरी ओर, Google के search snippets हर तरह के data को बेतहाशा निगलते हैं और अपने-आप process करते हैं, और कौन-सी जानकारी अच्छी है और क्या spam है यह तय करने वाली algorithmic systems proprietary हैं
      दुरुपयोग के तरीक़े सोचने के लिए बहुत कल्पना भी नहीं चाहिए। अगर कोई अपना नाम search करे और उसमें शर्मनाक सामग्री शामिल हो तो? यह उम्मीद करना मुश्किल है कि संभावित employers, customers या friends source verification में Wikipedia editors जितने सख़्त होंगे
  • मैं उन ठोस उदाहरणों को पढ़ना चाहता था जहाँ “health supplements से जुड़ी स्वास्थ्य चिंताओं को नज़रअंदाज़ करवाने, या retirement से जुड़ी Google AI की financial information को प्रभावित करने के लिए यही तरीका इस्तेमाल हुआ”, लेकिन article का संबंधित link अभी इस local file पर जा रहा है
    file:///Users/GermaTW1/BBC%20Dropbox/Thomas%20Germain/A%20Downloads%20and%20Documents/2026/And%20there's%20evidence%20that%20AI%20tools%20are%20being%20manipulated%20on%20a%20wide%20scale.

    • हाल के BBC articles में ऐसी ग़लती कुछ बार हुई है, और इससे भी बड़ी समस्या यह है कि correction के बाद वे अब published article revision history बताने वाला note भी नहीं लगाते
    • usernames या email addresses में मैंने हमेशा first.last@company ही इस्तेमाल किया है, इसलिए last[:5]initials# वाला format थोड़ा चौंकाने वाला है। इससे बहुत अजीब usernames बनेंगे
  • आजकल बहुत-से लोग “चुपचाप” कुछ-न-कुछ करते दिखते हैं। इंटरनेट का हर text LLM-ified होता जाना पागल कर देने वाला है

    • मैं भी परेशान हूँ, लेकिन headline writers और editors तो LLM से बहुत पहले से “चुपचाप” शब्द के आदी थे। online journalism लंबे समय से ऐसे clichés से भरा हुआ है
    • मुझे इससे सच में नफ़रत है। कल मैंने एक history subreddit में AI से लिखा history post पढ़ा, और उसके सारे sources काल्पनिक Hollywood फ़िल्में लग रहे थे
      मैंने वे फ़िल्में देखी थीं इसलिए पकड़ पाया, लेकिन यह साफ़ संकेत है कि अच्छी जानकारी के लिहाज़ से इंटरनेट टूटता जा रहा है
    • “चुपचाप” कोई नया LLM वाला expression नहीं है
    • उस cliché का असली सार यही है कि जिस बात को चुपचाप होना चाहिए था, उसे खुलकर कह दिया गया
  • यह SEO का बस अगला चरण है। शायद इसे AIO कहा जाएगा
    search की तरह ही Google और AI providers fixes लाएँगे, optimization firms vulnerabilities ढूँढेंगी, फिर वे patch होंगी — एक अंतहीन लड़ाई चलती रहेगी। आखिरकार यह marketing के लिए attention खींचने का मामला है

    • marketing industry में इसे आम तौर पर GEO कहा जाता है। Generative Engine Optimization, कभी-कभी Answer Engine Optimization भी, और इस service को बेचकर बहुत पैसा कमाने वाले लोग भी हैं
      https://www.wired.com/story/goodbye-seo-hello-geo-brandlight...
    • Engineered Inference Ersatz Intelligence Optimization, संक्षेप में EIEIO
    • अगला चरण नहीं, यह तो पहले से मौजूदा चरण है
  • Google AI Overview पर बिल्कुल भरोसा नहीं किया जा सकता। यह sample size 1 को उठाकर भी AI overview में दिखा देता है
    मुझे यह कैसे पता? मैंने Reddit पर एक बहुत niche topic पर comment किया था, जिस पर न तो Google search results थे, न AI Overview। अगले दिन अपनी Reddit post खोजने के लिए search किया तो Google ने मेरे Reddit जवाब को लगभग ज्यों-का-त्यों AI “overview” box में कॉपी कर दिया था। linked post भी सिर्फ़ मेरी वही post थी, और Google search result भी वही एक था

    • इसके ऊपर से यह user के सवाल के phrasing के मुताबिक़ मूल post में न होने वाला context भी लपेट देता है। इसलिए बात बस ग़लत हो जाती है
      उदाहरण के लिए, मान लें आपने search किया: “दुर्लभ चीज़ X का सबसे आम dimension क्या है?”
      लेकिन ऐसी चीज़ के अपने version का dimension बताने वाला सिर्फ़ एक ही व्यक्ति था, उसने यह नहीं कहा था कि वही typical है, न यह संकेत दिया था कि कोई typical dimension होता है। और यह भी नहीं कि 20 लोगों ने वही बात कही; सच में सिर्फ़ एक ही व्यक्ति था
      तब Google बड़े आराम से कह सकता है, “आम तौर पर चीज़ X [आपके बताए dimension] में आती है, और उसका कारण [पूरी तरह गढ़ा हुआ कारण] है”
  • अगर आप Google से what's the name of the whale in half moon bay harbor? पूछें, तो डेढ़ साल पहले मेरे काफ़ी amateur index-poisoning प्रयास की वजह से आज भी AI summary में Teresa T आत्मविश्वास के साथ शामिल है
    https://simonwillison.net/2024/Sep/8/teresa-t-whale-pillar-p...

    • मैंने अभी Brave Search पर करके देखा
      उसने जवाब दिया कि उस juvenile humpback whale का नाम Teresa T है, और भले ही यह किसी government agency का आधिकारिक नाम नहीं था, लेकिन आम जनता, local media और residents ने इसे व्यापक रूप से अपना लिया था। साथ में यह भी कहा कि Marine Mammal Center और California Academy of Sciences के experts उसे stress न हो, इसके लिए नज़र रख रहे थे, और जनता को कम-से-कम 100 yards की दूरी बनाए रखने की सलाह दी गई थी
      जिन topics के बारे में मैं कुछ हद तक जानता हूँ, उनमें मेरा अनुभव है कि शुरुआती जवाब कभी-कभी बुरी तरह ग़लत होते हैं। Brave tool में आमतौर पर 3-4 बार चुनौती देने पर उससे “आप पूरी तरह सही हैं” कहलवाया जा सकता है। Teresa T वाला मामला भी ऐसा ही था
      दूसरे सवाल में जब sources की संख्या पूछी, तो वह “ABC7 News” और “NBC Bay Area” ने उस नाम को “उठा लिया” यह दावा करता रहा। तीसरी बार specific links माँगने पर उसने माना कि नाम “अनौपचारिक media context” में इस्तेमाल हुआ था, और चौथी बार जब बताया गया कि S.W. ने experiment किया था, तो उसने 21 दिन पहले की आपकी comment खोज निकाली
      भविष्य उस elite class का है जो अपने बच्चों को असली private tutors से पढ़ा सके। proletariat के लिए यह अतीत की ओर वापसी है
    • क्या तुम्हें डर नहीं है कि Google AI responses को manipulate करने की कोशिश के लिए कोई legal threat भेज देगा?
  • बस कुछ साल पहले तक भी Google वही company थी जो “Marilyn Monroe ने JFK को किस साल गोली मारी?” के जवाब में पूरे आत्मविश्वास से 1963 कहती थी
    यह देखते हुए कि उसकी मौत 1962 में हो चुकी थी, यह काफ़ी प्रभावशाली है
    इसलिए यह नया नहीं है, और Google की “चुपचाप पलटवार” वाली कोशिश आधी-अधूरी और अप्रभावी प्रतिक्रिया ही होगी। फिर भी, ज़्यादातर लोग शायद परवाह नहीं करेंगे

  • आखिरकार इसका मतलब यही है कि Google web search results पर थोड़ा quality control करेगा, जो उसे शुरू से करते रहना चाहिए था
    यह मज़ेदार है कि model reputation पर चोट लगने के बाद ही वह मेहनत करने लगा