2 पॉइंट द्वारा GN⁺ 2025-06-02 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • AI search summary हमेशा सटीक नहीं होती
  • PS/2 Model 280 के बारे में अलग-अलग जानकारी बार-बार खोजने पर हर बार अलग दी गई
  • मौजूद ही नहीं होने वाले model number को भी भरोसेमंद ढंग से समझा देने वाली AI hallucination की समस्या देखी गई
  • सही उत्तर मिलने की संभावना बहुत कम स्तर की है
  • गैर-विशेषज्ञ गलत जानकारी को आसानी से सच मान लेने के जोखिम में होते हैं

AI search summary की विश्वसनीयता की समस्या का अनुभव

IBM PS/2 model खोजने की कोशिश

  • 1992 में जारी किए गए PS/2 Server सिस्टम के एक खास model को खोजने के लिए Google पर search किया गया
  • search result में मिली जानकारी खोजी जा रही मशीन से मेल नहीं खाती थी, और मूल model की विशेषताओं में 486 processor (बहुवचन) तथा Microchannel(MCA) का उपयोग शामिल था

दोहराए गए परिणाम और उत्तरों में असंगति

  • एक ही query को दोबारा चलाने पर भी AI summary का परिणाम हर बार अलग दिखाई दिया
  • उदाहरण के लिए, बार-बार यह दावा किया गया कि PS/2 Model 280 एक 286-आधारित ISA सिस्टम था
  • हर उत्तर में RAM capacity और specification की जानकारी भी बदलती रही, जिससे असंगत data पेश होने की पुष्टि हुई

मौजूद नहीं होने वाले model के बारे में hallucination-आधारित विवरण

  • कई बार पूछताछ करने पर 286 सिस्टम के 128MB तक expand हो सकने जैसे तकनीकी रूप से असंभव दावे भी बनाए गए
  • यह विवरण भी जोड़ा गया कि PS/2 Model 280 IBM PC lineup का एक बड़ा विकास था
  • वास्तव में PS/2 Model 280 नाम की कोई चीज मौजूद ही नहीं है, फिर भी AI ने बिना आधार के बहुत भरोसेमंद लगने वाला विवरण दिया

सही उत्तर की कम आवृत्ति

  • कई बार query करने के बाद ही कभी-कभार सही जवाब मिला कि “Model 280 वास्तव में PS/2 series में मौजूद नहीं है”
  • सटीक उत्तर दिखाई देने की दर बहुत कम है और अधिकांश मामलों में AI बिना आधार की जानकारी गढ़ देता है
  • hallucination वाले उत्तर जानकारी के रूप में बेकार हैं और उल्टा गलत भरोसा पैदा करते हैं

AI search summary पर अंधविश्वास से सावधान

  • AI-आधारित internet search गैर-विशेषज्ञों को बहुत भरोसेमंद लग सकती है
  • विशेषज्ञ ऐसी गलती तुरंत पकड़ सकते हैं, लेकिन जिन उपयोगकर्ताओं में जानकारी की पुष्टि करने की क्षमता कम है, वे झूठी जानकारी से आसानी से प्रभावित हो सकते हैं
  • AI “गलतियां कर सकता है” जैसी चेतावनी को हल्के में नहीं लेना चाहिए, और भरोसेमंद fact-checking प्रक्रिया के बिना AI उत्तरों पर निर्भर रहना खतरनाक है
  • इस बात पर जोर दिया गया कि सिर्फ सुनने में भरोसेमंद लगने से कोई बात वास्तविक तथ्यों पर आधारित नहीं हो जाती
  • AI-आधारित summary या search result के बारे में हमेशा संदेह और तथ्य-जांच की जरूरत याद रखनी चाहिए

2 टिप्पणियां

 
ndrgrd 2025-06-03

मुझे लगता है कि LLM से सिर्फ़ summary करवाना बेहतर है। डेटा के source को ढूंढने और verify करने की प्रक्रिया ज़रूर आवश्यक है।

 
GN⁺ 2025-06-02
Hacker News की राय
  • Google Gemini के search results में confabulation की प्रवृत्ति का ज़िक्र, यानी वह सवाल से मेल खाते हुए दिखने के लिए मनगढ़ंत जवाब बना देता है; यह भी कहा गया कि उसे context और accuracy की परवाह नहीं होती। अनुभव साझा किया गया कि अगर पहले से अपेक्षित नतीजा पता हो तो इसे memory aid की तरह इस्तेमाल किया जा सकता है, लेकिन वरना इस पर बिल्कुल भरोसा नहीं किया जा सकता। Google Veo के results में भी बहुत खामियां बताई गईं। यह भी कहा गया कि AI output में logic या reasoning का अभाव साफ दिखता है, Veo के अटपटे results के उदाहरण और Tesla FSD के अजीब व्यवहार वाले दुर्घटना-समाचार का लिंक भी साझा किया गया।
    AI video realism
    Tesla FSD दुर्घटना समाचार

    • इस स्तर के output को धीरे-धीरे 'सामान्य' और 'स्वीकार्य' मान लिया गया है; यह माहौल कि कोई इसे खास समस्या नहीं मान रहा, बेहद चिंताजनक बताया गया। सवाल उठाया गया कि जो चीज़ पहले बिल्कुल अस्वीकार्य होती, वही अब इतनी गलत होने के बावजूद क्यों स्वीकार की जा रही है।

    • कार से जुड़ी किसी feature को Google पर खोजने का अनुभव साझा करते हुए कहा गया कि पहले वाला Google search ऐसे queries बहुत अच्छे से संभालता था, लेकिन अब 90% नतीजे AI-generated सामग्री से भरे होते हैं जिनमें गलत year, model और brand की जानकारी मिली-जुली होती है। थोड़ा-बहुत काम की चीज़ सिर्फ एक YouTube video थी, और पेज के बिल्कुल नीचे पुराने car forum में सही जवाब मिला, इसलिए CamaroZ28.com को धन्यवाद दिया गया।

    • कहा गया कि यह किसी भी और तकनीक से अधिक हैरान करने वाली प्रवृत्ति है, और समझ नहीं आता कि Google अपने core business को इतनी गंभीर रूप से flawed तकनीक की ओर क्यों मोड़ रहा है। Ben Evans जैसे लोगों का 'यह बेहतर हो जाएगा' वाला वादा भी खोखला बताया गया। उदाहरण दिया गया कि जर्मनी में कल हुए एक memorial event को खोजने पर AI Overview ने एक पहले से मृत Italian musician का नाम उठाकर यह तक गढ़ दिया कि वह venue उसी musician की महानतम कृति है। मज़ेदार अनुभव यह भी रहा कि वही जवाब ChatGPT में paste करने पर AI Overview की गलती का हल्के लेकिन तीखे अंदाज़ में मज़ाक उड़ाता जवाब मिला।

    • AI ऊपर-ऊपर से इतिहास का सबसे बुद्धिमान तंत्र लगता है, लेकिन उसकी अंदरूनी logic या reasoning साथ नहीं देती, जिससे एक अजीब तरह की uncanny valley जैसी अनुभूति होती है।

    • ईमानदारी से कहा गया कि जो लोग LLM को search replacement की तरह इस्तेमाल करते हैं, वे ऐसा कैसे करते हैं यह समझ नहीं आता। chatbots हमेशा मांगी गई जानकारी के आसपास की चीज़ें ही देते हैं, जैसे source माँगो तो quote दे देते हैं। इस पर यह भी शंका जताई गई कि शायद search इस्तेमाल करने का तरीका ही गलत है।

  • यह मानते हुए कि LLM की सीमाएँ और probabilistic प्रकृति समझ में आती है, फिर भी कहा गया कि परिवार या दोस्तों को LLM पर भरोसा करके अनुपयुक्त कामों में उसका उपयोग करते देख खुद को अकेला AI skeptic महसूस होता है। लोग AI से संख्या-विभाजन, जैसे dutch pay, तक करवा रहे हैं और LLM के output पर बिना शर्त भरोसा कर रहे हैं।

    • इसे high-tech से low-tech समस्या हल करने का क्लासिक उदाहरण कहा गया, और साधारण arithmetic तक मशीन से करवाने पर तंज कसा गया।

    • tricky बात यह बताई गई कि रोज़मर्रा के उपयोगों में नतीजे अक्सर 'लगभग' सही आ जाते हैं, इसलिए लोग आदतन उस पर निर्भर होने लगते हैं।

    • साधारण calculation के लिए LLM का उपयोग अपने-आप में काफ़ी मज़ेदार बात बताई गई; मज़ाक में कहा गया कि कम-से-कम variables के लिए Python तो लिखवा ही लेना चाहिए।

    • LLM का इस्तेमाल खुद में ऐसा बताया गया जैसे indoor smoking, यानी इसका असर आसपास के लोगों पर भी पड़ता है।

    • 'AI से calculation करवाते हैं, जानकारी ढूंढने को कहते हैं और नतीजे पर 100% भरोसा करते हैं' वाली बात पर एक राय यह भी आई कि इतनी सरल mechanical उपयोगिता तो आज के chatbots प्रायः सही ही निभा लेते हैं। एक साथ कई काम कर सकने के कारण हर काम के लिए अलग app में जाने की जरूरत क्या है, यह सवाल उठाया गया; निष्कर्ष यह कि usability सबसे शक्तिशाली driver है।

  • यह कहा गया कि 'AI answers may have mistakes' जैसा छोटा-सा वाक्य या ChatGPT के नीचे दिया गया warning अब नाकाफी है। वर्षों से LLM hallucination के बारे में चेतावनी दी जा रही है, फिर भी लोग गलतियाँ करते जा रहे हैं; इसलिए तर्क दिया गया कि LLM providers को उपयोगकर्ताओं को इसकी सीमाओं के बारे में कहीं अधिक आक्रामक ढंग से शिक्षित करना चाहिए, चाहे user experience थोड़ा असुविधाजनक क्यों न हो।

    • इस बहस में आगे करने लायक काम या तो model provider पर जिम्मेदारी डालना है या मौजूदा सीमित prior notice व्यवस्था बनाए रखना। कहा गया कि AI models और cloud services में पहले से कई परतों वाली filtering और censorship मौजूद है; इससे ज्यादा friction अंततः popup बढ़ाने जैसी मामूली चीज़ ही होगी। लेकिन अगर model provider पर जिम्मेदारी तय करनी शुरू की जाए, तो public model business ही असंभव हो जाएगा; कंपनियाँ आपस में licensing contracts के जरिए ही उपयोग करेंगी और आम जनता के लिए API खोलना कठिन हो जाएगा। भविष्य में माहौल बदलने पर थोड़ी ढील संभव बताई गई।

    • 'user education अधिक प्रभावी होनी चाहिए' वाली बात पर यह राय आई कि अंततः लोग अनुभव से ही सीखते हैं; जब तक नुकसान न हो, किसी warning का उतना असर नहीं होता।

    • यह दृष्टिकोण भी सामने आया कि LLM का मूल औचित्य मानव knowledge work को replace करना है, इसलिए provider इसकी सीमाओं को बहुत ज़ोर देकर नहीं बता सकता। इसे Anthropic CEO के बार-बार बड़े पैमाने पर job loss की बात करने से जोड़कर विरोधाभास बताया गया।

    • पुराने Apple Maps और Google Maps के वे दौर याद दिलाए गए जब गलत directions पर PR crisis management करनी पड़ती थी; अब सिर्फ warning जोड़ देने से मानो सब ठीक है, ऐसी हवा पर निराशा जताई गई। नई तकनीकों को बहुत ज़्यादा छूट मिलने की शिकायत की गई।

    • ज़ोर देकर कहा गया कि warning पेज के सबसे ऊपर, बड़े लाल अक्षरों में दिखनी चाहिए।

  • समझाया गया कि language model ज्ञान को 'जानने' के लिए नहीं, बल्कि 'बोलने' के लिए बनाया गया है। इसलिए उसे 'knowledge model' नहीं, 'language model' कहा जाता है। वह बस पहले से बने शब्दों के बाद अगला शब्द probability के आधार पर जोड़ता है। हर बार अलग output आने का कारण यह बताया गया कि अंदर pseudo-random generator के जरिए अगले शब्द की probability distribution से चयन होता है। temperature को 0 करने पर randomness खत्म हो जाती है और मॉडल हमेशा सबसे अधिक संभावित शब्द चुनता है; तब output बहुत नीरस हो जाता है। IBM, PS/2, 80286, 80486 जैसी चीज़ों के बारे में वह वास्तव में कुछ 'जानता' नहीं, केवल शब्दों का अनुक्रम बनाता है।

    • यह अनुभव भी साझा किया गया कि temperature 0 पर भी local models काफ़ी अच्छे से काम करते हैं; cloud-based UI में 0 को block करना शायद इसलिए है कि लोग model को infinite repetition loop में फँसते हुए न देख लें।

    • इस बात से सहमति जताई गई कि language model 'knowledge' नहीं, केवल भाषा उत्पन्न करता है। लेकिन Google उपयोग करने वाले व्यक्ति की नज़र से देखा जाए तो वह बातचीत करने नहीं, वास्तविक 'ज्ञान' पाने आता है। इसलिए Google का विश्वसनीय knowledge delivery को साधारण 'word generation' से बदलने का प्रयास मूलभूत भूल बताया गया; हालांकि यह भी कहा गया कि अगर लक्ष्य ad revenue है, तो शायद उनके लिए इससे फर्क न पड़ता हो।

  • यह भी इंगित किया गया कि Google search site पर भी 'AI answers may have mistakes' वाला warning 'see more' बटन के नीचे छिपा हुआ है। OpenAI ChatGPT के आने के समय एक गैर-विशेषज्ञ professor को यह समझाने का अनुभव बताया गया कि मौजूदा AI 'सच्चा AI' नहीं, बल्कि computation आधारित parlor trick के अधिक करीब है। फिर भी यह 'parlor trick' assignments की नकल करने में चौंकाने वाली तरह से प्रभावी है। समग्र रूप से यह आभास दिया गया कि अगर quality या copyright की परवाह न हो, तो यह सिर्फ assignments ही नहीं बल्कि कई तरह के कामों में cheating के लिए बहुत अच्छा tool है।

    • 'यह ऊपर-ऊपर से code लिखता हुआ लगता है, पर असल में लिख नहीं सकता' जैसी राय पर सवाल उठाया गया। कहा गया कि यह वास्तव में code भी लिख सकता है, और पीछे क्या हो रहा है यह तो इंसानी दिमाग के बारे में भी कोई पूरी तरह नहीं जानता; इसलिए ऐसी ontological बहसों से अधिक महत्वपूर्ण वास्तविक परिणाम हैं।

    • एक व्यावहारिक दृष्टिकोण यह भी रखा गया कि यह flexible input/output interface वाला memory aid और information retrieval tool है।

  • कहा गया कि Gemini frequently asked questions जैसी चीज़ों के लिए optimized है, लेकिन अधिक traditional search intent पर उलटे confabulated, भटकाने वाले जवाब देने लगता है। यह भी देखा गया कि बहुत से लोग AI Overview पर किसी oracle की तरह भरोसा करते हैं। यही आम जनता का AI अनुभव है। 'news' पर भरोसा उम्र या demographic के हिसाब से बदल सकता है, लेकिन AI पर लोग लगभग हर वर्ग में भरोसा कर लेते हैं। निष्कर्ष यह कि इंसान शायद बिना आधार वाले confidence के साथ दिए गए computer answers को पसंद करने वाली प्रजाति है।

    • Google search environment में आए बदलाव को विशेष रूप से गंभीर बताया गया। याद किया गया कि पहले पेज के ऊपर वाला excerpt UI 10 साल से अधिक चला, विश्वसनीय sites से snippets देता था, clicks बचाता था और भरोसेमंद स्रोत जैसा लगता था। medical queries में Mayo Clinic जैसे भरोसेमंद स्रोतों से उद्धरण मिलते थे, जिन्हें पेज पर खुद जाकर verify किया जा सकता था, इसलिए trust बनता था। समय के साथ SEO ने इस trust system को कमजोर किया, और अब इसकी जगह AI Overview जैसा मूलतः अलग system आ गया है। यही सबसे बड़ा अंतर बताया गया—पहले valid source को तुरंत verify किया जा सकता था।

    • यह भी कहा गया कि केवल सामान्य उपयोगकर्ता ही नहीं, बल्कि LLM को पेशेवर रूप से इस्तेमाल करने वाले managers तक सवाल को बदल-बदलकर तब तक पूछते हैं जब तक अपनी पसंद का जवाब न मिल जाए।

    • यह मूल मनोवैज्ञानिक बात भी उठाई गई कि लोग निराधार आत्मविश्वास वाले जवाबों को स्वभावतः पसंद करते हैं।

    • अब ऐसा लगता है कि इंटरनेट पर search करके कुछ सीखने वाला माहौल समाप्त हो गया है। हर तरफ अविश्वसनीय SEO spam garbage दिखता है, और AI Overview से यह और बदतर होगा। चिंता जताई गई कि 'printer कैसे काम करता है' खोजने पर अगर कोई 'pulley और rope system' जैसा बेहूदा जवाब भी आ जाए, तो लोग उसे भी सच मान लेंगे। इस पर आत्मचिंतन भी था कि ऐसे बेतुके, कभी-कभी खतरनाक गलत जवाब कई बार देखे गए हैं।

  • 'AI answers may have mistakes' वही संदेश है जिसे AI पर किसी भी चर्चा में सबसे ज़ोर से कहना चाहिए। तर्क यह था कि AI ethics/safety की हर बहस में यह बिंदु और energy/climate impact सबसे केंद्र में होने चाहिए, क्योंकि AI boom चलता रहा तो मानवता को सबसे बड़ा नुकसान इन्हीं दो दिशाओं से हो सकता है।

    • समस्या सिर्फ यह नहीं कि 'गलतियाँ हो सकती हैं', बल्कि यह है कि 'गलतियाँ निश्चित रूप से होती हैं'। फिर भी लोग इसे सर्वज्ञ oracle की तरह मानते हैं, जबकि यह असल में एक साधारण probabilistic model भर है। कहा गया कि पर्याप्त प्रयास मिले तो बंदर के Shakespeare लिख देने की भी संभावना होती है।
  • Google पर यह आरोप लगाया गया कि उसने search की बुनियाद को ही पूरी तरह गलत समझ लिया है; अब focus answer की accuracy पर नहीं बल्कि तेज summary और sponsored links पर है।

    • अनुभव के आधार पर कहा गया कि 10 तेज जवाबों में 6 हल्के रूप से गलत होते हैं, 2 खुल्लमखुल्ला गलत, और 1 तो सीधे खतरनाक। कुछ जवाब वास्तव में किसी को चोट पहुँचा सकते हैं या कानूनी समस्याएँ पैदा कर सकते हैं।

    • Eric Schmidt दौर के Google की 'no answer से कोई answer बेहतर' वाली रणनीति अब 'गलत answer भी no answer से बेहतर' में बदल गई है, ऐसा आकलन किया गया।

  • AI को ऐसे व्यक्ति जैसा बताया गया जो हर बात का जवाब बिना किसी आधार के बहुत आत्मविश्वास से देता है; इसलिए उसे गंभीरता से भरोसेमंद मानने का कारण बहुत कम है।

    • कहा गया कि psychological factor यहाँ प्रमुख है। जब कोई इंसान अनिश्चित होता है तो लोग non-verbal cues से उसे पकड़ लेते हैं, लेकिन AI में ऐसे cues नहीं होते। साथ ही मशीनों से आए उत्तरों को inherently correct मानने की पुरानी आदत भी है, इसलिए बहुत कम लोग इनके प्रति आलोचनात्मक रहते हैं।

    • मज़ाक में कहा गया कि अब तक किसी AI company में अपने product का नाम 'Cliff Clavin' रखने की हिम्मत नहीं हुई; इसमें बदनामी के खतरे और साहस की कमी दोनों पर व्यंग्य था।

    • 'लोग AI पर गंभीरता से भरोसा क्यों करते हैं, समझ नहीं आता' वाली बात के जवाब में यह प्रतिप्रश्न किया गया कि जब Google जैसी कंपनी, जो दशकों से दुनिया की जानकारी उपलब्ध कराने और सही answers देने की कोशिश करती रही है, वही चीज़ AI के रूप में दे रही हो तो लोगों का भरोसा करना क्या स्वाभाविक नहीं है?

  • हाल के एक अनुभव में ChatGPT और Python code के साथ काम करते हुए, Gunicorn के logger class को किसी खास URL path पर exclude करने के लिए तीन अलग solutions बनाकर उनकी speed compare करने को कहा गया। benchmark code सहित जवाब मिला कि regex सबसे तेज़ है, लेकिन खुद test चलाने पर tuple वाला तरीका 5 गुना से भी अधिक तेज़ निकला। जब यह बात chatbot को बताई गई, तो उसने तुरंत 'बताने के लिए धन्यवाद, tuple तरीका सही है' कहकर अपना जवाब सुधार लिया। निष्कर्ष यह रहा कि benchmark code जल्दी मिल जाने से समय तो बचा, लेकिन जिन क्षेत्रों में सही उत्तर को लेकर खुद भरोसा न हो, वहाँ chatbot के output पर विश्वास कम हो जाता है।