AI को उद्धृत मत कीजिए — LLM के जवाब तथ्य नहीं होते

(stopcitingai.com)

6 पॉइंट द्वारा GN⁺ 2025-11-01 | 5 टिप्पणियां | WhatsApp पर शेयर करें

Large Language Model (LLM) के जवाब तथ्य नहीं होते, बल्कि शब्दों के सांख्यिकीय पूर्वानुमान का परिणाम होते हैं
ChatGPT, Claude, Gemini आदि सिर्फ अगला सबसे संभावित शब्द predict करते हैं, सूचना के स्रोत या उसकी सत्यता को नहीं समझते
ये विश्वसनीय लगने वाले वाक्य बना सकते हैं, लेकिन उनका कंटेंट सटीक या भरोसेमंद न भी हो सकता है
AI के जवाबों को अधिकारिक आधार की तरह copy-paste करके आगे भेजना दरअसल सिर्फ “अक्सर साथ इस्तेमाल होने वाले शब्दों के संयोजन” को दोहराना है
AI के जवाबों को तथ्य मानकर उद्धृत करने की प्रथा ज्ञान की जाँच और सोचने-समझने की क्षमता के कमजोर पड़ने के जोखिम को दिखाती है

AI जवाबों का मूल स्वभाव

ChatGPT, Claude, Gemini जैसे Large Language Model के जवाब तथ्य नहीं होते
- ये वाक्य में आगे आने वाले शब्द का पूर्वानुमान लगाकर काम करते हैं
- नतीजतन ये विश्वसनीय दिखने वाली लेकिन गलत जानकारी पैदा कर सकते हैं
ऐसे मॉडल की तुलना ऐसे व्यक्ति से की जा सकती है जिसने बहुत सारी सामग्री पढ़ी हो लेकिन स्रोत याद न हों
- यानी ये सूचना के आधार और संदर्भ को समझे बिना सिर्फ वाक्यों को दोबारा संयोजित करते हैं

भरोसेमंदी की सीमाएँ

AI द्वारा दिए गए जवाब या सलाह सही हो सकते हैं, लेकिन उनका आधार स्पष्ट नहीं होता
- जवाब “याद रखी हुई किताब” नहीं, बल्कि अक्सर साथ आने वाले शब्दों का संयोजन है
इसलिए AI के आउटपुट को तथ्य या आधिकारिक जानकारी की तरह उद्धृत करना उचित नहीं है
- “ChatGPT ने ऐसा कहा” जैसा दावा सिर्फ शब्द-पूर्वानुमान के नतीजे का हवाला भर है

उद्धरण का जोखिम

AI के जवाब को ज्यों का त्यों copy करके आगे भेजना सच नहीं, बल्कि शब्दों के संयोजन को फैलाने जैसा है
- यह कभी-कभी उपयोगी हो सकता है या कुछ insight दे सकता है, लेकिन यह सत्य या अंतिम निर्णय का मानदंड नहीं है
लेख में इस व्यवहार को “होशियार लोगों का सोचना बंद कर देना” कहा गया है

अतिरिक्त संदर्भ सामग्री

निष्कर्ष

AI और machine learning तकनीक को अपने आप में सकारात्मक माना जा सकता है,
लेकिन AI के जवाबों को बिना आलोचनात्मक जाँच के उद्धृत या उन पर भरोसा करने के रवैये से सावधान रहना चाहिए
साइट सलाह देती है कि जो लोग “But ChatGPT Said…” कहते हैं, उनके साथ यह सामग्री साझा करें

5 टिप्पणियां

kandk 2025-11-03

क्या यह 1 साल पुरानी पोस्ट है?

crawler 2025-11-03

हाहाहाहा

savvykang 2025-11-03

https://github.com/leoherzog/stopcitingai/blob/main/index.html
नहीं, अगर आप फ़ाइल का संशोधन इतिहास देखें, तो पता चलेगा कि इसका ड्राफ्ट एक हफ़्ता पहले तैयार किया गया था।

nayounsang1 2025-11-01

"यह शब्दों की statistical prediction का परिणाम है" — सिर्फ इस तथ्य को समझ लेने से ही शायद यह साफ़ हो जाता है कि AI को कैसे हैंडल करना चाहिए।

GN⁺ 2025-11-01

Hacker News राय

ChatGPT, Claude, Gemini जैसे LLM के जवाब तथ्य नहीं होते
वे सिर्फ अगला आने वाला शब्द predict करते हैं
“Wikipedia का लेख भी तथ्य नहीं, सिर्फ magnetic flux में उतार-चढ़ाव है” जैसी उपमा बेमानी है
आखिरकार असली बात source बताने की है। चाहे Wikipedia हो, इंसान हो, या कुत्ता—source नहीं है तो मैं भरोसा नहीं करूंगा
- LLM के पास source हो ही नहीं सकता। यह language model है, encyclopedia नहीं
  output बस probability के आधार पर चुने गए शब्दों का मेल है; कुछ शब्द आम अभिव्यक्तियों से, कुछ 4chan जैसी जगहों से, और कुछ hallucination भी हो सकते हैं
  ऐसे में “तथ्य का source” जैसी अवधारणा लागू ही नहीं होती
- Wikipedia का लेख तथ्य से ज़्यादा community द्वारा बनाया गया परिणाम है
  “तथ्य” की परिभाषा कैसे की जाती है, उस पर बहस का केंद्र बदल जाता है
- “तथ्य नहीं, सिर्फ magnetic flux में बदलाव” वाली उपमा गलत तुलना है
  समस्या नतीजे में नहीं, बल्कि नतीजा निकालने की प्रक्रिया की विश्वसनीयता में है
  अगर पासा फेंककर “3+4=7” सही आ भी जाए, तो वह सिर्फ संयोग से सही है; प्रक्रिया फिर भी गलत है
  LLM की समस्या भी कुछ ऐसी ही प्रक्रिया-जनित त्रुटि के करीब है
- “अगला शब्द predict करने वाली मशीन” वाला वर्णन तकनीकी रूप से सही है, लेकिन LLM की प्रकृति को पूरी तरह नहीं पकड़ता
  असल में इसे मानवीय पसंद और sycophancy के हिसाब से train किया जाता है, ताकि पढ़ने में मीठा “high-fructose syrup जैसा लेखन” निकले
  इसलिए brainstorming या summary के लिए यह उल्टा अनुपयुक्त हो सकता है
  लेकिन साधारण factual सवालों में यह धीरे-धीरे बेहतर हो रहा है
  आखिरकार LLM सिर्फ predictor नहीं, बल्कि ज़्यादा भरोसेमंद दिखने के लिए optimize की गई चीज़ है
छोटी कंपनियों में भी AI इस्तेमाल को लेकर expectation set करना ज़रूरी है
“AI इस्तेमाल करो, लेकिन नतीजे की ज़िम्मेदारी तुम्हारी है” जैसा आसान सिद्धांत ही काफी है
data validation, code testing, और response verification ज़रूरी हैं
पहले कहा जाता था, “Stack Overflow से copy-paste मत करो, पढ़ो और समझो”
दुनिया बदल गई है, लेकिन मूल बात वही है
- फर्क सिर्फ इतना है कि अब “पढ़ने और समझने” की प्रक्रिया पहले से कहीं ज़्यादा मेहनत मांगती है
  यही बड़ा बदलाव है
“हज़ारों किताबें पढ़ी हैं, लेकिन कहाँ पढ़ी थीं याद नहीं” वाली उपमा LLM से मिलती-जुलती लगती है
मैं भी कभी-कभी “शायद Schaum series में था?” कहते हुए source की hallucination कर देता हूँ
- इसी से मज़ाक निकलता है कि फिर “HN के gus_massa ने कहा था” कहकर quote नहीं करना चाहिए, है न?
- सच कहें तो यह घटना सीखने की प्रकृति से जुड़ी है
  शुरू में याद रहता है कि “Paris फ्रांस की राजधानी है” कहाँ सीखा था, लेकिन समय के साथ source मिट जाता है और सिर्फ सामग्री रह जाती है
LLM पूरी तरह Garbage In, Garbage Out सिद्धांत का पालन करता है
जहाँ documentation अच्छी है, वहाँ यह अच्छा काम करता है; लेकिन अस्पष्ट विषयों में उलटी-सीधी जानकारी देता है
खासकर context समझने में यह कमजोर है, इसलिए स्पष्ट निर्देश न हों तो गलत जवाब देता है
technical support में अक्सर ऐसे ग्राहकों से बहस हो जाती है जो ChatGPT के जवाब को ज्यों-का-त्यों सही मान लेते हैं
- समस्या यह है कि खराब जानकारी भी अच्छी जानकारी जितने ही आत्मविश्वास से पेश की जाती है
  correction माँगो तो बदले में एक और गलत जवाब और बेकार की माफ़ी मिलती है
“post-truth” दौर बेचैन करने वाला है, लेकिन उल्टा यह भी लगता है कि लोग अब ज़्यादा सवाल और संदेह कर रहे हैं
Rorty के कहे अनुसार, “तथ्य वह है जिस पर हम अब और बहस नहीं करते”—इसे सामाजिक सहमति का उत्पाद मानना चाहिए
truth पर बहस से ज़्यादा अहम है विभिन्न discourse communities के बीच भाषा-टकराव को संभालने का तरीका
अगर आप अपने बॉस से कहें, “यह बेवकूफी भरा विचार है,” तो उन्हें पसंद आने वाला नहीं है
“क्या हम वह conversation log साथ में देख सकते हैं?” पूछना बेहतर है
तभी यह पता चल सकता है कि LLM ने पक्षपात कहाँ डाला
- मैं भी कुछ ऐसा ही करता हूँ। कोई ChatGPT quote करे तो मैं कह देता हूँ, “ChatGPT ने कहा कि वह गलत है”
  बिना verification वाले LLM output को खंडित करना मेरी ज़िम्मेदारी नहीं, ज़िम्मेदारी quote करने वाले की है
- कुछ लोग उसे Apple Messages पर भेजकर उम्मीद करते हैं कि उसे उनकी अपनी बात माना जाए
“source citation” की बहस असल में एक गहरी समस्या को छोड़ रही है
LLM ऐसे कामों में मज़बूत है जिन्हें verify किया जा सकता है (code, translation, summary), लेकिन ऐसे क्षेत्रों में कमजोर है जिन्हें verify करना कठिन है (research, विशेषज्ञ क्षेत्र)
इसलिए मैं LLM को सिर्फ ऐसा draft generator मानता हूँ जिसे कोई expert review कर सके
खतरा hallucination नहीं, बल्कि वह confidence gap है जो तब पैदा होता है जब model की fluency उपयोगकर्ता की expertise से आगे निकल जाती है
RAG या web search जैसे tool-calling तरीके भी आखिरकार बस किसी दूसरे failure mode से अदला-बदली हैं
“अगर ChatGPT मुझसे ज़्यादा भरोसेमंद है, तो आपने मुझे नौकरी पर क्यों रखा?”—मेरी प्रतिक्रिया यही होती है
मैं घंटों लगाकर समझा सकता हूँ, लेकिन क्या सीधे expert पर भरोसा करना बेहतर नहीं है?
- लेकिन जो लोग कहते हैं “बस मुझ पर भरोसा करो,” कई बार वही सबसे कम भरोसेमंद निकलते हैं