LLM में "ब्रेन रॉट" (brain rot) जैसी घटना होने की संभावना

(llm-brain-rot.github.io)

1 पॉइंट द्वारा GN⁺ 2025-10-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM Brain Rot परिकल्पना के अनुसार, यदि किसी LLM को लगातार निम्न-गुणवत्ता वाले वेब टेक्स्ट के संपर्क में रखा जाए, तो उसकी संज्ञानात्मक क्षमता में गिरावट आ सकती है।
प्रयोग परिणामों में पाया गया कि निम्न-गुणवत्ता डेटा से अतिरिक्त training पाए गए LLM में reasoning, लंबी-संदर्भ समझ और safety की क्षमता में कमी तथा "डार्क traits" (psychopathy, narcissism आदि) के स्कोर बढ़ने का प्रभाव देखा गया।
जैसे-जैसे Junk डेटा का अनुपात बढ़ता है, संज्ञानात्मक क्षमता घटने की तीव्रता भी बढ़ती जाती है।
त्रुटि विश्लेषण में मुख्य पैटर्न कारण-चर्चा छोड़ने (thought process skipping) के रूप में सामने आया।
उच्च-गुणवत्ता डेटा और tuning से आंशिक सुधार संभव है, लेकिन पूर्ण recovery कठिन रहती है।

शोध का अवलोकन

इस शोध में LLM Brain Rot Hypothesis (ब्रेन रॉट परिकल्पना) का प्रस्ताव और सत्यापन किया गया।
यह प्रयोगात्मक रूप से परखा गया कि जब LLM (large language model) को निरंतर निम्न-गुणवत्ता (junk) वेब टेक्स्ट के संपर्क में रखा जाता है, तो उसकी संज्ञानात्मक क्षमता दीर्घकाल में कम होती है या नहीं।
कारण अलग करने और प्रभाव को स्पष्ट करने के लिए, हमने Twitter/X के मूल dataset पर आधारित दो तरीकों (M1: भागीदारी/engagement आधारित, M2: semantic quality आधारित) से junk तथा control dataset तैयार कर तुलना की।
दोनों सेटअप में token count और प्रशिक्षण सेटिंग्स को समान रखा गया, ताकि केवल डेटा की गुणवत्ता परिवर्तन ही स्वतंत्र चर (independent variable) रहे।

प्रमुख प्रयोग परिणाम

4 LLM पर अतिरिक्त pre-training करने पर reasoning, long-context understanding, और safety जैसी संज्ञानात्मक क्षमताओं में स्पष्ट गिरावट संकेतकों पर दिखी।
- साथ ही “डार्क traits” (psychopathy, narcissism आदि) स्कोर बढ़ने का प्रभाव भी देखा गया।
उदाहरण के लिए, M1 सेटिंग में Chain of Thoughts आधारित ARC-Challenge स्कोर 74.9 → 57.2 और RULER-CWE 84.4 → 52.3 तक गिरा; junk डेटा अनुपात बढ़ने पर स्कोर ड्रॉप और स्पष्ट होता गया।
जब junk डेटा का अनुपात धीरे-धीरे बढ़ाया गया, तो संज्ञानात्मक गिरावट भी लगभग उसी अनुपात में बढ़ती रही, यानी एक स्पष्ट dose-response पैटर्न दिखा।

त्रुटि कारण विश्लेषण

thought-skipping प्रवृत्ति प्रमुख अवनति पैटर्न के रूप में दिखी।
- LLM reasoning प्रक्रिया को धीरे-धीरे अधिक छोड़ने/कूदने लगा, जिससे गलतियों की आवृत्ति बढ़ी।
आंशिक recovery: instruction tuning और उच्च-गुणवत्ता डेटा से re-train करने पर क्षमता में काफी सुधार संभव है, लेकिन baseline स्तर तक पूरी तरह बहाल करना कठिन है; यह केवल format mismatch नहीं, बल्कि representation बदलाव की वजह से लगता है।
शैली से अधिक लोकप्रियता: ट्वीट लोकप्रियता (non-semantic संकेतक) M1 में brain rot के प्रभाव को मापने के लिए अधिक मजबूत संकेतक साबित हुई।

निष्कर्ष और निहितार्थ

यह शोध कई कोणों से दर्शाता है कि डेटा की गुणवत्ता LLM क्षमता गिरावट का मुख्य कारण है।
LLM के निरंतर re-training में डेटा क्यूरेशन को प्रशिक्षण चरण की सुरक्षा (safety) समस्या के रूप में दोबारा परिभाषित करता है।
चल रहे LLMs पर नियमित “संज्ञानात्मक स्वास्थ्य जाँच” (cognitive health check) करने की आवश्यकता पर जोर देता है।

1 टिप्पणियां

GN⁺ 2025-10-22

Hacker News टिप्पणियाँ

“Brain Rot” शब्द का उपयोग LLM की डेटा-क्यूरेशन समस्या के लिए कुछ ओवरस्टेटेड लगता है; उल्टा लगता है कि लिखने वाला खुद ही LLM जैसी सोच में फँस गया है।
- लाइनें सच में किसी असली LLM-लेखन जैसी लगती हैं, खासकर क्योंकि em dash (—) दो बार डालकर पॉइंट्स निकाले गए हैं; HN के पाठक तुरंत पहचान सकते हैं।
- सच यह है कि HR टीम वाले भी LLM के आने से पहले इसी तरह की टोन में लिखते थे—“क्या तुम OKR ठीक कर रहे हो?”, “सहकर्मियों की 360-degree review के जरिए ग्रोथ माप रहे हो?”, “रोज़ाना target check और manager के साथ 1:1 मीटिंग कर रहे हो?”—इसमें वही HR-ish स्टाइल दिखती है।
- अगर मैसेज ठीक से पहुँचता है तो LLM की मदद से लिखने में क्या समस्या है, समझ नहीं आता। आगे जो भी हो, LLM writing शायद आवश्यक औज़ार बन ही जाएगा।
- जितना ज़्यादा LLM इस्तेमाल करेंगे, उतना दिमाग का जड़ होने जैसा महसूस होता है; लंबे समय तक वही इनपुट-पैटर्न चलाते रहने पर autocomplete पर निर्भरता बढ़ जाती है और लिखते समय शब्द भूलने लगते हैं। आख़िर में असली बात यह है कि LLM में high-quality data डालना ही महत्वपूर्ण है—कई agent startups domain-wise strong knowledge और workflow बड़े मॉडल में inject करने की कोशिश कर रहे हैं।
- सिर्फ LLM के “brain rot” पर शोध करके human brain rot को ignore करना दुखद है; अगर इंसानों ने भी cognitive hygiene पर अधिक ध्यान दिया होता तो शायद आज का social media कहीं healthier होता।
अगर LLM training data देखना हो तो Common Crawl का random sample डाउनलोड करके सीधे देखो (लगभग 100MB के आसपास)।
https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
इसमें भी कई problematic samples दिखे। निश्चित ही वास्तविक pipeline पहले से फिल्टर कर लेगी, पर कुछ base/text मॉडल जैसे Llama पहले ही shocking outputs दे चुके हैं, इसलिए यह सवाल बना रहता है कि फिल्टरिंग वास्तव में कितनी कठोर है।
- Karpathy ने भी हाल में कहा है कि Common Crawl sample में काफी बेकार junk data होता है; वहाँ WSJ जैसी high-end चीज़ें बहुत rare हैं, इसलिए उसी पर train होकर अच्छा सीखना ही लगभग miracle लगता है।
- मेरा अनुमान है कि बड़े AI vendors आख़िरकार latest classifiers और filters से risky data हटाते हैं; अगर बच जाए तो RLHF जैसी तकनीक से risk responses को control करते हैं। यानी dataset filtering और paid high-quality data sourcing ही open-source ecosystem में real differentiation और relatively low entry barrier का हिस्सा है।
आखिरकार LLM में गंदा data डालकर आउटपुट खराब होने का observation नया नहीं लगता, कोई चौंकाने वाली खोज नहीं।
- हाँ, हमने recovery experiments भी देखे हैं; शोध में hypothesis को सीधे validate करना महत्वपूर्ण है। शोधकर्ताओं को issue की वास्तविक गंभीरता बताने का सबसे effective तरीका शायद पेपर publish करना ही है।
- किसी भी data पर roughly train कर देने की अफ़वाह चलती रहती है, इसलिए वास्तविक validation वाले शोध की ज़रूरत है।
पेपर में दो बड़े मुद्दे बताए गए हैं:
- मुख्य मुद्दा “thought-skipping” है: मॉडल अक्सर reasoning के intermediate steps छोड़ देता है।
- “popularity” का brain rot से लंबाई की तुलना में अधिक निकट संबंध दिखा; यानी popular tweets brain rot effect का stronger signal हैं।
  यह थोड़ा expected है क्योंकि pop-culture में अक्सर evidence छोड़कर सीधे conclusion पर jump करने की आदत होती है; यदि Twitter feed जैसी चीज़ों पर train करें तो मॉडल भी वैसा ही बदलता है। कम-से-कम एक control dataset बिना social media डेटा के साथ तुलना के लिए होना चाहिए।
पढ़ते हुए लगा कि सभी पहले से जानते हैं कि training data खराब है, बस कोई उसे seriously नहीं ले रहा; जब model खराब data से dumb हो जाए तब चौंकने का नाटक करना थोड़ा मज़ाकिया लगता है, जैसे यह बात पहले से सबको clear नहीं थी।
“cognitive hygiene” metaphor ठीक नहीं बैठता क्योंकि LLM में कोई वास्तविक cognitive ability नहीं होती, इसलिए यह ठीक metaphor नहीं। असली मुद्दा यह है कि data suppliers ने सस्ता और कई बार कॉपीराइट-विवादित डाटा भी भर दिया।
- “cognitive decline” जैसी भाषा भी गलत संकेत देती है; यह वास्तविक cognition नहीं, बल्कि ज्यादा से ज्यादा real जैसा दिखने वाला simulation है।
brain rot text हानिकारक हो सकता है, लेकिन brain rot वीडियो देखकर लगता है कि उनके पास high information density भी हो सकती है—कुछ हद तक performance improve करने का संकेत; (जर्मनी का brain rot analysis वीडियो देखें), और Svankmajer जैसी कला भी “proto-brainrot” की तरह museum में बार-बार सोचने पर मजबूर करती है। यहाँ भ्रम शब्दों में भी है; असल फर्क यह है कि कंटेंट बेसिर-पैर का है या अर्थपूर्ण।
- शोध के अनुसार बच्चों वाले brain rot videos का असर सकारात्मक नहीं है; Cocomelon आदि से संबंधित लेख देखें। अच्छी तरह निर्मित कंटेंट शायद brain rot spectrum से काफी दूर होता है।
- इसी वजह से यह अधिक बड़ा risk हो सकता है कि AI लोगों को manipulate करने के लिए इस्तेमाल हो (intent हो या न हो, art भी एक persuasion tool है)। LLM-generated brain rot और इंसानों को खुश करने के लिए model design दोनों चिंता बढ़ाते हैं; धीरे-धीरे बढ़ता anthropomorphization भी डरावना लगता है।
मुझे यह “garbage in, garbage out” की नई पंक्ति जैसा लगा—बस क्लिकबैट शीर्षक जैसा।
- अधिकांश मामलों में GIGO LLM training पर भी सीधे लागू होता है।
  इस पेपर में खासकर ध्यान देने वाली बात:
  - पोस्ट-ट्रेनिंग (post-training) की कमी pretraining quality को पूरी तरह ठीक नहीं कर पाती; उदाहरण के लिए syntax ठीक दिखने के बावजूद inference-skipping जैसे implicit bad habits अंदर बैठ सकते हैं।
  - “bad data” को परिभाषित करना आसान नहीं; कई बार engagement-based heuristic LLM content classifiers से बेहतर fit बैठा।
- “Attention is all you need”
- ChatGPT का “brain rot meme” या “Skibidi Toilet” जैसे इंटरनेट meme से takeover होने की कल्पना कुछ funny लगती है।
- वर्तमान LLM training method चाहे अच्छी हो या खराब, वास्तविकता यह है कि huge मात्रा में junk और अच्छी दोनों किस्म का data mix करके feed किया जाता है; भले सामान्य लगे, लेकिन यह reminder फिलहाल relevant लगता है।
- और उस पर अतिरिक्त प्रक्रिया (processing steps) भी जुड़ गई है।
“brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” जैसे metaphor को computer science पेपर में इस्तेमाल करना ठीक नहीं है। तुलना में ये अक्सर inaccurate ही नहीं, बल्कि कंप्यूटर मॉडल पर human traits प्रोजेक्ट करने का जोखिम भी बढ़ाते हैं; अगर research culture में यह language बैठ गई तो बाद में इन्हें हटाना और मुश्किल होगा।
इस पेपर को पढ़कर जिज्ञासा हुई कि alpha generation के बच्चे media environment में grow होकर कैसे long-term असर झेलते हैं।
- फिर भी मन में सवाल आता है: क्यों केवल बच्चों के बारे में ही सोचा जाए?

LLM में "ब्रेन रॉट" (brain rot) जैसी घटना होने की संभावना

शोध का अवलोकन

प्रमुख प्रयोग परिणाम

त्रुटि कारण विश्लेषण

निष्कर्ष और निहितार्थ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ