- LLM Brain Rot परिकल्पना के अनुसार, यदि किसी LLM को लगातार निम्न-गुणवत्ता वाले वेब टेक्स्ट के संपर्क में रखा जाए, तो उसकी संज्ञानात्मक क्षमता में गिरावट आ सकती है।
- प्रयोग परिणामों में पाया गया कि निम्न-गुणवत्ता डेटा से अतिरिक्त training पाए गए LLM में reasoning, लंबी-संदर्भ समझ और safety की क्षमता में कमी तथा "डार्क traits" (psychopathy, narcissism आदि) के स्कोर बढ़ने का प्रभाव देखा गया।
- जैसे-जैसे Junk डेटा का अनुपात बढ़ता है, संज्ञानात्मक क्षमता घटने की तीव्रता भी बढ़ती जाती है।
- त्रुटि विश्लेषण में मुख्य पैटर्न कारण-चर्चा छोड़ने (thought process skipping) के रूप में सामने आया।
- उच्च-गुणवत्ता डेटा और tuning से आंशिक सुधार संभव है, लेकिन पूर्ण recovery कठिन रहती है।
शोध का अवलोकन
- इस शोध में LLM Brain Rot Hypothesis (ब्रेन रॉट परिकल्पना) का प्रस्ताव और सत्यापन किया गया।
- यह प्रयोगात्मक रूप से परखा गया कि जब LLM (large language model) को निरंतर निम्न-गुणवत्ता (junk) वेब टेक्स्ट के संपर्क में रखा जाता है, तो उसकी संज्ञानात्मक क्षमता दीर्घकाल में कम होती है या नहीं।
- कारण अलग करने और प्रभाव को स्पष्ट करने के लिए, हमने Twitter/X के मूल dataset पर आधारित दो तरीकों (M1: भागीदारी/engagement आधारित, M2: semantic quality आधारित) से junk तथा control dataset तैयार कर तुलना की।
- दोनों सेटअप में token count और प्रशिक्षण सेटिंग्स को समान रखा गया, ताकि केवल डेटा की गुणवत्ता परिवर्तन ही स्वतंत्र चर (independent variable) रहे।
प्रमुख प्रयोग परिणाम
- 4 LLM पर अतिरिक्त pre-training करने पर reasoning, long-context understanding, और safety जैसी संज्ञानात्मक क्षमताओं में स्पष्ट गिरावट संकेतकों पर दिखी।
- साथ ही “डार्क traits” (psychopathy, narcissism आदि) स्कोर बढ़ने का प्रभाव भी देखा गया।
- उदाहरण के लिए, M1 सेटिंग में Chain of Thoughts आधारित ARC-Challenge स्कोर 74.9 → 57.2 और RULER-CWE 84.4 → 52.3 तक गिरा; junk डेटा अनुपात बढ़ने पर स्कोर ड्रॉप और स्पष्ट होता गया।
- जब junk डेटा का अनुपात धीरे-धीरे बढ़ाया गया, तो संज्ञानात्मक गिरावट भी लगभग उसी अनुपात में बढ़ती रही, यानी एक स्पष्ट
dose-response पैटर्न दिखा।
त्रुटि कारण विश्लेषण
- thought-skipping प्रवृत्ति प्रमुख अवनति पैटर्न के रूप में दिखी।
- LLM reasoning प्रक्रिया को धीरे-धीरे अधिक छोड़ने/कूदने लगा, जिससे गलतियों की आवृत्ति बढ़ी।
- आंशिक recovery: instruction tuning और उच्च-गुणवत्ता डेटा से re-train करने पर क्षमता में काफी सुधार संभव है, लेकिन baseline स्तर तक पूरी तरह बहाल करना कठिन है; यह केवल format mismatch नहीं, बल्कि representation बदलाव की वजह से लगता है।
- शैली से अधिक लोकप्रियता: ट्वीट लोकप्रियता (non-semantic संकेतक) M1 में brain rot के प्रभाव को मापने के लिए अधिक मजबूत संकेतक साबित हुई।
निष्कर्ष और निहितार्थ
- यह शोध कई कोणों से दर्शाता है कि डेटा की गुणवत्ता LLM क्षमता गिरावट का मुख्य कारण है।
- LLM के निरंतर re-training में डेटा क्यूरेशन को प्रशिक्षण चरण की सुरक्षा (safety) समस्या के रूप में दोबारा परिभाषित करता है।
- चल रहे LLMs पर नियमित “संज्ञानात्मक स्वास्थ्य जाँच” (cognitive health check) करने की आवश्यकता पर जोर देता है।
1 टिप्पणियां
Hacker News टिप्पणियाँ
“Brain Rot” शब्द का उपयोग LLM की डेटा-क्यूरेशन समस्या के लिए कुछ ओवरस्टेटेड लगता है; उल्टा लगता है कि लिखने वाला खुद ही LLM जैसी सोच में फँस गया है।
अगर LLM training data देखना हो तो Common Crawl का random sample डाउनलोड करके सीधे देखो (लगभग 100MB के आसपास)।
https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
इसमें भी कई problematic samples दिखे। निश्चित ही वास्तविक pipeline पहले से फिल्टर कर लेगी, पर कुछ base/text मॉडल जैसे Llama पहले ही shocking outputs दे चुके हैं, इसलिए यह सवाल बना रहता है कि फिल्टरिंग वास्तव में कितनी कठोर है।
आखिरकार LLM में गंदा data डालकर आउटपुट खराब होने का observation नया नहीं लगता, कोई चौंकाने वाली खोज नहीं।
पेपर में दो बड़े मुद्दे बताए गए हैं:
यह थोड़ा expected है क्योंकि pop-culture में अक्सर evidence छोड़कर सीधे conclusion पर jump करने की आदत होती है; यदि Twitter feed जैसी चीज़ों पर train करें तो मॉडल भी वैसा ही बदलता है। कम-से-कम एक control dataset बिना social media डेटा के साथ तुलना के लिए होना चाहिए।
पढ़ते हुए लगा कि सभी पहले से जानते हैं कि training data खराब है, बस कोई उसे seriously नहीं ले रहा; जब model खराब data से dumb हो जाए तब चौंकने का नाटक करना थोड़ा मज़ाकिया लगता है, जैसे यह बात पहले से सबको clear नहीं थी।
“cognitive hygiene” metaphor ठीक नहीं बैठता क्योंकि LLM में कोई वास्तविक cognitive ability नहीं होती, इसलिए यह ठीक metaphor नहीं। असली मुद्दा यह है कि data suppliers ने सस्ता और कई बार कॉपीराइट-विवादित डाटा भी भर दिया।
brain rot text हानिकारक हो सकता है, लेकिन brain rot वीडियो देखकर लगता है कि उनके पास high information density भी हो सकती है—कुछ हद तक performance improve करने का संकेत; (जर्मनी का brain rot analysis वीडियो देखें), और Svankmajer जैसी कला भी “proto-brainrot” की तरह museum में बार-बार सोचने पर मजबूर करती है। यहाँ भ्रम शब्दों में भी है; असल फर्क यह है कि कंटेंट बेसिर-पैर का है या अर्थपूर्ण।
मुझे यह “garbage in, garbage out” की नई पंक्ति जैसा लगा—बस क्लिकबैट शीर्षक जैसा।
इस पेपर में खासकर ध्यान देने वाली बात:
“brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” जैसे metaphor को computer science पेपर में इस्तेमाल करना ठीक नहीं है। तुलना में ये अक्सर inaccurate ही नहीं, बल्कि कंप्यूटर मॉडल पर human traits प्रोजेक्ट करने का जोखिम भी बढ़ाते हैं; अगर research culture में यह language बैठ गई तो बाद में इन्हें हटाना और मुश्किल होगा।
इस पेपर को पढ़कर जिज्ञासा हुई कि alpha generation के बच्चे media environment में grow होकर कैसे long-term असर झेलते हैं।