Model Collapse क्या है?

  • जब AI, AI द्वारा जनरेट किए गए डेटा पर दोबारा ट्रेन होता है, तो होने वाली गिरावट की प्रक्रिया
  • Nature पेपर के आधार पर प्रमाणित एक संरचनात्मक जोखिम

ऊपरी तौर पर दिखने वाली विशेषताएँ

  • औसत performance और benchmark score बने रह सकते हैं या बढ़ भी सकते हैं
  • लेकिन दुर्लभ cases (outlier और edge cases) धीरे-धीरे गायब होने लगते हैं
  • output धीरे-धीरे एक सामान्य, सुरक्षित और औसत दिशा में सिमटने लगता है

मुख्य mechanism

  • शुरुआत में → human data पर training
  • उसके बाद → web पर AI-generated content में तेज़ बढ़ोतरी → नए models synthetic data पर train होते हैं
  • हर generation, पिछली generation के blind spots को और बढ़ाती और मज़बूत करती है
  • दुर्लभ events/data को धीरे-धीरे नज़रअंदाज़ किया जाता है → अंततः स्थायी रूप से खो जाते हैं

हर modality में दिखने वाले ठोस लक्षण

  • Text: धाराप्रवाह लेकिन खोखला और दोहरावभरा, नए ideas की जगह सुरक्षित राय को तरजीह (जैसे em-dash का ज़रूरत से ज़्यादा उपयोग)
  • Recommendation systems: जिज्ञासा और विविधता हट जाती है → feed बेहद संकीर्ण हो जाता है
  • Image/Video: सिर्फ़ परिचित styles तक सिमटना, creative variation लगभग असंभव (उदा.: हमेशा मिलती-जुलती aesthetics की सीमा में)
  • समानता: यह “malfunction” नहीं, बल्कि “बहुत ज़्यादा एक जैसा हो जाना” की दिशा में optimized होना है

रोकथाम और प्रतिक्रिया के उपाय

  • Source provenance का tracking और management
    → human-generated data को सुरक्षित रखना और उसे प्राथमिकता से train कराना, AI-generated data को स्पष्ट रूप से अलग करना
  • सुविधा से ज़्यादा certainty को चुनना
    → AI data के central bias से बचना, वास्तविक दुनिया की जटिलता को बनाए रखना
  • Range को महत्व देना
    → दुर्लभ मामलों के लिए learning space सुरक्षित करना (इसके लिए कुछ efficiency की क़ीमत भी चुकानी पड़े तो स्वीकार करना)
  • दुर्लभ मामलों को noise नहीं बल्कि asset के रूप में फिर से परिभाषित करना

निष्कर्ष संदेश

  • recursive learning (AI → AI) लंबे समय में विनाशकारी हो सकता है
  • “AI data से AI को train मत करो” — इस दावे के समर्थन में अब और मज़बूत आधार बन रहे हैं
  • training data के source के प्रति लापरवाही सबसे बड़ा जोखिम कारक है

क्योंकि मौजूदा समय में अधिकांश बड़े models पहले ही काफ़ी मात्रा में synthetic data ले चुके हैं, इसलिए आगे source management और sparse data preservation सबसे महत्वपूर्ण चुनौतियाँ बनने वाली हैं.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.