पूर्व OpenAI·Tesla AI निदेशक Andrej Karpathy ने हाल ही में Dwarkesh Patel के पॉडकास्ट में AI एजेंट्स के भविष्य और AGI टाइमलाइन पर एक ठोस वास्तविकता-आधारित आकलन दिया। जबकि उद्योग 'एजेंट का साल' जैसा उत्साह मना रहा है, उन्होंने साफ बताया कि यह क्यों 'एजेंट के 10 साल' होना चाहिए और वर्तमान reinforcement learning की बुनियादी समस्या क्या है।
मुख्य बिंदु:
- “सुपरविजन को स्ट्रॉ से खींचना”: Reinforcement Learning की घातक कमजोरी – सैकड़ों प्रयासों के बाद सिर्फ एक सही उत्तर सिग्नल से पूरे प्रोसेस का आकलन करने वाला मौजूदा RL तरीका बुनियादी तौर पर अक्षम और शोर-प्रधान है
- कोडिंग AI की वास्तविक क्षमता: nanochat प्रोजेक्ट ने जो दिखाया – करीब 8,000 लाइन के ChatGPT क्लोन के निर्माण में AI एजेंट मौलिक/रचनात्मक कोड लिखने में गंभीर रूप से कमजोर रहा; उसकी सर्वश्रेष्ठ उपलब्धि कई बार सिर्फ ऑटो-कंप्लीट तक सीमित थी
- मॉडल कोलैप्स की दुविधा: सिंथेटिक डेटा का छिपा फंदा – LLM द्वारा जेनरेट किए गए हर सैंपल का distribution “चुपचाप ढहा हुआ” होता है, इसलिए ChatGPT से मज़ाक माँगने पर लगभग तीन ही जवाब बार-बार दोहराए जाते हैं
अभी कोई टिप्पणी नहीं है.