- रोज़मर्रा में इस्तेमाल होने वाली वास्तविक भाषा नियमित नहीं होती और अव्यवस्थित होती है
- भाषाविदों का मानना था कि ऐसी मनमानी विशेषताओं को नियंत्रित करने के लिए "व्याकरण" एक तरह के गोंद की तरह ज़रूरी है
- लेकिन बड़े AI language models विशाल मात्रा में language data के आधार पर भाषा का उपयोग करते हैं, और हैरानी की बात है कि यह ज़्यादातर व्याकरण की मदद के बिना संभव होता है
- इनके बनाए वाक्यों में शब्दों का चयन कभी-कभी अजीब या अर्थहीन हो सकता है, लेकिन अधिकांश वाक्य व्याकरण की दृष्टि से सही होते हैं
- अगला शब्द सोचने की क्षमता में ये AI models और मानव मस्तिष्क समान तरीके से काम करते हैं
- ऐसा लग सकता है कि GPT-3 को मनुष्यों के 20,000 वर्षों के बराबर भाषा अनुभव पर train किया गया था, इसलिए ऐसा संभव हुआ,
लेकिन शोध के अनुसार लगभग 10 करोड़ शब्दों पर train किया गया GPT-2 भी मानव मस्तिष्क की तरह अगला शब्द सोच सकता है
(10 करोड़ शब्द औसत बच्चे द्वारा 10 वर्षों में सुने जाने वाले शब्दों की मात्रा के लगभग बराबर हैं)
- यह दिखाता है कि केवल exposure के आधार पर भी भाषा को इतना अच्छी तरह सीखा जा सकता है कि अच्छे व्याकरण वाले वाक्य बनाए जा सकें, और सीखना मानव मस्तिष्क की processing से मिलते-जुलते तरीके से हो सकता है
- कई वर्षों तक बहुत-से भाषाविदों का विश्वास था कि पहले से मौजूद व्याकरण templates के बिना भाषा सीखना असंभव है
- लेकिन नए AI models साबित करते हैं कि ऐसा नहीं है। वे दिखाते हैं कि व्याकरणिक भाषा बनाने की क्षमता भाषाई अनुभव से सीखी जा सकती है
- यानी, बच्चों के भाषा सीखने में व्याकरण से अधिक महत्वपूर्ण भाषा का अनुभव है
8 टिप्पणियां
सिर्फ इसलिए कि AlphaGo Go बहुत अच्छा खेलता है, इसका मतलब यह नहीं कि Go के कोई नियम नहीं हैं।
बिलकुल, भाषा सीखने का सबसे सटीक तरीका बहुत सारा अनुभव है। लेकिन जैसा AI दिखाता है, इसकी बुनियादी शर्त है "बेहद ज़्यादा अनुभव"। AI के मामले में यह पूरे 10 साल के exposure जितना है। इंसानों के लिए शायद इतना ज़रूरी न हो, लेकिन अगर आप उस देश के रहने वाले नहीं हैं तो विदेश में रहते हुए इस तरह का भाषा-अनुभव बनाना मुश्किल होता है.
सही है, अंग्रेज़ी सबसे तेज़, सबसे सटीक और सबसे कुशल तरीके से सीखनी हो तो बस कुछ साल विदेश में पढ़ाई कर लो, वही सबसे असरदार है। लेकिन ज़्यादातर लोगों के लिए आर्थिक या अन्य कारणों से ऐसी पारिवारिक परिस्थितियाँ नहीं होतीं कि वे ऐसा कर सकें। इसलिए व्याकरण सीखी जाती है।
हालाँकि, कोरियाई शिक्षा में व्याकरण पर ज़रूरत से ज़्यादा ज़ोर दिया जाता है, और भाषा सीखने के एक उपकरण की तरह इस्तेमाल करने के बजाय स्कूल के internal exams में grammar questions हल करने के लिए grammar पढ़ाई जाती है—मुझे लगता है इसमें सुधार होना चाहिए।
मुझे तो उल्टा यह लगता है कि सिर्फ़ simple exposure strategy एक गैर-कारगर तरीका है, जिसके लिए 10 साल के exposure की ज़रूरत पड़ती है.
| सिर्फ़ exposure भर से भी भाषा इतनी अच्छी तरह सीख लेना कि काफ़ी अच्छी grammar वाले वाक्य बना सके
यह हिस्सा बिल्कुल वही है जो मैंने GPT के outputs देखते समय महसूस किया था।
दिलचस्प है! मुझे लगता है कि भाषा सहित दूसरे क्षेत्रों का ज्ञान भी ऊपर के संदर्भ की तरह ही लागू किया जा सकता है। इसके मुकाबले, हमारे देश की शिक्षा अब भी वैसे ही है जैसा सब जानते हैं—एकसमान ज्ञान को रटने का तरीका ही मुख्य रूप से अपनाया जाता है—यह सचमुच अफसोसजनक है। सिस्टम के स्तर पर हर व्यक्ति के लिए उपयुक्त अनुभव देना कठिन और महंगा है, लेकिन ऊपर के नतीजों की तरह, मस्तिष्क कोशिकाओं की नकल करके बने AI के परिणामों को देखकर उम्मीद है कि हम एक बेहतर दिशा की ओर देखें।
सबसे बढ़कर, बड़ों की वजह से उदासी के साथ पढ़ रहे बच्चों पर बहुत तरस आता है 😢 सीखने का असली स्वभाव तो आनंदमय होना चाहिए!
सच कहूँ तो बचपन में जब अंग्रेज़ी की शिक्षा मिलनी शुरू हुई थी, तभी से मेरे मन में यह सवाल था। जब हमने हंगुल सीखी थी, तब क्या हमने पहले व्याकरण सीखा था?
आज भी जब विदेशियों को कोरियन सिखाया जाता है, तो व्याकरण का हिस्सा देखकर समझना मुश्किल लगता है और अजीब भी लगता है। फिर भी वे कोरियन अच्छी तरह बोल ही लेते हैं।
दिलचस्प है। क्या चॉम्स्की का युग अब ढल रहा है?
मेरे विचार में तो बल्कि ऐसा लगता है कि चॉम्स्की का दौर आ रहा है। चॉम्स्की के लिए व्याकरण सीखी जाने वाली चीज़ नहीं है, बल्कि जन्मजात होती है — या सही कहें तो एक जन्मजात क्षमता से उत्पन्न होती है। और मौजूदा AI, चॉम्स्की की नज़र में, ऐसा विलासितापूर्ण learning है जो सिर्फ़ कंप्यूटर ही कर सकते हैं। चॉम्स्की यह बताते हैं कि शिशु लाखों शब्द सीखकर भाषा नहीं सीखते। मशीन लर्निंग की तुलना में काफ़ी कम, सिर्फ़ 1-2 साल के भाषाई अनुभव से भी भाषा सीख लेने वाले शिशुओं की क्षमता को समझाने के लिए ही चॉम्स्की का सिद्धांत है, जबकि मौजूदा मशीन learning यह मानकर चलती है कि कंप्यूटर इंसान तो हैं नहीं, तो उन्हें शिशुओं की तरह भाषा सीखने की क्या ज़रूरत है, और इस तरह उन्हें दस साल के डेटा से भाषा सिखाई जाती है।