मार्कोव चेन क्या है
- जब LLMs (Large Language Models) पहली बार सामने आए, तो लोगों ने इन्हें बहुत ही स्मार्ट मार्कोव चेन के रूप में समझाया
- आजकल लोग मार्कोव चेन की तुलना में LLMs से ज़्यादा परिचित हैं
- मार्कोव चेन को एक बहुत छोटा, बहुत सरल, बहुत भोला LLM कहा जा सकता है
- मार्कोव चेन मौजूदा संदर्भ के आधार पर अगले शब्द का अनुमान लगाती है, लेकिन यह semantics, dimensionality और दूसरे जटिल vector math को ध्यान में नहीं रखती
- मार्कोव चेन एक आदिम statistical model है
- मोबाइल फोन कीबोर्ड में "next word suggestion" फीचर आमतौर पर मार्कोव चेन का उपयोग करता है
- मार्कोव चेन को चलाने की लागत कम होती है और इसे उपयोगकर्ता की text style के अनुसार आसानी से अपडेट किया जा सकता है
- LLMs और मार्कोव चेन कैसे काम करते हैं, इसे गहराई से समझाया जा सकता है, लेकिन यहाँ इतना जानना काफ़ी है कि मार्कोव चेन, LLMs की तुलना में काम करने में कम सक्षम है
मज़ा क्या है
- हास्य का संबंध गैर-गंभीर आश्चर्य से है
- सबसे अच्छे चुटकुलों में आनंददायक और महत्वपूर्ण "snap" शामिल होता है
- "snap" का मतलब आश्चर्य से आने वाला झटका है
- जितना कम आश्चर्य होगा, उतना कम मज़ेदार लगेगा
- यही वजह है कि कोई चुटकुला बार-बार सुनने पर कम मज़ेदार हो जाता है
- "random" humor मज़ेदार नहीं होता, क्योंकि उसकी अनिश्चितता भी एक तरह से अनुमानित होती है
- चुटकुला लिखना पैटर्न तोड़ने के बारे में है
- "scene realization" के ज़रिए snap को और मज़बूत किया जा सकता है
- ज़्यादा मौलिक या वर्णनात्मक भाषा इस्तेमाल करने पर दृश्य अधिक वास्तविक लगता है
- चुटकुले कई तरह के होते हैं और हास्य व्यक्तिनिष्ठ है
LLMs की पूर्वानुमेयता
- किसी वाक्य का सफलतापूर्वक अनुमान लगाने के लिए बहुत सारा संदर्भ चाहिए
- LLMs के पास बहुत सारा संदर्भ होता है
- LLMs भारी मात्रा में गणितीय गणना के ज़रिए सबसे संभावित अगला token ढूँढते हैं
- "बेहतर" LLM ज़्यादा पूर्वानुमेय होता है
- LLMs creative writing के लिए उपयुक्त नहीं हैं
- LLMs औसत किस्म का output बनाते हैं
- चुटकुले बनाने के लिए LLM को आश्चर्य पैदा करना चाहिए
- अच्छा LLM यह काम अच्छी तरह नहीं करता
- LLMs कलात्मक अभिव्यक्ति के लिए उपयुक्त नहीं हैं
- LLMs दिलचस्प अवधारणाओं को चूक सकते हैं
- इस framework के ज़रिए नए language model बनाए जा सकते हैं
यह दिलचस्प क्यों है
- यह किसी अधिक गहरी चीज़ की ओर इशारा करता है
- यह आत्मा बनाम मशीन की बहस नहीं है
- यह model की अंतर्निहित कमियों को दिखाता है
- ChatGPT के संदेश हाई स्कूल निबंध जैसे लगते हैं
- यह औसत आउटपुट की पुनरावृत्ति है
- इसमें व्यक्तित्व हटाकर शैक्षणिक कठोरता जोड़ दी गई है
- इसका लहजा फीका और कॉर्पोरेट है
- नकली Amazon reviews को आसानी से पहचाना जा सकता है
- LLM detection models को जल्द ही personality की जाँच करनी पड़ सकती है
GN⁺ का सार
- यह लेख मार्कोव चेन और LLMs के बीच का अंतर समझाता है और हास्य के स्वभाव की पड़ताल करता है
- मार्कोव चेन एक सरल statistical model है, जिसकी पूर्वानुमान क्षमता LLMs से कम है
- हास्य गैर-गंभीर आश्चर्य पर आधारित है, और चुटकुला लिखना पैटर्न तोड़ने के बारे में है
- LLMs ज़्यादा पूर्वानुमेय हैं, इसलिए वे creative writing के लिए उपयुक्त नहीं हैं
- यह लेख LLMs की सीमाएँ दिखाता है और नए language models की संभावना पेश करता है
1 टिप्पणियां
Hacker News राय
कुछ साल पहले एक side project करते समय मैं भी इसी निष्कर्ष पर पहुँचा था
मैंने Claude 3.5 Sonnet से कहा कि वह इस विषय पर 10 छोटे jokes लिखे कि Markov chain, LLM से ज़्यादा मज़ेदार क्यों है
इसका मतलब यह नहीं कि Markov chain बेहतर है
कॉलेज के दिनों में मेरे दोस्तों ने कॉलेज अख़बार के "police reports" सेक्शन पर Markov chain generator इस्तेमाल किया था
इस तरह के experiment में Bible का इस्तेमाल करना असहज लगता है
empirical evidence के तौर पर /r/subreddit simulator, Markov-आधारित Reddit parody है
मैंने Reddit पर कई बार "AI ने लिखा हुआ fake XYZ" पोस्ट किया है
करीब 10 साल पहले, स्कूल में पढ़ते समय मैंने एक Markov Twitter bot बनाया था
AI weirdness ब्लॉग का evolution भी इस विचार का समर्थन करता है
मेरे निजी Discord server पर दो bots हैं