5 पॉइंट द्वारा GN⁺ 2024-08-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

मार्कोव चेन क्या है

  • जब LLMs (Large Language Models) पहली बार सामने आए, तो लोगों ने इन्हें बहुत ही स्मार्ट मार्कोव चेन के रूप में समझाया
  • आजकल लोग मार्कोव चेन की तुलना में LLMs से ज़्यादा परिचित हैं
  • मार्कोव चेन को एक बहुत छोटा, बहुत सरल, बहुत भोला LLM कहा जा सकता है
  • मार्कोव चेन मौजूदा संदर्भ के आधार पर अगले शब्द का अनुमान लगाती है, लेकिन यह semantics, dimensionality और दूसरे जटिल vector math को ध्यान में नहीं रखती
  • मार्कोव चेन एक आदिम statistical model है
  • मोबाइल फोन कीबोर्ड में "next word suggestion" फीचर आमतौर पर मार्कोव चेन का उपयोग करता है
  • मार्कोव चेन को चलाने की लागत कम होती है और इसे उपयोगकर्ता की text style के अनुसार आसानी से अपडेट किया जा सकता है
  • LLMs और मार्कोव चेन कैसे काम करते हैं, इसे गहराई से समझाया जा सकता है, लेकिन यहाँ इतना जानना काफ़ी है कि मार्कोव चेन, LLMs की तुलना में काम करने में कम सक्षम है

मज़ा क्या है

  • हास्य का संबंध गैर-गंभीर आश्चर्य से है
  • सबसे अच्छे चुटकुलों में आनंददायक और महत्वपूर्ण "snap" शामिल होता है
  • "snap" का मतलब आश्चर्य से आने वाला झटका है
  • जितना कम आश्चर्य होगा, उतना कम मज़ेदार लगेगा
  • यही वजह है कि कोई चुटकुला बार-बार सुनने पर कम मज़ेदार हो जाता है
  • "random" humor मज़ेदार नहीं होता, क्योंकि उसकी अनिश्चितता भी एक तरह से अनुमानित होती है
  • चुटकुला लिखना पैटर्न तोड़ने के बारे में है
  • "scene realization" के ज़रिए snap को और मज़बूत किया जा सकता है
  • ज़्यादा मौलिक या वर्णनात्मक भाषा इस्तेमाल करने पर दृश्य अधिक वास्तविक लगता है
  • चुटकुले कई तरह के होते हैं और हास्य व्यक्तिनिष्ठ है

LLMs की पूर्वानुमेयता

  • किसी वाक्य का सफलतापूर्वक अनुमान लगाने के लिए बहुत सारा संदर्भ चाहिए
  • LLMs के पास बहुत सारा संदर्भ होता है
  • LLMs भारी मात्रा में गणितीय गणना के ज़रिए सबसे संभावित अगला token ढूँढते हैं
  • "बेहतर" LLM ज़्यादा पूर्वानुमेय होता है
  • LLMs creative writing के लिए उपयुक्त नहीं हैं
  • LLMs औसत किस्म का output बनाते हैं
  • चुटकुले बनाने के लिए LLM को आश्चर्य पैदा करना चाहिए
  • अच्छा LLM यह काम अच्छी तरह नहीं करता
  • LLMs कलात्मक अभिव्यक्ति के लिए उपयुक्त नहीं हैं
  • LLMs दिलचस्प अवधारणाओं को चूक सकते हैं
  • इस framework के ज़रिए नए language model बनाए जा सकते हैं

यह दिलचस्प क्यों है

  • यह किसी अधिक गहरी चीज़ की ओर इशारा करता है
  • यह आत्मा बनाम मशीन की बहस नहीं है
  • यह model की अंतर्निहित कमियों को दिखाता है
  • ChatGPT के संदेश हाई स्कूल निबंध जैसे लगते हैं
  • यह औसत आउटपुट की पुनरावृत्ति है
  • इसमें व्यक्तित्व हटाकर शैक्षणिक कठोरता जोड़ दी गई है
  • इसका लहजा फीका और कॉर्पोरेट है
  • नकली Amazon reviews को आसानी से पहचाना जा सकता है
  • LLM detection models को जल्द ही personality की जाँच करनी पड़ सकती है

GN⁺ का सार

  • यह लेख मार्कोव चेन और LLMs के बीच का अंतर समझाता है और हास्य के स्वभाव की पड़ताल करता है
  • मार्कोव चेन एक सरल statistical model है, जिसकी पूर्वानुमान क्षमता LLMs से कम है
  • हास्य गैर-गंभीर आश्चर्य पर आधारित है, और चुटकुला लिखना पैटर्न तोड़ने के बारे में है
  • LLMs ज़्यादा पूर्वानुमेय हैं, इसलिए वे creative writing के लिए उपयुक्त नहीं हैं
  • यह लेख LLMs की सीमाएँ दिखाता है और नए language models की संभावना पेश करता है

1 टिप्पणियां

 
GN⁺ 2024-08-19
Hacker News राय
  • कुछ साल पहले एक side project करते समय मैं भी इसी निष्कर्ष पर पहुँचा था

    • मैंने AWS ब्लॉग पोस्ट जनरेट करने वाली एक साइट बनाई थी
    • मैंने AWS announcement पोस्ट्स पर train किया हुआ एक Markov chain generator इस्तेमाल किया था
    • HTML और CSS को कॉपी करके Python और JS के साथ जोड़ा था
    • नतीजा काफ़ी मज़ेदार था
    • मैंने इसे GPT से upgrade करने की कोशिश की, लेकिन वह कम मज़ेदार निकला
    • आधुनिक LLM बहुत ज़्यादा realistic हैं, इसलिए उनमें मज़ा कम है
    • शुरुआती Markov generators का humor उनकी बेतुकापन से आता था
    • आधुनिक LLM कभी-कभी ग़लत होते हैं, लेकिन बेतुके नहीं होते
  • मैंने Claude 3.5 Sonnet से कहा कि वह इस विषय पर 10 छोटे jokes लिखे कि Markov chain, LLM से ज़्यादा मज़ेदार क्यों है

    • Markov chain सड़क क्यों पार कर गई? ताकि वह unpredictability की दूसरी तरफ़ पहुँच सके
    • जब LLM और Markov chain एक bar में गए, LLM ने statistically plausible drink ऑर्डर की और Markov chain ने cheese से बने lampshade का ऑर्डर दिया
    • जब Markov chain dad joke सुनाता है, तो उसे "Mark-ov Twain" कहते हैं
    • LLM एक bulb बदलने का सबसे optimal तरीका समझाने में 20 मिनट लगा देता है
    • Markov chain कहता है: "Markov chain reaction of nonsensical hilarity"
    • जब LLM, Markov chain और GPT-4 एक bar में गए, GPT-4 चला गया, LLM ethics issues पर चर्चा करने लगा, और Markov chain ने spaghetti से बनी bicycle ऑर्डर की
    • LLM की पसंदीदा फ़िल्म है "Predictable and Furious 17: The Safest Driving Yet"
    • Markov chain एक ऐसी कहानी सुनाता है जिसमें banana से बने किले में रहने वाली princess और emotions वाला toaster kingdom होता है
    • Markov chain, LLM से कहता है: "तुम्हारी माँ एक abacus है और तुम्हारे पिता से silicon की गंध आती है"
    • Markov chain अच्छा counselor क्यों नहीं है? क्योंकि वह सलाह देता है: "अपनी emotions को banana बना दो और उनसे hat बना लो"
  • इसका मतलब यह नहीं कि Markov chain बेहतर है

    • prediction के लिए trained model हमारे अंदरूनी prediction engine से बहुत अलग नहीं होना चाहिए
    • समस्या यह है कि वह text के uncanny valley के क़रीब पहुँच जाता है
  • कॉलेज के दिनों में मेरे दोस्तों ने कॉलेज अख़बार के "police reports" सेक्शन पर Markov chain generator इस्तेमाल किया था

    • उसके output का 10% सबसे मज़ेदार था
    • आधुनिक LLM उच्च-स्तरीय meaning बनाए रखने की कोशिश करते हैं, इसलिए वे इस तरह की बेतुकापन से बचते हैं
  • इस तरह के experiment में Bible का इस्तेमाल करना असहज लगता है

    • यह कुछ वैसा है जैसे यीशु के crucifixion image को AI image-editing model में इस्तेमाल करना
  • empirical evidence के तौर पर /r/subreddit simulator, Markov-आधारित Reddit parody है

    • /r/SubSimulatorGPT2 उसका LLM-आधारित version है
    • Markov version को ज़्यादा upvotes मिले थे और वह ज़्यादा मज़ेदार था
  • मैंने Reddit पर कई बार "AI ने लिखा हुआ fake XYZ" पोस्ट किया है

    • सबसे अच्छा response GPT-2 model को मिला था
    • Markov chain एक-दो sentences से ज़्यादा देर तक दिलचस्प नहीं रहता
    • GPT-3 के बाद के models बहुत polished और boring हैं
    • GPT-2 ज़्यादातर grammar सही रखता है और consistent idea भी बनाए रखता है, लेकिन किसी ख़ास विषय का ज्ञान कम होने की वजह से वह ज़्यादा मज़ेदार लगता है
  • करीब 10 साल पहले, स्कूल में पढ़ते समय मैंने एक Markov Twitter bot बनाया था

    • मैंने उसे Linus Torvalds के LKML emails और King James Bible से यीशु के quotes पर train किया था
    • दोनों training sets लगभग बिल्कुल overlap नहीं करते थे, इसलिए मुझे hysteresis जोड़ना पड़ा
  • AI weirdness ब्लॉग का evolution भी इस विचार का समर्थन करता है

    • शुरुआती LLM, ख़ासकर GPT-3 से पहले वाले versions, ज़्यादा मज़ेदार थे
    • उदाहरण के लिए, Ada version के GPT द्वारा बनाए गए cereal names, Da Vinci version से ज़्यादा मज़ेदार थे
  • मेरे निजी Discord server पर दो bots हैं

    • एक basic Markov chain bot है जिसे पूरे chat history पर train किया गया है
    • दूसरा एक proper LLM bot है
    • Markov chain bot हमेशा ज़्यादा मज़ेदार होता है