LoPE एक तकनीक है जिसमें RL training के दौरान prompt के आगे Lorem ipsum dolor sit amet ... डाला जाता है। यह कठिन समस्याओं में उस "zero-advantage" समस्या को हल करता है, जहाँ सभी sample fail होने पर learning signal 0 हो जाता है.
मुख्य परिणाम:
- Qwen3-4B पर math benchmark औसत +4.62 अंक
- AMC 2023 में 22% relative performance improvement
- 50 कठिन समस्याओं को पार करने वाला एकमात्र तरीका, जहाँ मौजूदा सभी methods fail हुए
पढ़ने लायक बिंदु
Latin-आधारित "भाषा जैसा दिखने वाला लेकिन अर्थहीन text" प्रभावी क्यों है, और model की मूल reasoning trajectory को disturb करके exploration diversity सुनिश्चित करने वाला mechanism काफ़ी दिलचस्प है.
13 टिप्पणियां
“158 नंबर उल्लू, कर सकते हो?”
“… इंस्ट्रक्टर साहब, मेरे लिए यह बहुत…”
“Lorem ipsum! कर सकते हो?”
“आह!!! कर सकता हूँ!”
अक हाहाहाहाहाहाहाहा
हाहाहाहा
🤣🤣🤣🤣 ज़ोर से हँसी छूट गई
दिलचस्प है। यह ऐसा है जैसे मॉडल जिन वाक्यों को अनदेखा कर सकता है, उन्हें एक अतिरिक्त seed की तरह इस्तेमाल करके sampling के समय search space बढ़ाया जा रहा हो।
बिलकुल। यह अप्रत्याशित रूप से एक नया दृष्टिकोण पेश करता है, और साथ ही वास्तविक प्रदर्शन में भी सुधार हुआ है—इसलिए यह मज़ेदार भी है और दिलचस्प भी।
शायद इसका मतलब यह भी हो सकता है कि मौजूदा models overfitting के साथ train हुए हैं, और इसलिए model capacity को और कम करने की गुंजाइश अभी भी बची हुई है।
तो ऐसा नहीं था कि प्रॉम्प्ट लिखते समय कुत्ते की तरह टाइपो करने से परफॉर्मेंस सच में बेहतर हो जाती है, बस ऐसा लग रहा था
हाहाहा, आप सब इतने मज़ेदार क्यों हैं
सिद्धांत समझ में आता है, लेकिन काफ़ी दिलचस्प है। आख़िर performance घटने के बजाय बढ़ी क्यों होगी?
मेरे हिसाब से, इंसानों के मामले में भी जब कोई मुश्किल समस्या हल करनी होती है, तो पहले जैसे ‘सोच को जगा’ लिया जाए और फिर शुरुआत से दोबारा सोचा जाए, तो कभी-कभी समस्या सुलझ जाती है—शायद कुछ वैसा ही होगा? यह बस मेरा निजी विचार है lol
मुझे जिज्ञासा है, अगर इसे इस्तेमाल करें तो क्या सामान्य training में भी meaningful नतीजे मिल सकते हैं?? धक-धक..
मैं भी इसे एक बार आज़माना चाहता/चाहती हूँ. ^^
पहले ऐसा एक शोध-परिणाम भी था कि बिल्कुल वही prompt अगर (बेमानी होने पर भी) 2 बार दोहरा कर दिया जाए, तो नतीजे बेहतर आते हैं। जैसे एक बार और टोकने वाली फीलिंग हो.. aliverornot जी की पोस्ट पर मैंने कमेंट में भी लिखा था, लेकिन मुझे लगता है कि यह सोच को फिर से सक्रिय करने जैसा काम करता है। कुछ-कुछ वैसा ही जैसे गणितज्ञ किसी कठिन समस्या से टकराने पर थोड़ी देर के लिए पेन रखकर टहलने निकल जाते हैं.. haha