16 पॉइंट द्वारा taekim34 2026-05-12 | 13 टिप्पणियां | WhatsApp पर शेयर करें

LoPE एक तकनीक है जिसमें RL training के दौरान prompt के आगे Lorem ipsum dolor sit amet ... डाला जाता है। यह कठिन समस्याओं में उस "zero-advantage" समस्या को हल करता है, जहाँ सभी sample fail होने पर learning signal 0 हो जाता है.

मुख्य परिणाम:

  • Qwen3-4B पर math benchmark औसत +4.62 अंक
  • AMC 2023 में 22% relative performance improvement
  • 50 कठिन समस्याओं को पार करने वाला एकमात्र तरीका, जहाँ मौजूदा सभी methods fail हुए

पढ़ने लायक बिंदु

Latin-आधारित "भाषा जैसा दिखने वाला लेकिन अर्थहीन text" प्रभावी क्यों है, और model की मूल reasoning trajectory को disturb करके exploration diversity सुनिश्चित करने वाला mechanism काफ़ी दिलचस्प है.

13 टिप्पणियां

 
gooksangom6394 2026-05-12

“158 नंबर उल्लू, कर सकते हो?”
“… इंस्ट्रक्टर साहब, मेरे लिए यह बहुत…”
“Lorem ipsum! कर सकते हो?”
“आह!!! कर सकता हूँ!”

 
sonic0987 2026-05-12

अक हाहाहाहाहाहाहाहा

 
epics 2026-05-12

हाहाहाहा

 
taekim34 2026-05-12

🤣🤣🤣🤣 ज़ोर से हँसी छूट गई

 
mammal 2026-05-12

दिलचस्प है। यह ऐसा है जैसे मॉडल जिन वाक्यों को अनदेखा कर सकता है, उन्हें एक अतिरिक्त seed की तरह इस्तेमाल करके sampling के समय search space बढ़ाया जा रहा हो।

 
taekim34 2026-05-12

बिलकुल। यह अप्रत्याशित रूप से एक नया दृष्टिकोण पेश करता है, और साथ ही वास्तविक प्रदर्शन में भी सुधार हुआ है—इसलिए यह मज़ेदार भी है और दिलचस्प भी।

 
ide127 2026-05-21

शायद इसका मतलब यह भी हो सकता है कि मौजूदा models overfitting के साथ train हुए हैं, और इसलिए model capacity को और कम करने की गुंजाइश अभी भी बची हुई है।

 
happing94 2026-05-12

तो ऐसा नहीं था कि प्रॉम्प्ट लिखते समय कुत्ते की तरह टाइपो करने से परफॉर्मेंस सच में बेहतर हो जाती है, बस ऐसा लग रहा था

 
taekim34 2026-05-13

हाहाहा, आप सब इतने मज़ेदार क्यों हैं

 
aliveornot 2026-05-12

सिद्धांत समझ में आता है, लेकिन काफ़ी दिलचस्प है। आख़िर performance घटने के बजाय बढ़ी क्यों होगी?

 
taekim34 2026-05-12

मेरे हिसाब से, इंसानों के मामले में भी जब कोई मुश्किल समस्या हल करनी होती है, तो पहले जैसे ‘सोच को जगा’ लिया जाए और फिर शुरुआत से दोबारा सोचा जाए, तो कभी-कभी समस्या सुलझ जाती है—शायद कुछ वैसा ही होगा? यह बस मेरा निजी विचार है lol

 
somang04 2026-05-12

मुझे जिज्ञासा है, अगर इसे इस्तेमाल करें तो क्या सामान्य training में भी meaningful नतीजे मिल सकते हैं?? धक-धक..

 
taekim34 2026-05-12

मैं भी इसे एक बार आज़माना चाहता/चाहती हूँ. ^^
पहले ऐसा एक शोध-परिणाम भी था कि बिल्कुल वही prompt अगर (बेमानी होने पर भी) 2 बार दोहरा कर दिया जाए, तो नतीजे बेहतर आते हैं। जैसे एक बार और टोकने वाली फीलिंग हो.. aliverornot जी की पोस्ट पर मैंने कमेंट में भी लिखा था, लेकिन मुझे लगता है कि यह सोच को फिर से सक्रिय करने जैसा काम करता है। कुछ-कुछ वैसा ही जैसे गणितज्ञ किसी कठिन समस्या से टकराने पर थोड़ी देर के लिए पेन रखकर टहलने निकल जाते हैं.. haha