LoPE: शुरुआत में random Latin text जोड़ने से LLM reasoning बेहतर होती है (arXiv पेपर)

मुख्य सारांश

LoPE, RL training के दौरान prompt की शुरुआत में Lorem ipsum dolor sit amet ... जोड़ने की तकनीक है। यह कठिन समस्याओं में उस "zero-advantage" समस्या को हल करती है, जहाँ सभी sample fail होने पर learning signal 0 हो जाता है।

मुख्य नतीजे:

  • Qwen3-4B पर math benchmark औसत +4.62 points
  • AMC 2023 में 22% relative performance improvement
  • 50 कठिन समस्याओं को पार करने वाला एकमात्र तरीका, जहाँ मौजूदा सभी methods fail हो गए थे

पढ़ने लायक बिंदु

Latin-आधारित "भाषा जैसा दिखने वाला लेकिन अर्थहीन text" असरदार क्यों है, और यह model की default reasoning trajectory को बाधित करके exploration diversity कैसे सुनिश्चित करता है, इसका mechanism दिलचस्प है.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.