On-Policy Optimization with Group Equivalent Preference for Multi-Programming Language Understanding

May 19, 2025·

Haoyuan Wu

Haoyuan Wu

,

Rui Ming

,

Jilong Gao

,

Hangyu Zhao

,

Xueyi Chen

,

Yikai Yang

,

Haisheng Zheng

,

Zhuolun He

,

Bei Yu

· 0 min read

Paper

Last updated on May 19, 2025

Large Language Models

Haoyuan Wu

Authors

Ph.D. Student

ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving May 19, 2025 →