Reinforcement Learning on Pre-Training Data

Sep 24, 2025·

Siheng Li

,

Kejiao Li

,

Zenan Xu

,

Guanhua Huang

,

Evander Yang

,

Kun Li

Haoyuan Wu

Haoyuan Wu

,

Jiajia Wu

,

Zihao Zheng

,

Chenchen Zhang

,

Kun Shi

,

Kyrierl Deng

,

Qi Yi

,

Ruibin Xiong

,

Tingqiang Xu

,

Yuhao Jiang

,

Jianfeng Yan

,

Yuyuan Zeng

,

Guanghui Xu

,

Jinbao Xue

,

Zhijiang Xu

,

Zheng Fang

,

Shuai Li

,

Qibin Liu

,

Xiaoxue Li

,

Zhuoyu Li

,

Yangyu Tao

,

Fei Gao

,

Cheng Jiang

,

Bo Chao Wang

,

Kai Liu

,

Jianchen Zhu

,

Wai Lam

,

Bo Zhou

,

Di Wang

· 0 min read

Paper

Type

Conference paper

Publication

arXiv:2509.19249 (2025), (Hunyuan Technical Report)

Last updated on Sep 24, 2025

Large Language Models

Haoyuan Wu

Authors

Ph.D. Student

← One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient Sep 30, 2025

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts Aug 12, 2025 →