One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient

Sep 30, 2025·

Rui Ming

Haoyuan Wu

Haoyuan Wu

,

Shoubo Hu

,

Zhuolun He

,

Bei Yu

· 0 min read

Paper

Type

Conference paper

Publication

arXiv:2509.26313 (2025)

Last updated on Sep 30, 2025

Large Language Models

Haoyuan Wu

Authors

Ph.D. Student

← Diversity or Precision? A Deep Dive into Next Token Prediction Dec 30, 2025

Reinforcement Learning on Pre-Training Data Sep 24, 2025 →