review:2024-01_reft_reasoning_with_reinforced_fine-tuning

문서의 이전 판입니다!

2024-01 ReFT: Reasoning with Reinforced Fine-Tuning

https://arxiv.org/abs/2401.08967

ReFT, LLM, RL, SFT, 추론, ByteDance, 2024

/var/www/html/data/pages/review/2024-01_reft_reasoning_with_reinforced_fine-tuning.txt · 마지막으로 수정됨: 2024/03/23 02:42 저자 127.0.0.1