review:2024-01_self-rewarding_language_models

문서의 이전 판입니다!

2024-01 Self-Rewarding Language Models

https://arxiv.org/abs/2401.10020

self-play learning, self-reward, RL, LLM, 2024, Meta

review/2024-01_self-rewarding_language_models.1705635522.txt.gz · 마지막으로 수정됨: 2024/03/23 02:38 (바깥 편집)