내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
원본 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
autonomous_driving
•
ray_interference_a_source_of_plateaus_in_deep_reinforcement_learning
•
example
•
2021-10_replay-guided_adversarial_environment_design
•
world_model
•
taskset
•
2021-07_offline_meta-reinforcement_learning_with_online_self-supervision
•
dialogue_editor
•
cuda
•
2024-01_self-rewarding_language_models
review:2024-01_self-rewarding_language_models
문서의 이전 판입니다!
2024-01 Self-Rewarding Language Models
https://arxiv.org/abs/2401.10020
self-play learning
,
self-reward
,
RL
,
LLM
,
2024
,
Meta
review/2024-01_self-rewarding_language_models.1705635522.txt.gz
· 마지막으로 수정됨:
2024/03/23 02:38
(바깥 편집)
문서 도구
원본 보기
이전 판
역링크
Fold/unfold all
맨 위로