내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
원본 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
2023-01_gpt_in_60_lines_of_numpy
•
context_manager
•
jupyter
•
perception-prediction-reaction_agents_for_deep_reinforcement_learning
•
taskset
•
reinforcement_learning
•
ipython
•
optimization
•
2023-12_diloco_distributed_low-communication_training_of_language_models
•
2024-01_self-rewarding_language_models
review:2024-01_self-rewarding_language_models
문서의 이전 판입니다!
2024-01 Self-Rewarding Language Models
https://arxiv.org/abs/2401.10020
self-play learning
,
self-reward
,
RL
,
LLM
,
2024
,
Meta
review/2024-01_self-rewarding_language_models.1705635522.txt.gz
· 마지막으로 수정됨:
2024/03/23 02:38
(바깥 편집)
문서 도구
원본 보기
이전 판
역링크
Fold/unfold all
맨 위로