내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
문서 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
starcraft_ii
•
한자
tag:rlhf
역링크
현재 문서를 가리키는 링크가 있는 문서 목록입니다.
review:2023-06_secrets_of_rlhf_in_large_language_models_part_i_ppo
review:2023-10_a_general_theoretical_paradigm_to_understand_learning_from_human_preferences
review:2023-10_vanishing_gradients_in_reinforcement_finetuning_of_language_models
review:2023-12_direct_preference_optimization_your_language_model_is_secretly_a_reward_model
review:2024-01_args_alignment_as_reward-guided_search
review:2024-01_a_minimaximalist_approach_to_reinforcement_learning_from_human_feedback
review:2024-01_secrets_of_rlhf_in_large_language_models_part_ii_reward_modeling
review:2024-01_warm_on_the_benefits_of_weight_averaged_reward_models
문서 도구
문서 보기
이전 판
역링크
Fold/unfold all
맨 위로