내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
원본 보기
이전 판
Fold/unfold all
역링크
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
2019-12_quality-diversity_optimisation_algorithms
•
2020-10_qplex_duplex_dueling_multi_agent_learning
•
2018-06_maximum_a_posteriori_policy_optimisation
•
2016-11_learning_to_act_by_predicting_the_future
•
2024-01_coevolving_artistic_images_using_omnirep
•
2023-12_efficient_large_language_models_a_survey
•
2017-11_neural_discrete_representation_learning
•
2018-03_on_first-order_meta-learning_algorithms
•
2020-12_relative_variational_intrinsic_control
•
2024-01_args_alignment_as_reward-guided_search
review:2024-01_args_alignment_as_reward-guided_search
2024-01 ARGS: Alignment as Reward-Guided Search
https://arxiv.org/abs/2402.01694
https://twitter.com/SharonYixuanLi/status/1755977747686449420
ARGS
,
LLM
,
RLHF
,
선호학습
,
2024
review/2024-01_args_alignment_as_reward-guided_search.txt
· 마지막으로 수정됨: 2024/03/23 02:42 저자
127.0.0.1
문서 도구
원본 보기
이전 판
역링크
Fold/unfold all
맨 위로