내용으로 건너뛰기

Out of the Box

사용자 도구

로그인

사이트 도구

최근 바뀜
미디어 관리자
사이트맵

추적: • cython • revisiting_small_batch_training_deep_neural_networks • attention_all_need • transformer • meta_lr_schedule_net_learned_schedules_scale_generalize • image_clip • mcts • rich • dialogue_editor • mpo

mpo

문서의 이전 판입니다!

MPO

Example: V-MPO
Duality — A New Approach to Reinforcement Learning
2020-05 [MO-VMPO] A Distributional View on Multi-Objective Policy Optimization
2019-10 [VMPO] V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control
2018-06 [MPO] Maximum a Posteriori Policy Optimisation
Example: MO-V-MPO

/var/www/html/data/pages/mpo.txt · 마지막으로 수정됨: 2024/03/23 02:38 저자 127.0.0.1

문서 도구

원본 보기
이전 판
역링크
Fold/unfold all
맨 위로

별도로 명시하지 않을 경우, 이 위키의 내용은 다음 라이선스에 따라 사용할 수 있습니다: CC Attribution-Noncommercial-Share Alike 4.0 International