내용으로 건너뛰기

Out of the Box

사용자 도구

로그인

사이트 도구

최근 바뀜
미디어 관리자
사이트맵

추적: • termux • t-sne • font • nonoq • bayesian_neural_networks • onnxruntime • dimension_reduction • safety_exploration • ansi • mpo

mpo

문서의 이전 판입니다!

MPO

Example: V-MPO
Duality — A New Approach to Reinforcement Learning
2020-05 [MO-VMPO] A Distributional View on Multi-Objective Policy Optimization
2019-10 [VMPO] V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control
2018-06 [MPO] Maximum a Posteriori Policy Optimisation
Example: MO-V-MPO

mpo.1637970698.txt.gz · 마지막으로 수정됨: 2024/03/23 02:37 (바깥 편집)

문서 도구

원본 보기
이전 판
역링크
Fold/unfold all
맨 위로

별도로 명시하지 않을 경우, 이 위키의 내용은 다음 라이선스에 따라 사용할 수 있습니다: CC Attribution-Noncommercial-Share Alike 4.0 International