내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
문서 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
2021-06_reinforcement_learning_as_one_big_sequence_modeling_problem
•
cloud
•
2021-07_vector_quantized_models_for_planning
•
ray_interference_a_source_of_plateaus_in_deep_reinforcement_learning
•
big_bird_transformers_longer_sequences
•
mamba
•
offline_rl
•
generative_pretraining_from_pixels
•
2021-12_differentiable_spatial_planning_using_transformers
•
rlhf
ppo
이 문서는 읽기 전용입니다. 원본을 볼 수는 있지만 바꿀 수는 없습니다. 문제가 있다고 생각하면 관리자에게 문의하세요.
====== PPO ====== * https://github.com/andompesta/ppo2 * PPO2 pytorch 구현 * https://medium.com/@jonathan_hui/rl-proximal-policy-optimization-ppo-explained-77f014ec3f12 * https://medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9 * TRPO
ppo.txt
· 마지막으로 수정됨:
2024/03/23 02:38
저자
127.0.0.1
문서 도구
문서 보기
이전 판
역링크
Fold/unfold all
맨 위로