내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
문서 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
2023-12_diloco_distributed_low-communication_training_of_language_models
•
2021-12_differentiable_spatial_planning_using_transformers
•
container
•
improving_language_understanding_by_generative_pre-training
•
2024-01_llm_maybe_longlm_self-extend_llm_context_window_without_tuning
•
2024-01_self-rewarding_language_models
•
2021-07_pragmatic_image_compression_for_human-in-the-loop_decision-making
•
reinforcement_learning_with_unsupervised_auxiliary_tasks
•
2021-07_scalable_evaluation_of_multi-agent_reinforcement_learning_with_melting_pot
•
2023-01_gpt_in_60_lines_of_numpy
offline_reinforcement_learning
이 문서는 읽기 전용입니다. 원본을 볼 수는 있지만 바꿀 수는 없습니다. 문제가 있다고 생각하면 관리자에게 문의하세요.
====== Batch (Offline) Reinforcement Learning ====== * [[https://arxiv.org/abs/2005.01643|Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems, 2020-05]] * Sergey Levine, Aviral Kumar * [[https://bair.berkeley.edu/blog/2019/12/05/bear/|Data-Driven Deep Reinforcement Learning, 2019-12]] * [[https://arxiv.org/pdf/1911.11361.pdf|Behavior Regularized Offline Reinforcement Learning, 2019-11]] * [[https://arxiv.org/abs/1910.01708|Benchmarking Batch Deep Reinforcement Learning Algorithms, 2019-10]] * Scott Fujimoto * [[https://arxiv.org/abs/1812.02900|Off-Policy Deep Reinforcement Learning without Exploration, 2018-07]] * Scott Fujimoto
offline_reinforcement_learning.txt
· 마지막으로 수정됨:
2024/03/23 02:38
저자
127.0.0.1
문서 도구
문서 보기
이전 판
역링크
Fold/unfold all
맨 위로