• 내용으로 건너뛰기

Out of the Box

사용자 도구

  • 로그인

사이트 도구

  • 최근 바뀜
  • 미디어 관리자
  • 사이트맵
추적: • 2020-08_mixed_initiative_level_design_rl_brush • 2020-12_relative_variational_intrinsic_control • 2024-01_mambabyte_token-free_selective_state_space_model • 2021-01_zero-offload_democratizing_billion-scale_model_training • 2021-01_world-gan_a_generative_model_for_minecraft_worlds • 2020-01_pcgrl_procedural_content_generation_via_reinforcement_learning • 2024-02_craftax_a_lightning-fast_benchmark_for_open-ended_reinforcement_learning • update-rc.d • shared_experience_actor-critic_for_multi-agent_reinforcement_learning • 2021-04_counter-strike_deathmatch_with_large-scale_behavioural_cloning

preference

TAG: preference

  • 2024-01 [SPO] A Minimaximalist Approach to Reinforcement Learning from Human Feedback
2024/01/11 00:20Hyunsoo Park

문서 도구

  • 문서 보기
  • 이전 판
  • 역링크
  • Fold/unfold all
  • 맨 위로
별도로 명시하지 않을 경우, 이 위키의 내용은 다음 라이선스에 따라 사용할 수 있습니다: CC Attribution-Noncommercial-Share Alike 4.0 International
CC Attribution-Noncommercial-Share Alike 4.0 International Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki