• 내용으로 건너뛰기

Out of the Box

사용자 도구

  • 로그인

사이트 도구

  • 최근 바뀜
  • 미디어 관리자
  • 사이트맵
추적: • starcraft_ii • 한자

tag:rlhf

역링크

현재 문서를 가리키는 링크가 있는 문서 목록입니다.

  • review:2023-06_secrets_of_rlhf_in_large_language_models_part_i_ppo
  • review:2023-10_a_general_theoretical_paradigm_to_understand_learning_from_human_preferences
  • review:2023-10_vanishing_gradients_in_reinforcement_finetuning_of_language_models
  • review:2023-12_direct_preference_optimization_your_language_model_is_secretly_a_reward_model
  • review:2024-01_args_alignment_as_reward-guided_search
  • review:2024-01_a_minimaximalist_approach_to_reinforcement_learning_from_human_feedback
  • review:2024-01_secrets_of_rlhf_in_large_language_models_part_ii_reward_modeling
  • review:2024-01_warm_on_the_benefits_of_weight_averaged_reward_models

문서 도구

  • 문서 보기
  • 이전 판
  • 역링크
  • Fold/unfold all
  • 맨 위로
별도로 명시하지 않을 경우, 이 위키의 내용은 다음 라이선스에 따라 사용할 수 있습니다: CC Attribution-Noncommercial-Share Alike 4.0 International
CC Attribution-Noncommercial-Share Alike 4.0 International Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki