• 내용으로 건너뛰기

Out of the Box

사용자 도구

  • 로그인

사이트 도구

  • 최근 바뀜
  • 미디어 관리자
  • 사이트맵
추적: • 2021-05_motivate_dragon_teaching_goal_driven_agents_speak_act_fantasy_worlds • archive • expected_eligibility_traces • collaborative_agent_gameplay_in_the_pandemic_board_game • 2024-02_more_agents_is_all_you_need

선호학습

TAG: 선호학습

  • 2023-12 [DPO] Direct Preference Optimization: Your Language Model is Secretly a Reward Model
2024/02/07 09:50Hyunsoo Park
  • 2024-01 [SPO] A Minimaximalist Approach to Reinforcement Learning from Human Feedback
2024/01/11 00:20Hyunsoo Park
  • 2024-01 ARGS: Alignment as Reward-Guided Search
2024/02/10 13:47Hyunsoo Park
  • 2024-01 Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
2024/01/23 03:24Hyunsoo Park
  • 2024-01 WARM: On the Benefits of Weight Averaged Reward Models
2024/01/23 14:28Hyunsoo Park

문서 도구

  • 문서 보기
  • 이전 판
  • 역링크
  • Fold/unfold all
  • 맨 위로
별도로 명시하지 않을 경우, 이 위키의 내용은 다음 라이선스에 따라 사용할 수 있습니다: CC Attribution-Noncommercial-Share Alike 4.0 International
CC Attribution-Noncommercial-Share Alike 4.0 International Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki