사용자 도구

사이트 도구


review:2024-01_reft_reasoning_with_reinforced_fine-tuning

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

다음 판
이전 판
review:2024-01_reft_reasoning_with_reinforced_fine-tuning [2024/01/18 05:32] – 만듦 rex8312review:2024-01_reft_reasoning_with_reinforced_fine-tuning [2024/03/23 02:42] (현재) – 바깥 편집 127.0.0.1
줄 3: 줄 3:
   * https://arxiv.org/abs/2401.08967   * https://arxiv.org/abs/2401.08967
  
-{{tag>ReFT LLM RL 추론 ByteDance 2024}}+{{tag>ReFT LLM RL SFT 추론 ByteDance 2024}}
  
  
  
  
review/2024-01_reft_reasoning_with_reinforced_fine-tuning.1705555948.txt.gz · 마지막으로 수정됨: 2024/03/23 02:38 (바깥 편집)