내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
원본 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
simulator
•
2016-11_learning_to_act_by_predicting_the_future
•
2024-01_monte_carlo_tree_search_for_recipe_generation_using_gpt-2
•
2016-10_reset-free_trial-and-error_learning_for_robot_damage_recovery
•
2021-03_teachmyagent_a_benchmark_for_automatic_curriculum_learning_in_deep_rl
•
2023-03_a_survey_of_large_language_models
•
2024-01_agent_alignment_in_evolving_social_norms
•
2021-01_brax_differentiable_physics_engine_large_scale_rigid_body_simulation
•
2020-10_qplex_duplex_dueling_multi_agent_learning
•
2024-01_reft_reasoning_with_reinforced_fine-tuning
review:2024-01_reft_reasoning_with_reinforced_fine-tuning
문서의 이전 판입니다!
2024-01 ReFT: Reasoning with Reinforced Fine-Tuning
https://arxiv.org/abs/2401.08967
ReFT
,
LLM
,
RL
,
SFT
,
추론
,
ByteDance
,
2024
/var/www/html/data/pages/review/2024-01_reft_reasoning_with_reinforced_fine-tuning.txt
· 마지막으로 수정됨:
2024/03/23 02:42
저자
127.0.0.1
문서 도구
원본 보기
이전 판
역링크
Fold/unfold all
맨 위로