내용으로 건너뛰기
Out of the Box
사용자 도구
로그인
사이트 도구
검색
도구
문서 보기
이전 판
역링크
Fold/unfold all
최근 바뀜
미디어 관리자
사이트맵
로그인
>
최근 바뀜
미디어 관리자
사이트맵
추적:
•
2023-10_a_general_theoretical_paradigm_to_understand_learning_from_human_preferences
•
a_generalized_framework_for_population_based_training
•
2021-01_addressing_some_limitations_of_transformers_with_feedback_memory
•
rlhf
•
2020-12_deepmind_lab2d
•
ray_interference_a_source_of_plateaus_in_deep_reinforcement_learning
•
data_mining
•
language_models_are_unsupervised_multitask_learners
•
2021-01_zero-shot_text-to-image_generation
•
2020-05_a_distributional_view_on_multi-objective_policy_optimization
a2c
이전 판
이 문서의 이전 판은 다음과 같습니다. 이전 판으로 되돌리려면, 아래에서 선택한 다음
문서 편집
을 클릭하고 나서 저장하세요.
2020/06/05 17:46
a2c
–
rex8312
+50 B
2020/02/13 15:32
a2c
– 만듦
rex8312
+3.2 KB
선택한 판 사이의 차이 보기
a2c.txt
· 마지막으로 수정됨:
2024/03/23 02:38
저자
127.0.0.1
문서 도구
문서 보기
이전 판
역링크
Fold/unfold all
맨 위로