tag:deepmind

역링크

현재 문서를 가리키는 링크가 있는 문서 목록입니다.

2020-12_monte_carlo_transformer_stochastic_self_attention_model_sequence_prediction
compressive_transformer
crosstransformers_spatially_aware_few_shot_transfer
gaussian_gated_linear_networks
memo_deep_network_flexible_combination_episodic_memories
python:pycolab
review:2016-08_popart_learning_values_across_many_orders_of_magnitude
review:2017-11_neural_discrete_representation_learning
review:2018-06_maximum_a_posteriori_policy_optimisation
review:2018-07_human-level_performance_in_first-person_multiplayer_games_with_population-based_deep_reinforcement_learning
review:2019-05_open_ended_learning_symmetric_zero_sum_games
review:2019-10_grandmaster_level_in_starcraft_ii_using_multi-agent_reinforcement_learning
review:2019-10_v-mpo_on-policy_maximum_a_posteriori_policy_optimization_for_discrete_and_continuous_control
review:2020-05_a_distributional_view_on_multi-objective_policy_optimization
review:2020-06_rigging_the_lottery_making_all_tickets_winners
review:2020-07_hyperparameter_selection_for_offline_reinforcement_learning
review:2020-10_assessing_game_balance_alphazero_exploring_alternative_rule_sets_chess
review:2020-10_mastering_atari_go_chess_and_shogi_by_planning_with_a_learned_model
review:2020-12_deepmind_lab2d
review:2020-12_relative_variational_intrinsic_control
review:2021-07_epistemic_neural_networks
review:2021-07_open-ended_learning_leads_to_generally_capable_agents
review:2021-07_perceiver_io_a_general_architecture_for_structured_inputs_outputs
review:2021-07_reasoning-modulated_representations
review:2021-07_scalable_evaluation_of_multi-agent_reinforcement_learning_with_melting_pot
review:2021-07_vector_quantized_models_for_planning
review:2021-09_faster_improvement_rate_population_based_training
review:2021-10_pick_your_battles_interaction_graphs_as_population-level_objectives_for_strategic_diversity
review:2021-11_procedural_generalization_by_planning_with_self-supervised_world_models
review:2022-05_simplex_neural_population_learning_any-mixture_bayes-optimality_in_symmetric_zero-sum_games
review:2023-03_scaling_instructable_agents_across_many_simulated_worlds
review:2023-05_deep_reinforcement_learning_with_plasticity_injection
review:2023-10_a_general_theoretical_paradigm_to_understand_learning_from_human_preferences
review:2023-12_diloco_distributed_low-communication_training_of_language_models
review:2024-01_asynchronous_local-sgd_training_for_language_modeling
review:2024-01_parrot_pareto-optimal_multi-reward_reinforcement_learning_framework_for_text-to-image_generation
review:2024-01_towards_conversational_diagnostic_ai
review:2024-01_warm_on_the_benefits_of_weight_averaged_reward_models
review:2024-02_genie_generative_interactive_environments
review:2024-03_dipaco_distributed_path_composition
review:2024-03_gemma_open_models_based_on_gemini_research_and_technology
review:2024-03_stop_regressing_training_value_functions_via_classification_for_scalable_deep_rl
review:a_generalized_framework_for_population_based_training
review:a_self-tuning_actor-critic_algorithm
review:duality_a_new_approach_to_reinforcement_learning
review:expected_eligibility_traces
review:multiagent_evaluation_under_incomplete_information
review:perception-prediction-reaction_agents_for_deep_reinforcement_learning
review:ray_interference_a_source_of_plateaus_in_deep_reinforcement_learning
review:reinforcement_learning_with_unsupervised_auxiliary_tasks
review:tutorial_multi-agent_learning
synthetic_returns_long_term_credit_assignment