TAG: llm학습

2023-01 GPT in 60 Lines of NumPy	2024/01/22 00:18	Hyunsoo Park
2023-12 DiLoCo: Distributed Low-Communication Training of Language Models	2024/01/10 23:19	Hyunsoo Park
2023-12 Unicron: Economizing Self-Healing LLM Training at Scale	2024/01/10 23:21	Hyunsoo Park
2024-01 Asynchronous Local-SGD Training for Language Modeling	2024/01/18 05:07	Hyunsoo Park
2024-01 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models	2024/01/18 00:53	Hyunsoo Park
2024-01 Mixtral of Experts	2024/01/10 23:51	Hyunsoo Park
2024-01 TinyLlama: An Open-Source Small Language Model	2024/01/07 17:40	Hyunsoo Park
2024-07 Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients	2024/07/15 00:50	Hyunsoo Park
2024-10 Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?	2024/10/08 00:21	Hyunsoo Park