应用介绍
根据设计,Muon 仅适用于 2D 参数(对于卷积滤波器则需展平处理),因此网络中的其余标量和向量参数仍需使用标准优化方法(如 AdamW)。实验发现,输入层和输出层参数即使属于 2D 结构,也需使用 AdamW 优化,这对性能至关重要。具体而言,在训练 Transformer 模型时,词嵌入层(embedding)和最终的分类器头(classifier head)应使用 AdamW 才能达到最佳效果。
根据设计,Muon 仅适用于 2D 参数(对于卷积滤波器则需展平处理),因此网络中的其余标量和向量参数仍需使用标准优化方法(如 AdamW)。实验发现,输入层和输出层参数即使属于 2D 结构,也需使用 AdamW 优化,这对性能至关重要。具体而言,在训练 Transformer 模型时,词嵌入层(embedding)和最终的分类器头(classifier head)应使用 AdamW 才能达到最佳效果。