基本原理不同·这个优化器啊·SGD主要就是调整学习率有时候还有动量等其他参数要调

作者：机器人技术佬 | 发布时间：2025-06-20 |

ADAM这个优化器啊，其实是个大杂烩，它把动量和RMSprop这两个优化器的优点都结合起来了。它就像是个记账员，一边记录着梯度的平均值，一边还记录着梯度的平方平均值，然后根据这些信息来自动调整学习率。

而SGD呢，就像是每次只看一个学生的成绩来决定怎么教，它每次更新权重都是基于随机选择的一个样本的梯度。

ADAM这个家伙动作快，通常收敛得快，迭代次数也少。

相比之下，SGD可能要慢一些，有时候还会在一些角落里转圈圈，也就是可能陷入局部最优解。

ADAM适应性强，不管遇到什么问题都能应付，因为它会自动调整学习率。

SGD有时候就需要手动调整学习率，不然可能收敛得慢或者过拟合。

ADAM虽然自己会调整学习率，但还是有几个超参数需要你手动调整，比如β1、β2和ε。

SGD主要就是调整学习率，有时候还有动量等其他参数要调。

ADAM是个万金油，各种深度学习任务和数据集都能应对自如。

SGD在某些任务上可能需要你多动动脑筋，做一些调整。

ADAM大部分情况下都能比SGD更快收敛。

SGD有时候可能需要很长时间，尤其是在网络结构复杂或者数据集大的情况下。

主题	内容
ADAM的工作原理	了解ADAM是如何结合动量和RMSprop的优点，实现自适应学习率调整的。
SGD的变种与应用	探索除了基本的SGD之外，还有哪些变种，它们是如何工作的，以及在不同应用中的效果。