9. 某工程師訓練深度神經網路時發現損失函數震盪嚴重且收斂速度慢,改用 Adam 優化器後訓練變得穩定且收斂更快。下列何者為 Adam 能改善此問題的主要原 因? 115 年第一次 AI 應用規劃師-中級能力鑑定【公告試題】 第三科:機器學習技術與應用 考試日期:115 年 05 月 23 日 第 3 頁,共 18 頁 答案 題目
(A)同時結合一階動量(Momentum)與自適應學習率(Adaptive Learning Rate), 為每個參數調整更新步長;
(B)強制所有參數使用相同學習率(Learning Rate),避免梯度差異造成不穩定;
(C)透過批次正規化(Batch Normalization)重新分布輸入資料;
(D)將梯度裁剪為固定範圍以避免梯度爆炸(Gradient Explosion)

答案:登入後查看
統計: 尚無統計資料