8. 某深度學習工程師訓練 ResNet 時,發現模型在前幾個 Epoch 驗證損失快速下降, 但從第 15 個 Epoch 起驗證損失開始上升,而訓練損失持續下降。工程師將學習 率調高後,訓練損失反而開始明顯震盪。學習率過大最直接導致下列哪種現象?
(A)梯度消失(Gradient Vanishing):梯度在反向傳播中逐層縮小趨近於零,底層 無法學習;
(B)損失函數震盪或發散(Oscillation / Divergence):每次更新步伐過大,參數在 最優點兩側反覆跳越,無法穩定收斂;
(C)過擬合(Overfitting):模型記憶訓練資料的雜訊,泛化能力下降;
(D)死亡 ReLU(Dying ReLU):大量神經元輸出永久為零,停止參與梯度更新
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料