3. 在訓練非線性模型時,若目標函數為非凸函數(Non-convex Function),演算法在參數更新過程中可能出現多個極值點,導致最佳化結果不穩定。請問此時最可能發生下列哪一種情況?
(A)梯度消失;
(B)資料過少;
(C)局部最優解;
(D)過擬合
答案:登入後查看
統計: A(3), B(0), C(8), D(2), E(0) #3774677
統計: A(3), B(0), C(8), D(2), E(0) #3774677
詳解 (共 2 筆)
#7372180
在訓練非線性模型(如深度神經網路)時,目標函數(Loss Function)通常是非凸函數(Non-convex Function)。這意味著損失函數的形狀並不是一個簡單的碗狀(單一最低點),而是像雲霄飛車一樣上上下下,存在多個局部最小值(Local Minima)和鞍點(Saddle Points)。當演算法使用梯度下降法進行參數更新時,它會遵循最陡下降方向,直到梯度變為 0。在非凸函數的情況下,演算法非常容易停在一個「局部」最低點,而不是「全局」最低點,導致無法找到最佳的參數組合,這就是局部最優解(Local Optima)問題
0
0