31. 某倉儲自動化公司以強化學習(Reinforcement Learning, RL)訓練機器手臂進行 揀貨,獎勵函數設計為「每成功抓取一個貨品得+1 分」。部署後發現機器手臂學 會反覆放開再抓取同一物品,以累積分數,但實際完成任務的效率極低。請問此 現象的核心問題為何?應如何修正獎勵設計?
(A)獎勵塑形(Reward Shaping):將獎勵改為「成功完成一次揀貨任務」而非單次 抓取行為;
(B)策略退化(Policy Degradation):降低學習率以穩定訓練;
(C)信用分配問題(Credit Assignment Problem):引入優勢函數(Advantage Function);
(D)災難性遺忘(Catastrophic Forgetting):加入經驗回放(Replay Buffer)

答案:登入後查看
統計: 尚無統計資料