11. 某工程師在 A100 GPU 叢集上訓練大型語言模型,觀察到以下現象:全批次梯度 下降時 GPU 利用率達 100%,但每次更新耗時 45 秒;隨機梯度下降(SGD)每 次更新僅需 0.01 秒,但梯度極不穩定、訓練曲線震盪劇烈。為兼顧梯度穩定性與 GPU 吞吐量(Throughput),應採用下列哪種策略?
(A)全批次梯度下降(Full-batch GD):使用完整資料集計算梯度,更新穩定但每 次更新耗時長;
(B)隨機梯度下降(SGD):每次只用一個樣本,速度快但梯度雜訊大,收斂不穩 定;
(C)第二階梯度法(Newton's Method):利用 Hessian 矩陣精確估計曲率,大幅減 少更新次數;
(D)小批次梯度下降(Mini-batch GD):以適當批次大小(如 256-2048)平衡梯度 估計穩定性與 GPU 平行效率,是深度學習的業界標準
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料