41. 某 AI 影像辨識平台以單一 GPU 伺服器提供多租戶推論服務,系統長期觀察到 GPU 使用率約維持在 60%左右,且在執行過程中可觀察到 GPU kernel 之間存在 明顯閒置間隔,單次推論多以小批次方式執行。然而,在尖峰時段時,請求延遲會出現明顯波動甚至突增。同時,CPU 與記憶體資源使用率均未達瓶頸,且系統 團隊已排除硬體、網路與請求併發控制異常。在此情境下,請判斷最可能造成問 題的原因為何?
(A)GPU 排程策略與批次大小設定不當,導致 GPU 運算單元未被有效利用;
(B)請求併發控制機制不佳,導致多個請求同時搶占 GPU Context 資源造成延遲;
(C)GPU 硬體效能不足,無法支撐推論負載;
(D)模型未進行量化優化,導致推論計算成本過高
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料