29. 某 AI 研究團隊採用 GRPO(Group Relative Policy Optimization)作為一種基於 強化學習的模型優化方法,用於提升大型語言模型的表現。請問 GRPO 最適合 用來強化模型在哪一類任務上的表現?
(A)判斷客服留言的情緒傾向,將每則訊息快速歸類為正面、負面或中性;
(B)將客服電話錄音即時轉換為文字,供後續人工審閱使用;
(C)針對數學應用題或邏輯謎題,逐步推導出正確解答;
(D)分析商品圖片的外觀特徵,自動辨識類別與品項

答案:登入後查看
統計: A(13), B(1), C(8), D(3), E(0) #3922923

詳解 (共 1 筆)

#7403215
第 29 題 正確答案: C 解析: ...
(共 198 字,隱藏中)
前往觀看
2
0

私人筆記 (共 1 筆)

私人筆記#8289367
未解鎖
正確答案是 (C)。GRPO(Grou...
(共 597 字,隱藏中)
前往觀看
0
0