39. 某研究團隊希望評估大型語言模型在不同學科領域的整體理解能力,包含法 律、醫學、數學與歷史等,並要求模型在未見過的題型中仍能正確推理與作 答。下列何者最符合此類評測設計的核心概念? (A)單一領域專業知識記憶測驗; (B)多領域、多任務之語言理解能力評估; (C)對話流暢度與語言生成品質測試; (D)資料檢索準確率評估