8. 增強學習(Reinforcement Learning)的核心機制主要是透過什麼方式來優化模型的行為?(A)老師直接給予正確答案。(B)透過環境給予的獎勵或懲罰來試錯優化。(C)單純進行資料分群。(D)降低輸入資料的維度。