48. 機器學習中的「強化學習(Reinforcement Learning)」強調Agent透過與環境互動獲得的獎勵或懲罰(Reward/Penalty)來修正行為策略，以追求長期利益最大化。這種「後果決定行為頻率」的運算邏輯，最符合下列哪一項心理學機制？
(A)Pavlov的信號替代：強調刺激與刺激間的預測關係
(B)Thorndike的效果律：強調反應後的滿意效果能加強刺激與反應間聯結
(C)Tolman的潛在學習：強調在無顯著強化下建立的認知地圖
(D)Bandura的替代強化：強調觀察他人行為結果後的模仿意願

答案：登入後查看
統計： A(48), B(535), C(10), D(39), E(0) #3910409

露比醬

B2 · 2026/06/04

#7394687

題目關鍵字分析：機器學習中的「強...

(共 807 字，隱藏中）

前往觀看

connie

B1 · 2026/06/02

#7391103

Ivan Pavlov 的古典制約理論強調：

重點是「預測關係」，不是行為後果。

今年過教檢（邀請碼231227

B3 · 2026/06/29

#7424760

(A) Pavlov的信號替代：強調...

(共 319 字，隱藏中）

前往觀看

Zeal Zhu

2026/06/12

私人筆記#8225745

未解鎖

學者與機制核心邏輯與強化學...

(共 373 字，隱藏中）

前往觀看