21. 某語音辨識系統開發團隊採用 Transformer 架構，為了讓模型能同時理解語音片段中的發音特徵、語速變化與語意脈絡等多層次資訊，團隊在設計中導入了多頭注意力(Multi-head Attention)機制。請問下列何者為此機制的主要優點？
(A)減少模型參數量以降低訓練成本；
(B)加速整體注意力計算過程；
(C)從不同表示子空間(Representation Subspaces)同時捕捉多樣化關聯資訊；
(D)避免梯度消失(Gradient Vanishing)問題

答案：登入後查看
統計： A(0), B(1), C(21), D(1), E(0) #3774695

。

B1 · 2026/01/25

#7285381

正確答案是 (C)。簡要說明：多頭注...

(共 141 字，隱藏中）

前往觀看

hchungw

B2 · 2026/05/14

#7372365

多頭注意力機制（Multi-head Attention）在 Transformer 架構中主要優點為：

ㅤㅤ

允許模型在多個表示子空間中同時關注不同位置的資訊：這使得模型能並行處理例如發音特徵、語速變化與語意脈絡等多層次資訊。捕捉序列內部的複雜依賴關係

ㅤㅤ

：透過多個注意力頭（Heads），每個頭可以專注於序列中不同的關聯性（例如一個專注於相鄰語音，另一個專注於長距離語意依賴），進而提升對語音上下文的理解能力。提升模型的表示能力

ㅤㅤ

：結合不同頭的資訊，能比單一頭注意力機制更全面地解析複雜的輸入序列。這對語音辨識系統理解複雜的上下文特別有效。