21. 某語音辨識系統開發團隊採用 Transformer 架構,為了讓模型能同時理解語音片段中的發音特徵、語速變化與語意脈絡等多層次資訊,團隊在設計 中導入了多頭注意力(Multi-head Attention)機制。請問下列何者為此機制的主要優點?
(A)減少模型參數量以降低訓練成本;
(B)加速整體注意力計算過程;
(C)從不同表示子空間(Representation Subspaces)同時捕捉多樣化關聯資訊;
(D)避免梯度消失(Gradient Vanishing)問題

答案:登入後查看
統計: A(0), B(1), C(8), D(1), E(0) #3774695

詳解 (共 2 筆)

#7285381
正確答案是 (C)。 簡要說明:多頭注...
(共 141 字,隱藏中)
前往觀看
1
0
#7372365
多頭注意力機制(Multi-head Attention)在 Transformer 架構中主要優點為:
ㅤㅤ
允許模型在多個表示子空間中同時關注不同位置的資訊:這使得模型能並行處理例如發音特徵、語速變化與語意脈絡等多層次資訊。捕捉序列內部的複雜依賴關係
ㅤㅤ
:透過多個注意力頭(Heads),每個頭可以專注於序列中不同的關聯性(例如一個專注於相鄰語音,另一個專注於長距離語意依賴),進而提升對語音上下文的理解能力。提升模型的表示能力
ㅤㅤ
:結合不同頭的資訊,能比單一頭注意力機制更全面地解析複雜的輸入序列。這對語音辨識系統理解複雜的上下文特別有效。
0
0