19. 某團隊開發合約文件審查系統,需比對合約首頁的定義條款與第 20 頁的責任條 款是否一致。工程師初版採用雙向長短期記憶(Bidirectional LSTM),但發現長 文件的跨段落語義關聯捕捉效果不佳,且訓練時間隨文件長度明顯增加。改用 Transformer 架構後問題獲得改善,下列何者為最主要的原因?
(A)Transformer 參數量比 LSTM 少,因此訓練速度更快、不易過擬合;
(B)Transformer 內建位置編碼,使模型天生理解文件的章節結構與段落順序;
(C)LSTM 無法處理超過 512 個 token 的輸入,Transformer 無此硬性限制;
(D)Transformer 的 Self-Attention 可讓任意 token 直接建立關聯,不受距離限制, 且運算可平行化
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料