情況 A：如果這句話前面有一句：「主人今天心情很差，而且家裡沒剩多少米...下雨天留客天天留人不留」。
- 電腦的邏輯：因為前面提到了「心情差」、「沒米」，電腦用高階統計學一算，發現後面接「不留你」的機率高達 90%。它就會幫主人斷句為：「下雨天留客，天天留，人不留！」
情況 B：如果前面寫著：「書生和千金正在依依不捨地道別，外面突然打雷...下雨天留客天天留人不留」。
- 電腦的邏輯：男女主角在戀愛耶！這時候一定是想把人留下來嘛！電腦就會聰明地幫忙斷句為：「下雨天留客天，留人不？留！」

外掛二：大腦內建「文法糾察隊」（句法分析 Treebank）

電腦大腦裡有一套中文文法規則。它會把句子拆成「名詞（人、天）」、「動詞（留）」、「形容詞（下雨）」，然後去畫一個文法樹狀圖。
它會去測試：哪一種斷句方式，畫出來的文法樹最平衡、最像人類講話的結構？如果其中一種斷法會導致文法變得很奇怪，電腦就會把那個選項淘汰掉。

? 最終結論

n-gram 就像是「只看眼前兩三個字」的短視小助理，遇到這種設計好的文字魔王，它一定會傻眼。這時候就必須請出像 ChatGPT 這類的大型語言模型（LLM） 充當「飽讀詩書、懂得看人臉色」的超級大師，結合「文法」和「前後發生的故事（情境）」，才能真正猜對那個客人的命運！

ㅤㅤ

yu

詳解 #7419882

2026/06/25

沒問題！我們繼續請出之前的機器人小寶寶，用最簡單、最好玩的比喻來解釋這兩個聽起來很酷的電腦大秘密！

1. n-gram 是什麼？（手牽手字串小火車）

想像一下，機器人要學一首新歌或一句話，但他沒辦法一次吞下整句話。於是他拿出一把剪刀，把這句話切成固定長度的「字串小火車」來數數看。這個固定長度的數字，就是 n。

我們給他一句話：「我想吃冰淇淋」。

當 n = 1（叫做 Monogram / 單字火車）：
他把字一個一個切開，每台小火車只有 1 個字：
[我]、[想]、[吃]、[冰]、[淇]、[淋]。
當 n = 2（叫做 Bigram / 雙字火車）：
他讓前後相鄰的 2 個字手牽手，變成兩兩一組的小火車：
[我想]、[想吃]、[吃冰]、[冰淇]、[淇淋]。
當 n = 3（叫做 Trigram / 三字火車）：
這次讓 3 個字手牽手，變成三人一組的小火車：
[我想吃]、[想吃冰]、[吃冰淇]、[冰淇淋]。

? 為什麼要這樣玩？
機器人只要去數「哪一種小火車最常出現」，他就能學會人類講話的習慣。例如，他發現 [冰淇淋] 這台火車出現了 1 萬次，但 [想吃冰] 出現了 500 次。下次你只要輸入「冰淇」，聰明的機器人就會根據 n-gram 的統計，自動幫你接出「淋」這個字！這就是你用手機打字時會出現「預測字詞」的秘密喔！

2. 中文斷詞的「歧義性」是什麼？（神奇的雙面文字魔術）

「歧義性（Ambiguity）」聽起來很高級，但其實就是「同一句話，切在不同的地方，意思竟然完全不一樣」的文字大魔術！

最經典的例子就是這句話：「下雨天留客天留我不留」。

主人這樣切：「下雨天 / 留客 / 天留 / 我不留！」（意思：下雨天我要留客人，但老天爺要把你留下來，我可不留你，你快走吧！）
客人這樣切：「下雨天 / 留客天 / 留我不？ / 留！」（意思：下雨天是留客人的好日子，你要留我嗎？當然要留囉，太棒了！）

你看，只是切的位置不同，主人和客人就吵架了！這就是「歧義性」。

3. 這對圖書館電腦找書（中文檢索效能）有什麼壞影響？

當圖書館的電腦搞不懂這種「雙面文字魔術」時，它就會抓錯書或者找不到書，這在電腦的世界裡叫做出錯。主要會發生兩種慘劇：

慘劇一：找錯一堆不相干的書（降低精準度）

假設你想在圖書館找關於「原子筆」的科學書。

如果電腦斷詞斷錯了，把一本書的書名《研究原子/筆記本的歷史》切成了 [原子] 和 [筆]。
電腦就會興高采烈地把這本「講原子科學和筆記本」的書拿給你。你打開一看，一定會生氣大喊：「這根本不是我要的原子筆！」

慘劇二：漏掉真正重要的書（降低查全率）

假設你想找一本名偵探故事，書名叫《大師/兄/弟弟的秘密》。

如果電腦笨笨的，把書名切成了 [大師兄] 和 [弟弟]。
當你在搜尋框輸入「大師兄弟」時，電腦翻遍了全身會說：「找不到！我這裡只有大師兄跟弟弟，沒有大師兄弟！」結果那本好看的故事書就被漏掉了。

? 總結

因為中文不像英文一樣字跟字之間有空格，所以「n-gram」就像是拉拉隊，幫忙把字組合起來算機率；而「歧義性」就像調皮的面具大盜，故意把字切在奇怪的地方讓電腦頭痛。

如果我們想讓圖書館電腦變聰明，就要訓練它同時使用詞典法和統計法，去猜出最完美的斷詞位置！

ㅤㅤ

中文斷詞的歧義性（Ambiguity）對於中文檢索效能的影響為何？（25分）

申論題作答 (共 1 筆)

詳解 (共 2 筆)

相關申論題

相關試卷