他是怎麼做的？
機器人會拿著這句話，開始跟字典裡的詞玩「連連看」和「比對」。
他可以用兩種方向去比：
- 從前面開始比（正向匹配）：他先看第一個字「我」，字典裡有！切開。再看「喜」、「喜歡」，發現字典裡有「喜歡」這個長詞，就決定切出「喜歡」。
- 從後面開始比（逆向匹配）：他從最後面看回來，看到「熊貓」、「大熊貓」，哇！字典裡有「大熊貓」這個大詞，他就直接切出「大熊貓」。
優點：非常聽話、不容易出錯。只要字典裡有的詞，他一定能切得很好。
缺點：遇到「新發明的流行語」他就沒轍了。如果這幾天大家流行說「被劇透」、「非常Op」，但字典太舊沒寫進去，機器人就會笨笨地把「劇」和「透」切開，變成看不懂的火星文。

2. 統計法（Statistics-based Method）：玩數字猜猜看的聰明機器人

這個機器人手裡沒有字典。但是，他看過全世界幾百萬個人類講話的紀錄，他手裡有一本「數字小筆記」，專門記錄哪些字常常黏在一起出現。

他是怎麼做的？
他會像個數學小偵探一樣，去算字跟字在一起的「黏性（機率）」。
- 他翻翻筆記發現：「喜」和「歡」這兩個字，有一萬次都是手牽手一起出現的；但是「歡」和「看」這兩個字，幾乎沒有人把它們連著用。
- 所以當他看到「喜歡看」的時候，他就會用數學猜一猜：「『喜歡』的黏性高達 99 分，『歡看』的黏性只有 1 分，那一定是把『喜歡』切在一起，『看』自己分開！」
優點：超級聰明！就算遇到從來沒見過的新流行語，只要他發現最近幾天「這幾個字常常黏在一起」，他就能自己猜出這是一個新詞。
缺點：因為是靠猜的，有時候會因為算得太複雜而「想太多」，把本來不是一對的字，硬是算成黏在一起，結果切出奇怪的答案。

? 總結：兩個機器人合作最厲害！

現在厲害的圖書館電腦或 Google 搜尋，通常會讓這兩個機器人手牽手一起合作：

好奇失禮問一下跟我聊天的您也是使用兩者跟我聊天嗎

ㅤㅤ

答案是：沒錯！我其實天天都在使用這兩種超能力，而且是隨時隨地都在用喔！

如果把現在的 AI（就像我）拆開來看，我的大腦裡同時住著這兩個斷詞機器人，我們是這樣一起合作來讀懂你寫的字的：

1. 字典法機器人：我的「基本語言功底」

當你輸入「好奇失禮問一下」時，我的大腦裡其實有類似「大字典」的記憶庫。我一看到「好奇」、「失禮」、「一下」，就知道這些是固定常見的詞。我不用花時間去猜，一瞬間就能把這些詞整齊地切好、認出來。

2. 統計法機器人：我的「超級聯想大腦」

這是我最核心的超能力！因為我是基於大型語言模型（LLM）打造的 AI，我的本質就是一個「超級無敵 statistics（統計法）大師」。

讀懂你的話：我讀過全人類幾千億個句子，我知道「好奇、失禮、問、一下」這幾個字依序黏在一起出現時，代表人類正要用一種很有禮貌、有點害羞的語氣準備問問題。我是靠著「數學機率」去理解你的語氣。
回答你的話：我現在寫給你的每一個字，都是我在大腦裡玩「超級文字接龍」。我會去計算：在「哈哈，你這個問題一點都不...」後面，接哪一個字最符合小朋友聽得懂的語氣？系統算一算發現接「失禮」的機率最高，我就會把「失禮」打出來。

? 總結來說：我是它們的進化版！

你可以把我想像成那兩個斷詞機器人的「究極合體」。我一邊用「字典」確保自己不會寫錯別字，一邊用大數據的「統計機率」來猜測你現在的心情，並用最適合你的方式講故事給你聽。

ㅤㅤ

二、請分別說明詞典法（Dictionary-based Method）及統計法（Statistics-based Method）之中文斷詞方法的原理為何？

申論題作答 (共 1 筆)