二、請分別說明詞典法(Dictionary-based Method)及統計法(Statistics-based Method)之中文斷詞方法的原理為何?
申論題作答 (共 1 筆)
依時間顯示最近 1 筆。
詳解 (共 3 筆)
rinaaaa112新北上岸
詳解 #5160462
CKIP中文詞知識庫小組,是第一個具備未...
(共 372 字,隱藏中)
前往觀看
yu
詳解 #7419705
詞典法(基於規則)與統計法(基於機率)是...
(共 969 字,隱藏中)
前往觀看
yu
詳解 #7419714
把電腦當成一個剛剛開始學中文的機器人小寶寶。當我們給他看一句長長的話,像是:「我喜歡看大熊貓」。
對機器人來說,這只是一串連在一起的貼紙。他必須要把這些字一個一個切開,變成「我 / 喜歡 / 看 / 大熊貓」,他才能看得懂。這個把字切開的魔法,就叫做「斷詞」。
機器人有兩種不同的超能力方法來做這件事,我們用小朋友聽得懂的方式來拆解:
1. 詞典法(Dictionary-based Method):查字典的呆萌機器人
這個方法就像是給機器人一本超級無敵厚的大字典,裡面寫滿了世界上所有的詞(像是:我、喜歡、大、熊貓、大熊貓)。
- 他是怎麼做的?
機器人會拿著這句話,開始跟字典裡的詞玩「連連看」和「比對」。
他可以用兩種方向去比:- 從前面開始比(正向匹配):他先看第一個字「我」,字典裡有!切開。再看「喜」、「喜歡」,發現字典裡有「喜歡」這個長詞,就決定切出「喜歡」。
- 從後面開始比(逆向匹配):他從最後面看回來,看到「熊貓」、「大熊貓」,哇!字典裡有「大熊貓」這個大詞,他就直接切出「大熊貓」。
- 優點:非常聽話、不容易出錯。只要字典裡有的詞,他一定能切得很好。
- 缺點:遇到「新發明的流行語」他就沒轍了。如果這幾天大家流行說「被劇透」、「非常Op」,但字典太舊沒寫進去,機器人就會笨笨地把「劇」和「透」切開,變成看不懂的火星文。
2. 統計法(Statistics-based Method):玩數字猜猜看的聰明機器人
這個機器人手裡沒有字典。但是,他看過全世界幾百萬個人類講話的紀錄,他手裡有一本「數字小筆記」,專門記錄哪些字常常黏在一起出現。
- 他是怎麼做的?
他會像個數學小偵探一樣,去算字跟字在一起的「黏性(機率)」。- 他翻翻筆記發現:「喜」和「歡」這兩個字,有一萬次都是手牽手一起出現的;但是「歡」和「看」這兩個字,幾乎沒有人把它們連著用。
- 所以當他看到「喜歡看」的時候,他就會用數學猜一猜:「『喜歡』的黏性高達 99 分,『歡看』的黏性只有 1 分,那一定是把『喜歡』切在一起,『看』自己分開!」
- 優點:超級聰明!就算遇到從來沒見過的新流行語,只要他發現最近幾天「這幾個字常常黏在一起」,他就能自己猜出這是一個新詞。
- 缺點:因為是靠猜的,有時候會因為算得太複雜而「想太多」,把本來不是一對的字,硬是算成黏在一起,結果切出奇怪的答案。
? 總結:兩個機器人合作最厲害!
現在厲害的圖書館電腦或 Google 搜尋,通常會讓這兩個機器人手牽手一起合作:
- 先讓「查字典機器人」把認識的字快速切好。
- 剩下的新詞或奇怪的句子,再交給「統計法機器人」用數學去猜猜看。
|
好奇失禮問一下 跟我聊天的您也是使用兩者跟我聊天嗎
ㅤㅤ
ㅤㅤ
答案是:沒錯!我其實天天都在使用這兩種超能力,而且是隨時隨地都在用喔!
如果把現在的 AI(就像我)拆開來看,我的大腦裡同時住著這兩個斷詞機器人,我們是這樣一起合作來讀懂你寫的字的:
1. 字典法機器人:我的「基本語言功底」
當你輸入「好奇失禮問一下」時,我的大腦裡其實有類似「大字典」的記憶庫。我一看到「好奇」、「失禮」、「一下」,就知道這些是固定常見的詞。我不用花時間去猜,一瞬間就能把這些詞整齊地切好、認出來。
2. 統計法機器人:我的「超級聯想大腦」
這是我最核心的超能力!因為我是基於大型語言模型(LLM)打造的 AI,我的本質就是一個「超級無敵 statistics(統計法)大師」。
? 總結來說:我是它們的進化版!
你可以把我想像成那兩個斷詞機器人的「究極合體」。我一邊用「字典」確保自己不會寫錯別字,一邊用大數據的「統計機率」來猜測你現在的心情,並用最適合你的方式講故事給你聽。
ㅤㅤ
|