蒼檢處理重碼字

愛倉頡,愛有品質的生活。
Post Reply
ichirou
real_man
Posts: 910
Joined: 2016 Feb 03, 22:47

蒼檢處理重碼字

Post by ichirou » 2018 Aug 28, 23:39

如果其他因素變化沒有成本,重碼字肯定是宜少不宜多的。不過,若要減少重碼字,要麼字根要調節,要麼規則要調節,或者另作特殊字難字等規定,都會增加學習成本。所以,怎樣取得個平衡,殊不好說。

嘸蝦米是一個極端,爲降低前期學習曲線(但其實現在也不好學,因實它連第一關:字根都編得混亂至極),不顧重碼字,就由它重碼。但重碼降低速度,不利爭取打字排名,用來傳銷。怎麼辦?就拼命地加簡根簡碼,一大堆常用字都有簡碼,簡碼無理又如何?大家去背吧!背完就替我拼個速度第一回來。

在眾多常見的字形輸入法裏,倉頡考慮無疑是最周全的,所以它字根最少,卻同時重碼率最低。然而人總望高處,也許因此,倉頡用戶才會對重碼字諸多討論。

在常用字,甚至連同次常用字間,倉頡三代、五代的重碼率已很理想,個人覺得沒有非調節不可的必要。若還計算罕用字,除了「𩰲系」特別誇張,確實最好處理,其餘的,以個人經驗來說,都算可以接受。(也可能是我經驗淺陋,未觸及關鍵處,有勞諸兄賜敎。)

至於蒼檢,受系統設計之限,無論常用罕用,重碼不過6字。不是這限制,蒼頡檢字法不必如此翻天覆地,走上與倉頡不同的路。

就以蒼檢新增的「ꃭ、ꃮ」兩個字根來看,在Unicode基本漢字至擴展F區,涉及的字有:

  五代   蒼檢
寎 十女一月 十一一月
寐 十女一木 十一十木
寢 十女一水 十一尸水
寣 十女一口 十一卜口
寤 十女一口 十一一口
寱 十女一木 十一的木
㝥 十女一木 十一火木
㝱 十女一弓 十月弓戈
㝲 十女一月 十月尸月
𡩩 十女一口 十一卜口
𡩽 十女一竹 十一戈的
𡪁 十女一口 十一人口
𡪗 十女一口 十一一口
𡪘 十女一木 十一的木
𡪶 十女一火 十一火火
𡪷 十女一月 十一尸月
𡫒 十女一水 十一尸水
𡫔 十女一山 十一尸山
𡫧 十女一山 十一一山
𡫺 十女一水 十月水
𡫽 十女一女 十月女
𡬄 十女一水 十月水
𡬇 十女一火 十月一火
𡬊 十女一大 十月的大
𡬋 十女一口 十一弓口
𡬌 十女一山 十月月山
𡬍 十女一木 十月火木
𡬑 十女一口 十月一口
𡬒 十女一木 十月的木
𡬓 十女一水 十月尸水
𡬖 十女一火 十月火火
𡬙 十女一弓 十月月弓
𪧇 十女中一 十一(?)
𫳻 十女一戈 十一月戈
𫳼 十女一田 十一一田
𫴛 十女一難 十一手止
𭔏 十女一口 十一的口
𭔘 十女一一 十一日一

無可否認的是,五代的編碼裏,僅靠尾碼去分辨它們,是未算很足夠的,確實有一定重碼。「十女一口」有8個,「十女一木」有6個。不過,考慮到這種結構的字,其實常用的只有當中數個,許多字由過去到今天都無緣登上次常用的榜(莫說常用字了),相信未來也沒甚麼機會,在它們當中會有一大堆擠到上常用字裏,若非倉頡系統之限,這個重碼程度其實是可以接受的。

新增的「ꃭ、ꃮ」二根,雖然能減少重碼,但形狀實在複雜,通用性很低,甚至會打破傳統的字首字身劃分習慣。取捨到學習成本的增加與其所起作用之平衡,個人覺得有點得不償失。(若無視系統限制的話)
Last edited by ichirou on 2018 Aug 29, 00:42, edited 1 time in total.

ichirou
real_man
Posts: 910
Joined: 2016 Feb 03, 22:47

Re: 蒼檢處理重碼字

Post by ichirou » 2018 Aug 29, 00:03

蒼檢之所以限於重碼不過6字,印象中,好像是劉兄推測過(不完全確定,此刻手邊也找不回相關資料,僅憑依稀記憶,若有錯漏,還望海涵並敬祈賜正),是因爲倉頡系統內碼以32位元的機制作內碼,因此「0日月金木水火土的戈十大中一弓人心手口尸廿山女田止卜片12345」剛好排滿。鑑於碼長指定爲五個單位,不足五個單位的地方要用「0」來塡塞,所以可用來編碼的只餘下31個字根。要是有重碼,就假設是「弓弓一口月」這串吧,系統只能容納:

弓弓一口月、弓弓一口1、弓弓一口2、弓弓一口3、弓弓一口4、弓弓一口5

再多的就滿了。

不過,個人以爲還可以在排下去的。再吞多一個字母字根,換成數字字根,並且避開「0」即可:

弓弓一11、弓弓一12、弓弓一13、弓弓一14、弓弓一15、
弓弓一21、弓弓一22、弓弓一23、弓弓一24、弓弓一25、
弓弓一31、弓弓一32、弓弓一33、弓弓一34、弓弓一35、
弓弓一41、弓弓一42、弓弓一43、弓弓一44、弓弓一45、
弓弓一51、弓弓一52、弓弓一53、弓弓一54、弓弓一55

這就可編多25組重碼,重得下31個重碼字了。

當然,學習形碼就是不想太多重碼。若上到30多個,也未免太誇張,宜處理一下,否則會失卻平衡。
不過,若編了八萬、十萬漢字,仍只限於6個重碼,又未免是太少了,結果會太過削足適履,也是失去平衡。
竊以爲,若拉個量度尺,常用字最好不重碼,頂多重2、3字,不要再多。編兩萬字的字集,非常用字重碼到5、6個,也可以。編六萬至十萬的字集,重10個、12個也是合理的。

Post Reply