倉頡輸入法「設計原理」所生問題

愛倉頡,愛有品質的生活。
ichirou
real_man
Posts: 1019
Joined: 2016 Feb 03, 22:47

Re: 倉頡輸入法「設計原理」所生問題

Post by ichirou » 2018 Mar 12, 10:31

Tommy wrote:
2018 Mar 11, 19:21
  這份文件,放在「道客巴巴」,我這看正常(win10、繁中)。

一、沒有支付寶,本來嘗試用代付方式,花3元買pdf。下載後,再行處理。可惜!「代付業者」不支持「虛擬文本」代付︰付出去,又退回來了。所以,愛莫能助!抱歉!

二、我所解釋的「中易」,極可能存有錯誤!這還需進一步瞭解。所以,沒全然瞭解之前,不敢進一步說明。

三、喜歡「中易碼」內含的三種排序︰音序、字形序(偏傍序)、筆劃序。
我也是Win10繁中啊……可惜。

音序、筆劃序好理解,字形序(偏傍序)不理解,偏旁如何排序呢?可惜暫時又看不到相關說明。又,有三種排序,那麼以哪一種爲準?

Tommy
real_man
Posts: 27
Joined: 2016 Nov 12, 18:37

Re: 倉頡輸入法「設計原理」所生問題

Post by Tommy » 2018 Mar 12, 22:30

ichirou wrote:
2018 Mar 12, 10:31


我也是Win10繁中啊……可惜。

音序、筆劃序好理解,字形序(偏傍序)不理解,偏旁如何排序呢?可惜暫時又看不到相關說明。又,有三種排序,那麼以哪一種爲準?
一、字形序(偏傍序)不理解,偏旁如何排序呢?

  我的理解,每一筆劃,都有一個數字(電腦中,以一個8bit表示),若此,同樣「形符」都會有相同的「數字」,如︰偏、值、假……,都有「人」字傍,數字皆為「71」。(「16位元」),故,凡是71,都是「人」。。
  再如︰眼、睛……都有「目」字,數字皆為「15222」。故,但凡15222,都是「目」。

  「偏、傍」之間,「戚老」理該設有一個機制「隔開」。

二、有三種排序,那麼以哪一種爲準?

  我不清楚「戚老」的想法,所以,不知以那一種為準。

  只是,若一個「漢字」內建這三種「排序」,大大有利於應用。
  【以下是我想的,不一定正確。】蒼頡,應該只有一種排序。不過,音序,很容易添加到「蒼頡」上。至於,筆劃序,可能是蒼頡的盲點。

ejsoon
Site Admin
Posts: 4844
Joined: 2016 Jan 10, 22:15

Re: 倉頡輸入法「設計原理」所生問題

Post by ejsoon » 2018 Mar 13, 21:30

可能朱邦復認爲用筆劃來理解楷書是錯誤的。比如筆,要分解爲
執事
執事
奉下
奉下
才正確。

筆畫序也很難確定。如「學」字頭,是先寫乂還是𦥑很難統一。

再者我們現實生活需要的是一個高至能當檢字法使用的輸入法,而不是只能用於檢字但用來打字就不方便的檢字法。

ichirou
real_man
Posts: 1019
Joined: 2016 Feb 03, 22:47

Re: 倉頡輸入法「設計原理」所生問題

Post by ichirou » 2018 Mar 18, 13:55

 漢字按某些需要,的確可以有多種排序,但在另一些需求中,又的確要有最終唯一的排序。因此無論如何,簡單而唯一的排序是重要的,弱化甚或不處理這點的話,對漢字應用無益。

 我仍然不能理解「偏傍序」,若據樓上上所言,只不過是筆畫序。

 至於音序,其實個人不以爲然。漢語系下的各種語言,無論哪一種,同音字都太多,難以作序。而且,即使支援其他漢語語言,但坊間各種音序都預設以北語爲準,偏偏北語是一種相比之下丟失太多古代漢語特徵的語言(誠然每種現今的漢語都有丟失,而且在西方語言學上不會覺得這些不同特徵的保留與丟失有優劣之分。但以傳承角度來說,北語確是丟失太多),本來就營養價值不太高。

ichirou
real_man
Posts: 1019
Joined: 2016 Feb 03, 22:47

Re: 倉頡輸入法「設計原理」所生問題

Post by ichirou » 2019 Oct 02, 00:56

現在再看到這帖,可惜Tommy兄好像已沒有跟進,我仍然無法認同「易符科技」(及後來的「剎那搜尋工坊」)的葉健欣先生對倉頡之批評。

總結一下我在這系列討論中看到其批評倉頡言論的問題和矛盾處。

首先,在〈Accelon,一個開放的數位古籍平台〉一文中,葉健欣批評倉頡「遷就鍵盤,將漢字進行主觀拆解」。他認爲像把「門」字取碼作「日弓」之類的做法,是「違反文字學語源」。他甚至想過等他資歷夠深時直接根本性地把倉頡輸入法字根,改成符合他所謂「文字學語源」的設計,結果只待了約一年就背棄師門,跳到「易符科技」批評倉頡。

若只看他這番說話,我們可以判斷:他這種批評,來自於他認爲一個漢字部件不能再拆解,「門」部件就只可以是「門」,不能按字形特徵設定作「日弓」,否則就只是「遷就鍵盤」。

問題是,除非是語音輸入,否則我們日常就是要透過鍵盤來敲字。漢字部件有數千(參:王寧《漢字構形學講座》或《漢字構形學導論》),而我們一般人都無法使用有數千鍵的鍵盤,不考慮鍵盤這務實問題,未免太不現實。而倉頡的取碼絕不主觀,有清晰的、力求對待不同字形都一致的規定,客觀度很高。批評它「主觀」,並不如實。

然而,再看他們對戚桐欣的中易筆形編碼之稱讚,則令人非常不解。他們讚賞:「中易筆形編碼極有特色,明確地定義了『筆劃(畫)、部件、字形』三個層次的編碼架構」,說明了其實他並不覺得一個部件不可以再分拆,只不過是認爲要按楷書筆畫去分拆而已。

竊以爲這番話說穿了,只不過是像行列輸入法發明人那種盲信楷書筆畫等於漢字本質,不讓人截筆之淺見,對漢字知其一不知其二而已。罵倉頡「主觀」,無非是葉健欣先主觀地認爲漢字不應截筆分拆,而倉頡就截了,於是標籤以所謂「主觀」。

要知道,對漢字來說,楷書的筆畫和筆順都非絕對,有不少字的筆畫和筆順都有多個流派,文字學家分析字理、構件時也往往要截筆和不依筆順。葉健欣他們依照中易筆形編碼去「從最深的筆劃(畫)層次編碼」,並不可能「讓每個字都『自然』擁有一個非人為、非武斷性的自然筆序碼」,必然會有許多雖然結果同形但取碼不相同的情況。

朱邦復先生發明倉頡時,正好看穿了筆畫和筆順的諸家爭姸問題,才跳過它,統一以力求畫一的視覺外形取碼。葉健欣他們認爲不依楷書筆畫就「主觀」,那就正好陷入筆畫和筆順的陷阱裏。

誠然,葉健欣先生發展以漢字全構描述式即時組成字型的技術,以部件爲單位,獨體字就不再分拆,我不但不反對,而且很贊成。但發展這種組字技術同時,我不以爲應該囿於字根切割不能斷筆的主觀想法去批評倉頡取碼,不認同把楷書筆畫視爲絕對。各有各發展即可。

ejsoon
Site Admin
Posts: 4844
Joined: 2016 Jan 10, 22:15

Re: 倉頡輸入法「設計原理」所生問題

Post by ejsoon » 2019 Nov 28, 10:08

其實當年朱老發明倉頡的邏輯並不複雜,他就是知道當今大多數漢字(百分之七十以上)都是形聲字,那麼(假定)以左為形以右為聲,形取首尾二碼,聲取首次尾三碼。其他非形聲字也能套到這種模式,因為形聲字最為複雜,它相當於兩個象形字的組合,所以能䖏理形聲字,也就能䖏理一切漢字。

那麼朱老通過橫豎二軸,均布了各種常用的形旁和聲旁。比如「耳」分在縱軸為S,横軸為J的格子中,「馬」分在縱S橫F的格子中。若聲旁取三碼,則將橫軸擴大為24*24個格子,576格。就這樣將所有可能取到的聲旁都置入這些格子中。

朱老就是用這種方法,在科技不發達的時代,首先(也是至今為止惟一一位)用限長五碼的不定長編碼,實現了對康熙字典四萬字幾近無重的編碼。

所以我們說,倉頡是一種形碼輸入法,也是一種檢字法,更是一種思想。這種思想我暫稱作「形聲區位歸放」。

而其實幾乎所有形碼都在用區位歸放,但是為甚麼只有倉頡成功了呢。原因有二:

一是倉頡是形聲區位歸放,而其他形碼全部都只懂「區位歸放」而沒有「形聲劃分」,當然他們也無法做到,因為形聲劃分,就是首二身三,而首二身三只有倉頡敢做,因為其他形碼基本都限制在「定長四碼,一二三末」的框架之中,如果他們想學倉頡,那就會成為倉頡。鄭碼的「首,次,次末,末」稍有不同,鄭碼確實在做「形聲區位歸放」,這也正是鄭碼與衆不同的次末碼的来源。但是鄭碼只做了一半,也就是說只做了「形」的二碼區位歸放,因為鄭碼也是定長四碼。

二是倉頡的字元選取和拆分方式,倉頡是盡量選擇最小單位的字元,即是說在聲形區位歸放的過程中,縱橫軸上的字元也在不斷的調整。「橫截」取碼方式又是倉頡的一大創新,很多字元都是對大多數共有的字元部件横截而来。因為其實很多共有部件在楷書書寫中連了起来,倉頡是惟一一個能把它們再次分開的形碼輸入法。比如「肀」,既連成了聿,也連成了「書盡」等,如果每連一個不同的東西就要取一個新字元,或者取不到字元只能用筆劃,那麼這個輸入法是不是太「笨」了。倉頡通過「橫截」取得的小而精的字元,才可能與首二身三進行搭配,這正是其他輸入法學不會倉頡思想的第二大原因,因為其他所有形碼都是「有甚麼取甚麼,連成一塊就是一塊」的大字根思想。鄭碼同樣沒能跳出這個框框,因此鄭碼的方式只能是在字根表中規定了所有可能用到的區位字根,他確實收錄了足夠全的字根,但是這種字根定式一定會有漏網之魚,逺不如倉頡的無招勝有招。比如最有名的問題是「岡罔冈」等無法區分。

說了這麼多,其實就是要解釋「門」取作「日弓」的原因。門作為一個形旁,它是必然要置入二碼的區位之中。形旁取首尾二碼,也可以很自然的取作「日弓」,不止是門,「馬sf,車jj,牜hq,言yr」等這些都要作為形旁置於區位歸放表格的橫縱軸上進行系統排重。

拿「門」来批評倉頡的,連區位歸放這種最基本的形碼思想都不懂,看到倉頡規則中的「複合字」第一個是「門」,就拿它来編造攻擊倉頡的文章,致使不明真相研究不深的朋友上當。所以我要把它的原理講明白,當然我也沒細讀那位先生的文章,如果有人認為我說的不對可以對本文進行回覆。

ejsoon
Site Admin
Posts: 4844
Joined: 2016 Jan 10, 22:15

Re: 倉頡輸入法「設計原理」所生問題

Post by ejsoon » 2019 Nov 28, 10:50

可能葉先生是從字源及智能造字的角度去批評倉頡,那也無可厚非,因為倉頡本来並不是為造字設計的,而是為打字設計的。它的字源體現在字元上,而不是能返本溯原生成一個字形。我跟他談的並不是同一個話題,我們自始至終只把倉頡看成是一個輸入法,要學習和理解字源,或者要造字,還是要通過另外的辦法。當然倉頡由於輸入準確,是一個不錯的學習漢字字源的工具。

ichirou
real_man
Posts: 1019
Joined: 2016 Feb 03, 22:47

Re: 倉頡輸入法「設計原理」所生問題

Post by ichirou » 2019 Dec 05, 04:22

上兩層樓說得很好。就只是形聲字不只佔七成,是佔了八成甚至九成吶。

剛好我也引了一段到這裏:http://www.chinesecj.com/forum/forum.ph ... tid=193904

也翻出朱老師原文:
根據說文解字,中文源自象形、指事、轉注、假借、會意、形聲六書。後人百分之九十的文字,皆依據形聲所造,是以,本輸入法即以「形聲」為取碼及組字之基本法則。將所選取的文字一一整理,共計分析出594個字首,9897個字身。

前述之字首及字身,實為原始之象形及指事等字形,是故這些字首及字身可以分別取碼,以代表原字,亦可按中文字形組合之規則,以字首及字身結合之。

因限於26鍵,其中保留了一鍵供特殊用途,餘25鍵,594個字首,每一字首若取一至二碼,可得到650種排列組合;字身9897個,每個取一至三碼,可得一萬餘,顯然可涵蓋所有之字首及字身。因此,以字首碼加字身碼,即每字取一至五碼,適為全部收集字之最小公倍數。

ejsoon
Site Admin
Posts: 4844
Joined: 2016 Jan 10, 22:15

Re: 倉頡輸入法「設計原理」所生問題

Post by ejsoon » 2019 Dec 08, 22:27

ichirou wrote:
2019 Dec 05, 04:22
上兩層樓說得很好。就只是形聲字不只佔七成,是佔了八成甚至九成吶。

剛好我也引了一段到這裏:http://www.chinesecj.com/forum/forum.ph ... tid=193904

也翻出朱老師原文:
根據說文解字,中文源自象形、指事、轉注、假借、會意、形聲六書。後人百分之九十的文字,皆依據形聲所造,是以,本輸入法即以「形聲」為取碼及組字之基本法則。將所選取的文字一一整理,共計分析出594個字首,9897個字身。

前述之字首及字身,實為原始之象形及指事等字形,是故這些字首及字身可以分別取碼,以代表原字,亦可按中文字形組合之規則,以字首及字身結合之。

因限於26鍵,其中保留了一鍵供特殊用途,餘25鍵,594個字首,每一字首若取一至二碼,可得到650種排列組合;字身9897個,每個取一至三碼,可得一萬餘,顯然可涵蓋所有之字首及字身。因此,以字首碼加字身碼,即每字取一至五碼,適為全部收集字之最小公倍數。
剛才又讀了君所著之我學輸入法(四)倉頡,發現我要說的該文都已經講的很透徹了。

ichirou
real_man
Posts: 1019
Joined: 2016 Feb 03, 22:47

Re: 倉頡輸入法「設計原理」所生問題

Post by ichirou » 2019 Dec 16, 04:38

ejsoon wrote:
2019 Dec 08, 22:27
ichirou wrote:
2019 Dec 05, 04:22
上兩層樓說得很好。就只是形聲字不只佔七成,是佔了八成甚至九成吶。

剛好我也引了一段到這裏:http://www.chinesecj.com/forum/forum.ph ... tid=193904

也翻出朱老師原文:
根據說文解字,中文源自象形、指事、轉注、假借、會意、形聲六書。後人百分之九十的文字,皆依據形聲所造,是以,本輸入法即以「形聲」為取碼及組字之基本法則。將所選取的文字一一整理,共計分析出594個字首,9897個字身。

前述之字首及字身,實為原始之象形及指事等字形,是故這些字首及字身可以分別取碼,以代表原字,亦可按中文字形組合之規則,以字首及字身結合之。

因限於26鍵,其中保留了一鍵供特殊用途,餘25鍵,594個字首,每一字首若取一至二碼,可得到650種排列組合;字身9897個,每個取一至三碼,可得一萬餘,顯然可涵蓋所有之字首及字身。因此,以字首碼加字身碼,即每字取一至五碼,適為全部收集字之最小公倍數。
剛才又讀了君所著之我學輸入法(四)倉頡,發現我要說的該文都已經講的很透徹了。
也不敢說很透徹。大家都一直在思考和梳理而已。也值得像你般把個別問題聚焦說得更細。

Post Reply