倉頡字元序列計畫〔ijlist〕介紹

這是ejsoon製作的彈框示例

你好!

倉頡字元序列是由倉頡字元及構字符組成的序列。每一個漢字都有其獨一無二的序列。

本計畫的意義

一,可以查詢到倉頡編碼每一個中文字母所代表的倉頡字元

當我們用漢文庫典查詢到一個漢字的編碼時,它未能給出每個中文字母所代表的字元。

hkcards.com網站雖然能以圖片方式顯示其所代表的字元,但是它收字不全,並且包含錯誤。

這個圖示是錯誤的

曾經香港華通有一個「follow me 倉頡字典」,也是用圖片的方示展示倉頡編碼所代表的倉頡字元,存在著跟hkcards.com相同的問題。近期發現香港華通網站已經無法訪問。

據悉,一些輸入法已經做到能夠列舉出其編碼所代表的字根,如虎碼、98五筆等。

因此,我現在要做這個項目,就是為了填補倉頡輸入法教學上的空白。

二,倉頡輸入法的教學和使用,必然用到字元序列

例如「勤」字,它的第二碼為「一」,不為「土」。正是因為字元序列中包含了奉下

對於「倉頡輸入法」而言,最準確的定義是:倉頡輸入法是在一個漢字的字元序列中按首二身三規則挑選出最多五個並以此為編碼的中文輸入法。

除此之外,其它的定義都不準確。

當學習者或教學者見到這個工具的界面時,它會發現,倉頡所用到的字元,其數量是非常少的。這正說明了倉頡是一個易學難忘的輸入法。

我相信本計畫這是倉頡史上最簡單最直觀的教學辦法。

正如先前所說:本計畫是為了造福人類。

三,字形生成器是朱邦復未竟的事業

當年朱邦復聲稱,他已經完成「字形産生器」,能自動把一個倉頡編碼轉換為中文字形。

但是這是不可能的,因為倉頡編碼省略了大量字形信息,並且你不知道中文字母所代表的是哪個字元。

至今我們沒有見到「字形産生器」的成品。漢文庫典的字型圖檔,其實是用位圖拉伸堆疊的方式人工合成的,並不是程式自動生成。

但是,but,尹卂主持的倉頡字元序列計畫,可以做到。因為本計畫不僅精準定義了所用的字元,並且還用構字符號準確描述了它們的組合及連接方式。

當應用本程式填寫資料時,如果資料庫中已經存在「車」字,則只需輸入「廣府>(車)」,即可自動生成「庫」的字元序列。

當本計畫完成度達到30%左右時,當我們檢索到「庫」字,則程式可以自動顯示它的構成為「广>車」。

當基於字元序列的字形生成器做成時,它將能自動標注所生成的字形的字首和次字首,以及每一個構成它的倉頡字元。

四,人工智慧是朱邦復未竟的事業

朱邦復做倉頡機的終極目標,是要做能說人話、能理解人類語言的人工智慧。

但是由於朱邦復對人工智慧的認知不夠準確,以及財力人力等資源有限,致使朱邦復終身做不出人工智慧。

朱邦復始終是想要用普通算法來製作人工智慧,這是絕不可能做成的。假使alpha go以及chatgpt也是用普通算法來算的話,那它永遠無法取得現在的成就。

不過chatgpt並不完美,它並不認識漢字。例如我問chatgpt:請分析「覺」字的結構。它回答說「覺是左右分體,左學右見」。然後我指出它的錯誤,我說「覺」應是上下分體。然後它回答:是的,覺是上下分體,上面是「見」……

如果把尹卂字元序列資料輸入chatgpt,這樣一來它對漢字結構的判定,就能用普通算法直接限定,就能知道「覺」字是「上學下見」,然後再用機器學習的部份,用人類語言表達出來。

與此同時,機器對於每一個漢字的認識,就是一個無意義的unicode內碼。而尹卂字元序列,是可以取代unicode內碼的。當機器能用包含了漢字組成的字元序列資料來收錄漢字,則它應用漢字的能力會大幅提升。

本計畫使用方法

本計畫將包括兩個部份:

  1. ijlist編輯器(已完成)
  2. 字元序列查詢(計畫中)

這是一個合作項目,非常有意義,我希望大家都能夠參與。

一,ijlist編輯器的使用

一般的流程是:

  1. 點「隨機」
  2. 挑其中最簡單最常用的一個字
  3. 填充字元
  4. 填寫構字符號
  5. 點擊「字首次字首」
  6. 提交

但是,調用已有的資料,可以更快速的完成。

例如,當我們填寫「庫」字時,我們點擊〔真〕按鈕,之後點字元「廣府」,然後是構字符>,然後打「車」,再點回〔真〕,這樣「車」的字元序列及其構字符號會自動填好。

因此,為了〔真〕字方便填寫,目前對於「雨穴儿」等,先寫成部首的字元序列。

當我們填了某個部件多的字時,應進一步把它所包含的字都通過search功能搜尋並填上。比如當填好「過」時,也需要一並填充「咼、冎」。

對於「食今令」等含「亽」的字,「丶」與下方不相接,但是「良」字的「丶」與「艮」是相接的。

二,字元序列查詢

正在計畫中…

Leave a Comment