當前位置:縱橫輸入法首頁>>教學經驗交流>>第二屆縱橫碼教學經驗交流會論文集

縱橫碼性能分析方法
上海交通大學 章桓明 謝維平 盧黨吾

  漢字是世界上歷史最悠久的文字之一,它是我國通用的文化工具,也是世界上公認的重要文化交流工具之一。近幾年,隨著計算機技術蓬勃發展和它在中國的廣泛應用,漢字信息處理成了計算機應用的一個重要方向,它對我國計算機應用事業的發展有著特殊的意義。目前,漢字編碼鍵盤輸入法名目繁多,雖然都解決了漢字輸入問題,但都有這麼一點缺點:或需要記憶的東西太多,或重碼率高,或編碼規則複雜。作為新一代漢字編碼的縱橫碼在這些方面有了一個較好的解決方案,它口訣記憶簡單、重碼率低、編碼規則相對較容易。

  眾所周知,漢字編碼的輸入過程是:人通過視覺或聽覺識別漢字信息,然後通過大腦思維並運用編碼規則將漢字轉換成相應的字符代碼,最後再找到相應鍵位,通過按鍵輸入此漢字。從定性方面來看,縱橫碼可歸納為:編碼方案對操作者要求較低,編碼規則簡單明瞭,易學易記,非規則編碼要求記憶量少,重碼率低,每個漢字輸入的按鍵次數少,鍵位佈置合理,單位時間內輸入的漢字字數多,設備要求低,結構簡單,技術上易於實現,外部碼轉換成內部碼簡單,相應軟件佔有的內存少等等。

  縱橫碼漢字輸入法可從以下幾個方面進行定量的分析:

一、縱橫碼漢字的平均信息量

  按照信息論的原理,具有N個可能結局的實驗β的熵(信息量)H(β),可由下式確定:

  其中Pi為各個結局的概率,恆有ΣPi=1。由於Pi≦1,故log2Pi為負數,為使信息量是一個正數,故冠以負號 ,其值代表此信息量所需的二進制數的位數,單位為比特(bit)。若Pi是某個漢字在N個漢字集中出現的概率,則上式為縱橫碼漢字所包含的平均信息量。

二、縱橫碼碼元的平均信息量

  縱橫碼以0~9十個數字作為碼元,它的編碼基數為10。由於縱橫碼編碼位數不完全一致(全碼為6),因此平均碼長:

  其中Pl是長度為l的碼元出現概率,Ll是長度為l的碼元的位數。由此可得碼元所包含的信息量:

  其中Pmi為第i個碼元單獨出現的概率。

三 、縱橫碼最小按鍵次數與編碼估算

  從一個漢字的平均信息量H(β)和碼元信息量M(K ),就可以求出平均用幾位編碼代表一個漢字,即平均按鍵次數L:

L=H(β)/M(K)

  漢字的編碼效率:

  其中H為漢字的信息量,L為平均按鍵次數 ,K為編碼基數。根據計算,得出幾種方案的比較:

方 案

   L

  K

   η

  縱橫碼

   4

  10

  0.71

  拼音輸入法

   6

  26

  0.45

  電報碼

   4

  10

  0.72

四、縱橫碼輸入速度

  這是指單位時間內擊鍵輸入漢字的字數。在信息論中,著名的Hyman公式:

T=a+blog2K

  給出了擊鍵反應時間T。式中a為簡單反應的擊鍵時間常數,它與擊鍵人員素質有關;b為因選鍵而比簡單反應所增加的時間,它顯然與擊鍵人員對編碼規則的熟練程度、鍵位數(即碼元數)、鍵位佈局、擊鍵指法等因素有關;式中的K為編碼基數。因此,以大量實際擊鍵測試方法來給出這一結果。如果以每分鐘擊鍵輸入漢字數作為輸入速率S的單位,那麼:

S=60/(a+blog2K)L(漢字數/分鐘)

  式中L為漢字的平均按鍵次數。從上式可看出,縱橫漢字編碼輸入法,採用小鍵盤十個數字鍵的鍵位佈局及編碼規則口訣記憶,都是為減小上式中的分母,以提高輸入速率。

五、縱橫碼重碼率

  縱橫碼重碼率是在考察漢字字頻的基礎上給出的重碼實際出現的機會。以Pe表示重碼出現率,即

  式中n為重碼組數;m重碼組中的重碼字數;Pij是第i重碼組中第j個重碼字的字頻。由此可以看出,當重碼字的字頻較大時,Pe的值也大;當重碼字的實際使用機會較少,即字頻較小時,Pe也小。

六、縱橫碼非常規編碼數

  縱橫碼非常規代碼是利用基本編碼規則以外附加的補碼規則。它通常出現在如下情況中:按基本編碼規則對某些漢字不能給出輸入代碼;減少重碼字;用更簡便的方法輸入某些漢字。

七、縱橫碼學習時間

  縱橫碼學習時間是指由不會到學會所花的時間,這是一項統計結果。以錯碼率作為是否「學會」衡量,規定達到錯碼率低於某規定值時總共所需的時間,即為學習時間。把大量測試結果歸納成曲線圖(見圖1)。三條曲線分別表示三種不同編碼學習所花時間t1,t2,t3。

(圖1)

八、縱橫碼熟練時間

  錯誤率在規定值以下,把鍵入速率穩定提高到最大值時所花費的時間。它也是一項統計結果,可以通過熟練曲線(見圖2)來描述,圖中三條曲線分別為三種不同編碼方法輸入速率達到穩定(飽和)狀態時所花費的時間t1,t2,t3。

(圖2)

  一般來說,評判一個漢字輸入編碼雙名法,還要從編碼方法的性能來考慮,大約有五個方面:

1. 易學性:編碼規則要簡單明了,應沒有特殊規則或盡可能少。
2. 可用性:在編碼中,二義性和重碼要盡可能少,但不強求為零。
3. 高速性:碼長盡可能短,鍵位設計便於盲打,鍵入速度應盡可能高。
4. 通用性:編碼規則應獨立於具體設備,適用於通用標準設備。
5. 經濟性:對主機軟、硬件無特殊要求,便於維護。

  以上五性能可用五星圖表示。圖3、圖4和圖5分別給出縱橫碼、拼音和電報碼的五星圖,從中可見縱橫碼的優勢。

(圖3)

(圖4)

(圖5)

  綜上所述,縱橫漢字編碼具有先進的編碼理論,以數字作為碼元能對大字符集進行編碼,顯示出其強勁的發展勢頭。相信隨著計算機技術的不斷發展,必將推動縱橫漢字編碼進一步完善,以適應社會各個領域的需要。