當前位置:縱橫輸入法首頁>>教學經驗交流>>第二屆縱橫碼教學經驗交流會論文集

縱橫輸入法詞覆蓋率的統計研究
蘇州大學縱橫漢字信息技術研究所 強文明

  縱橫碼具有許多吸引人的特點,其中有一個很重要的特點是重碼率極低,即使是引入了大容量詞庫後亦是如此。它的另一個重要特點是擁有大容量的詞庫。最初,縱橫碼輸入系統只帶有5,000多條詞的詞庫,經過多年的發展與擴充,現在的WINDOWS縱橫碼輸入系統的詞庫擁有近90,000條詞。但是,在這種情況下,縱橫碼的重碼率(字詞混合編碼)仍然極低。

  大家知道,詞輸入能大大提高編碼輸入法輸入漢字的速度,一篇文章的錄入若其絕大部分內容可以用詞輸入,則錄入速度肯定較快,反之則較慢。 因此,我們除了關心縱橫碼的重碼率外,還應關心其詞對輸入內容的覆蓋率。為此,我們作了一個比較簡單的統計,現把統計結果公佈出來,以提供大家參考。

  我們隨意抽取「江澤民主席在九屆人大一次會議上的講話」進行統計。該文共902個漢字。在用縱橫碼輸入該文的過程中,用單字輸入的次數為88次,用詞輸入的次數為301次。

  用單字輸入的字及其出現次數如下:

  用詞輸入的詞的組成情況如下:

  從以上統計所得出的結果不難看出,在這篇文章中,縱橫碼詞輸入的內容佔全文內容的90%以上,這說明在縱橫碼中詞的覆蓋率相當大。而且四字詞和多字詞在其中佔了相當大的比例。另外,這篇文章用單字輸入的字中,大部分為具有簡碼的常用字,有的字的出現次數較多,顯然對這些單字的輸入是快捷和方便的。

  因此,我們的經驗是,用縱橫碼輸入漢字信息時,應盡可能用詞來輸入,因為它擁有你所能想到的幾乎所有的詞,這樣你將能通過縱橫碼享受到快速輸入漢字信息的感受。所以我們認為,縱橫碼確實是一種簡便 、快速、實用和先進的漢字輸入碼。