附件二 和码编码方案的精确统计数据

(统计范围:国标GB2312的6,763个汉字)

(和码6.3版)

 

一、6,763个字在25个数字码上的分布统计表

码名 字根 第一码
分布
第二码
分布
第三码
分布
第四码
分布
0   0 87 522 1756
11 11 105 291 229 1028
12 12 135 304 205 76
13 13 132 262 234 100
14 14 143 293 205 145
15 15 159 171 252 142
21 21 68 240 297 393
22 22 120 97 77 98
23 23 378 474 418 133
24 24 446 325 417 301
25 25 274 483 517 165
31 31 345 227 271 187
32 32 316 386 339 107
33 33 525 221 79 36
34 34 391 370 353 87
35 35 433 110 78 18
41 41 176 290 169 457
42 42 371 269 324 156
43 43 271 434 390 485
44 44 268 327 296 86
45 45 394 184 261 46
51 51 168 285 169 500
52 52 276 216 143 83
53 53 393 129 212 42
54 54 240 145 133 108
55 55 235 143 173 28

二、6,763个字的前两码的分布统计表

二个码,有25×25+25=650个码位,和码在618个码上排有汉字,分布统计如下:

一码
重字
码个数 码例 字数 百分比
47 1 3323 47 0.69
44 1 3325 44 0.65
39 2 5123;4225 78 1.15
38 2 4232;4525 76 1.12
35 2 3342;5323 70 1.03
34 1 2311 34 0.5
33 1 2343 33 0.49
32 2 3343;3525 64 0.94
31 4 2443;3332
2432;2352
124 1.83
30-26 3+2+3+3+7=18   495 7.32
25-21 6+5+9+9+14=43   969 14.33
20-16 10+20+15+15+24=84   1489 22.02
15-11 16+15+26+25+27=109   1385 20.48
10-6 29+31+34+34+36=164   1295 19.14
5-1 34+45+35+35+35=184   560 8.28
0 32   0 0

有32个码上没有汉字,这些码是:

1112; 1114; 1121; 1122; 1151; 1153; 1155; 1234

1331; 1422; 1441; 1453; 1455; 2115; 2123; 2131

2134; 2135; 2144; 2145; 2152; 2154; 2155; 2215

4142; 4155; 4522; 5121; 5122; 5151; 5152; 5155

三、6,763个字的前三码的分布统计表

三个码,有25×25×25+25×25+25=16275个码位,和码在4593个码上排有汉字,分布统计如下:

一码
重字
码个数 码例 字数 百分比
10 1 332534 10 0.15
8 2 453325;450000 16 0.24
7 5 150000;234332
235143;332311
352521
35 0.52
6 12   72 1.08
5 27   135 2.00
4 118   472 6.98
3 317   951 14.06
2 961   1922 28.42
1 3150   3150 46.58

 

四、6,763个字的前四码的分布统计表

四个码,有25×25×25×25+25×25×25+25×25+25=406900个码位,和码在5837个码上排有汉字,分布统计如下:

一码
重字
码个数 码例 字数 百分比
8 1 45 00 8 0.12
7 1 15 00 7 0.10
6 2 35 00;55 00 12 0.18
5 7   35 0.52
4 29   116 1.72
3 98   294 4.35
2 592   1184 17.51
1 5107   5107 75.51

 

五、和码编码对汉字的离散性

1、静态离散性:

一个码有25个码位,和码在25个码上排有汉字;

二个码有25×25 + 25=650个码位,和码在618个上有汉字;

三个码有25×25×25 + 25×25 + 25=16275个码位,和码在4593个码上排有汉字;

四个码有25×25×25×25 + 25×25×25 + 25×25 + 25=406900个码位,和码在5837个码上排有汉字。

2、动态离散性:

和码软件的设计,使得在输入四个码的过程中,单字有一次机会被选在待上屏位置,最常用的字,最早被选上。因为这个软件功能,使和码的动态离散性如下:

输入第一个码,有25个字可被选在待上屏位置;

输入第二个码后,新增618个字(不包括第一码的25个字);

输入第三个码后,新增4301个字可被选在待上屏位置(不包括第一、二码的25+618个字);

输入三个码过程中,和码软件能将25+618+4301=4944常用汉字先后放在待上屏位置。4935占GB2312的6763个字的73%,这些字以及其组成的词组一般能满足96%(估计值)以上的输入需要。因此汉字输入时,第四码是很少用到的。

 

Right Arrow    Right Arrow