和字网首页(Home) | 论坛首页(Forum)
Welcome Guest! To enable all features please 登录 or 注册.

Notification

Icon
Error

Guilin Ouyang
#1 发表时间 : 2014年3月12日 13:02:07(UTC)
Guilin Ouyang

等级: Administration

组: Administrators
注册时间: 2012/2/4(UTC)
帖子数量: 233

关于汉字字形编码的确定性问题,我在以下文章做了一些说明:

《和码是最好最终的汉字形码》

借和码5.0版的编码过程,总结一些编码问题,做个记录吧。

一、对汉字字形编码,丢掉一些字形信息在所难免


汉字有简单的如:

三汉主茹染始吩算莫保咽染美夹菊姿姜梦楼像焰敢
汉字也复杂的如:

韱肈糮糅龔襷虠裫癟褫癛殛夔馕蠻聽偽鸝竊欞
龘𪚥亖𦜻𠽺𢸀𧅩𦏯朤𠾅𦪤𦼒𨆬𪈼鱻𧭛𨰻𠔻𤛭𢨋


汉字字形信息有两个方面,字根信息,与顺序信息。

字形编码如要包含单字的所有字根与笔画,与顺序信息。就要在字根表中放更多的字根,或使单字的编码个数增加。

用固定个数的编码,又要保持字根表的简单,字形信息的丢失就不可避免。

在给一些单字编码时,为了多保留一些字形信息,想尽了办法,如增加字根(以保留字根信息),修改编码规则(以保留顺序信息),这往往使编码复杂化。但即便如此,也无法保留所有汉字的所有字形信息。

字形编码没有包含所有的汉字字形信息,往往会遭致批评与指责,这是很不合理的。

要进行汉字字形编码,就要对汉字的字形信息进行取舍,就要接受汉字字形信息的丢失。

如果反对或拒绝字形信息的取舍,那就只有书写方法,就不要用键盘输入法。

汉字字形编码,是在对汉字进行字形分析后,提取汉字字形信息,编码用于汉字字形输入(或检索,或线性化),编码不等于汉字,编码区别于汉字。

汉字字形编码不可能保留全部汉字的全部字形信息,但在编码中尽量多地保留字形信息,应该是字形编码的目标之一。

Edited by user 2014年3月18日 7:32:34(UTC)  | Reason: Not specified

Guilin Ouyang
#2 发表时间 : 2014年3月12日 16:19:20(UTC)
Guilin Ouyang

等级: Administration

组: Administrators
注册时间: 2012/2/4(UTC)
帖子数量: 233

Guilin Ouyang
#3 发表时间 : 2014年3月17日 17:35:54(UTC)
Guilin Ouyang

等级: Administration

组: Administrators
注册时间: 2012/2/4(UTC)
帖子数量: 233

2014年03月17日

3月3日开始,用了10天时间,完成简体6763,繁体5997个单字编码的修改。又用了两天时间给简体字排序,一天半用于繁体字排序。

昨天完成了,和码5.0的码表,用已有的程序半个小时就做成了单字与词组的码本,现在Windows上可以使用了,这是第一次使用和码5.0输入的。

今天用了一天时间才做好以下这个图。

最基本的笔画应该是:横(一)竖(丨)撇(丿)捺(丶),也许左孤“(",右孤")",圈“〇”,以及上孤,下孤也是,如英文中的Cae, DBRP, O, mn, UV就有各种孤线。

中文也有:

左孤"(",C,如左框:匚;
右孤”)“,DBPR, 如右框:彐;
圈“〇”,OQ,如:口;
下孤,nm, 如:冖冂几;
上孤,UVW,如:凵山;

只不过,中文是用”横竖撇捺“来描述这些孤笔画的。

和码把汉字的基本笔画归结为 横(一)竖(丨)撇(丿)捺(丶),以此为出发点,解释汉字字形的组成与变化。

和码5.0字根表
和码5.0字根表

Edited by user 2014年3月18日 7:47:29(UTC)  | Reason: Not specified

Guilin Ouyang
#4 发表时间 : 2014年3月28日 21:20:57(UTC)
Guilin Ouyang

等级: Administration

组: Administrators
注册时间: 2012/2/4(UTC)
帖子数量: 233

和码5.0版的说明

点击查看全文
论坛跳转  
不可以 发表新话题.
不可以 回复话题.
不可以 删除自己的发言.
不可以 编辑自己的发言.
可以 发表投票.
不可以 投票.