| 网站首页 | 英语 | 韩语 | 日语 | 法语 | 德语 | 西班牙语 | 外语资料 | 外语论坛 | 小语种 | 汉语教学 | 外文图书 | 
您现在的位置: 外语爱好者网站 >> 汉语教学 >> 社科管理 >> 正文 用户登录 新用户注册
最 新 热 门
最 新 推 荐
专 题 栏 目
相 关 文 章
CJKV
中日韩统一表意文字           ★★★
中日韩统一表意文字
作者:佚名 文章来源:本站原创 点击数: 更新时间:2007-9-27 20:12:13

中日韩统一表意文字
中日韩统一表意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录其仿汉字——喃字。版本ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0中日韩统一表意文字基本多文种平面(BMP)20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面(SIP)42,71170,2072003第一修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0(预计)中日韩统一表意文字扩展C区表意文字补充平面(预计)4,25174,480
历史
于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。


字源

最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:

中国大陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。

另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然.
扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。

这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。

扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)