会议专题

古籍数字化中的汉字信息处理

古籍数字化是先代文明走向现代、得以传承应用的有效手段之一.在此过程中首先遇到的就是其载体——汉字的信息处理问题。汉字历经千年的演变,字体上有甲、金、篆、隶、楷等差别.字体的变化,再加上后世的转写,产生了异体、异写、同形等一字多形或多字一形的现象,并在古籍中被大量使用。而目前的信息交换用标准汉字编码字符集只负责收集字形,除非以人工标示为同一个字,否则计算机无法辨认不同编码的各种字形间的异同关系。要解决这一问题,除了不断对字符集中的字形进行大量的整理和规范外,在字符集的设计中也需要有一种可扩展的机制来反映同一个字的各种字形间的对应信息.

古籍数字化 汉字信息处理 汉字编码 字符集 汉字整理 字形

胡佳佳

北京师范大学 北京 100875

国内会议

2007年全国博士生学术论坛——中国语言文学

北京

中文

191-201

2007-07-01(万方平台首次上网日期,不代表论文的发表时间)