会议专题

一种高效的汉语自动分词词典机制

词典是汉语自动分词的基础,分词词典机制的优劣直接影响到汉语自动分词的速度和效率.本文简要分析了汉语自动分词的三种主要算法,指明了分词词典机制在自动中分词中的重要性,然后深入研究和比较了已有的几种典型分词词典机制,总结了各词典机制的优缺点.在此基础上,根据汉语中二字词较多的特点,提出了一种新的分词词典机制,该机制在词典数据结构中添加二字词检测位图表,在分词时,该位图表可快速判断二字词来优化分词速度.文章还给出了在正向最大匹配分词算法中应用该方法实现自动分词的算法分析,并选取人民日报语料片断进行了实验测试.实验结果表明,该分词词典机制有效地提高了汉语自动分词的速度和效率.

汉语自动分词 分词词典 字词检测 中文信息处理

杨超 李仁发 蒋斌

湖南大学计算机与通信学院(长沙)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

331-338

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)