一种基于词典的新型中文分词机制
随着中文网络的快速发展,对于网络中海量中文数据的实时处理成为一个引人关注的话题,而中文文本的自动分词技术是中文信息处理系统的重要基础部分,直接关系到系统的处理效率和准确性。作者在对中文词典分词机制和真实网络数据进行充分分析后,注意到中文分词机制的关键是对单双字词的识别。基于这种认识,本文提出了一种新型的中文分词机制:双字词-长词哈希机制,通过提高对单双字词的查询效率来实现对中文分词机制的改进。文章通过详细性能分析和实验证明了该机制对于中文文本分词速度和效率的提高。
中文文本 自动分词 词典法 双字词-长词哈希机制 查询效率 信息处理
吴晶晶 荆继武 王平建
中国科学技术大学,合肥 230027;信息安全国家重点实验室(中国科学院研究生院),北京 100049 信息安全国家重点实验室(中国科学院研究生院),北京 100049
国内会议
青岛
中文
345-351
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)