一种基于词典的新型中文分词机制

摘要：

随着中文网络的快速发展,对于网络中海量中文数据的实时处理成为一个引人关注的话题,而中文文本的自动分词技术是中文信息处理系统的重要基础部分,直接关系到系统的处理效率和准确性。作者在对中文词典分词机制和真实网络数据进行充分分析后,注意到中文分词机制的关键是对单双字词的识别。基于这种认识,本文提出了一种新型的中文分词机制:双字词-长词哈希机制,通过提高对单双字词的查询效率来实现对中文分词机制的改进。文章通过详细性能分析和实验证明了该机制对于中文文本分词速度和效率的提高。

关键词：中文文本自动分词词典法双字词-长词哈希机制查询效率信息处理

作者: 吴晶晶荆继武王平建

作者单位: 中国科学技术大学,合肥 230027;信息安全国家重点实验室(中国科学院研究生院),北京 100049 信息安全国家重点实验室(中国科学院研究生院),北京 100049

会议类型: 国内会议

会议名称: 2007年全国网络与信息安全技术研讨会

会议地点: 青岛

会议语种:中文

页码: 345-351

在线出版日期: 2007-07-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于词典的新型中文分词机制