基于限定词典和词频统计的中文分词算法
限定词典背景下的中文分词有着较广阔的应用需求。根据限定词典词汇固定、词频统计精确、处理时效性要求高等实际情况,增加了词条的词性标注和歧义标注,提出并实现了基于限定词典和词频统计的中文分词算法。为了评价限定词典,提出了词典覆盖率、词典趋近率和词典评价函数三种评价方法。为了评测新算法的优劣,使用军事文本和民事文本作为实验语料库,采用正向最大匹配算法与新算法进行实验比对,实验测评结果表明新算法在限定词典环境下略优于最大匹配算法。
限定词典 词性标注 词频统计 语料库 中文分词
周学广 高飞 孙艳
海军工程大学电子工程学院,湖北省武汉市,430033
国内会议
第四届中国计算机网络与信息安全学术会议(CCNIS2011)
郑州
中文
1-7
2011-11-01(万方平台首次上网日期,不代表论文的发表时间)