置信分词——面向中分信息检索的分词模式
本文首先分析传统分词方式在信息检索应用中所造成的查准率、查全率及检索速度的问题。为同时解决上述问题,笔者构造了基于字词混合分词的置信分词模式,分词项需要包含词、位置及置信度这三个指标。此外,本文还描述了一种具体的RMM置信分词方法,进一步阐释置信分词模式。通过实验,简单验证了置信分词模式的有效性。笔者相信,置信分词模式不仅能应用于信息检索应用,也可推广到其他中文处理应用。
置信分词 RMM 中文分词 信息检索 中文处理
石子夜
中国科技信息研究所万方数据公司,北京 100045
国内会议
苏州
中文
384-390
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)