网络中新词识别方法研究
随着互联网的迅猛发展,网络中新词大量涌现.本文提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高新词的召回率.在此基础上结合分析新词的内部模式,对垃圾串进行过滤以确定新词.本文利用训练垃圾词典的方法对单字串垃圾进行过滤,用改进的互信息与独立成词概率结合的方法确定多字词模式的新词.由此,大幅度提高了新词识别的准确率.
互联网 新词识别 内部模式 垃圾串过滤
王倩倩 范通让
石家庄铁道大学信息科学与技术学院,河北石家庄市050043
国内会议
SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)
石家庄
中文
152-157
2014-06-30(万方平台首次上网日期,不代表论文的发表时间)