一种基于N-Gram和拼音相似度的微博新词识别方法
以微博为主要载体的网络新词具有数量多、口语化、不严谨、波动性强的特点.根据这些特点和网络新词的产生规律,提出了使用规则和N-Gram的网络新词提取方法,通过拼音和中文词语搭配库建立网络新词和现有词汇的映射关系,从而实现对网络新词的识别以及词义、词性、极性的标注.基于新浪微博最新实时数据的实验结果表明,该方法可以较好地识别出网络新词,新词提取F-measure和新词词性、极性标注准确率分别达到75.94%和84.52%.
微博文本 新词识别 N-Gram算法 拼音相似度 谐音词
韩彦昭 乔亚男 耿萌萌 万迪昉
西安交通大学电子与信息工程学院 西安 710049 西安交通大学电子与信息工程学院 西安 710049;计算机软件新技术国家重点实验室(南京大学) 南京210093 西安交通大学管理学院 西安 710049
国内会议
太原
中文
16-22
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)