基于多维语义关系的谐音双关语识别模型

摘要：

谐音双关语的识别是幽默研究领域的一个重要分支,并逐渐发展为一个新兴的研究领域.本文提出一种基于四个维度特征集的谐音双关语识别模型,其中四个维度包括语义透明度、语义相关度、语音扩展性和句式特征集.语义透明度包括词项统计和语句字符长度两个特征,句式特征集包括人名、大写、时态、词性和位置五个特征.将这四个维度的九个特征加入到二叉判定树中,使用K-Means聚类获取阈值,完成双关语的识别.本文的实验数据来自于SemEval2017任务7的语料,取得了较好的效果,F1值高于参赛队中的第一名,实验证明基于四个维度特征的二叉判定树分类方法在谐音双关语识别中是有效的,且在多个特征中,语音扩展性和句式特征集的效果比较明显,这也符合谐音双关语识别中语音作用较大的预测.

关键词：谐音双关语二叉判定树语义特征集聚类分析

作者: 徐琳宏林鸿飞祁瑞华杨亮

作者单位: 大连外国语大学,辽宁省大连市 116044 大连理工大学辽宁省大连市 116024

会议类型: 国内会议

会议名称: 第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会

会议地点: 南京

会议语种:中文

页码: 1-10

在线出版日期: 2017-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于多维语义关系的谐音双关语识别模型