会议专题

限定领域口语对话系统中超出领域话语的对话行为识别

由于领域外话语具有内容短小、表达多样性、开放性及口语化等特点,限定领域口语对话系统中超出领域话语的对话行为识别是一个挑战.本文提出了一种结合外部无标签微博数据的随机森林对话行为识别方法.本文采用的微博数据无需根据应用领域特点专门收集和挑选,又与口语对话同样具有口语化和表达多样性的特点,其训练得到的词向量在超出领域话语出现超出词汇表字词时提供了有效的相似性扩展度量.随机森林模型具有较好的泛化能力,适合训练数据有限的分类任务.中文特定领域的口语对话语料库测试表明,本文提出的超出领域话语的对话行为识别方法取得了优于最大熵、卷积神经网络等短文本分类研究进展中的方法的效果.

对话行为识别 超出领域话语 随机森林 词向量 口语对话系统

黄沛杰 王俊东 柯子烜 林丕源

华南农业大学数学与信息学院,广东广州510642

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-11

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)