面向不平衡数据的隐式篇章关系分类方法研究
隐式篇章关系分类是篇章分析领域的一个重要研究子任务,大部分已有研究都假设参与分类的正类样本和负类样本数量相等,采用随机欠采样等不平衡数据处理方法保持训练样本中数据平衡,然而,在实际语料中正类样本和负类样本的分布是不平衡的,这一现象往往制约隐式篇章关系分类性能的有效提升.针对该问题,本文提出一种基于框架语义向量的隐式篇章关系分类方法,该方法借助框架语义知识库,将论元表示成框架语义向量,在此基础上,从外部数据资源中挖掘有效的篇章关系样本,对训练样本进行扩展,解决数据不平衡问题.在宾州篇章树库(Penn Discourse Treebank,PDTB)语料上的实验结果表明,相较于目前主流的不平衡数据处理方法,本文方法能够明显提高隐式篇章关系分类性能.
隐式篇章关系 分类方法 不平衡数据 框架语义向量
朱珊珊 洪宇 丁思远 姚建民 朱巧明
苏州大学计算机科学与技术学院,江苏省 苏州市 215006
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-11
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)