基于最大熵模型的汉语标点句缺失话题自动识别初探

摘要：

本文以判别标点句缺失话题是上句的主语还是宾语为任务,将该任务作为标点句缺失话题自动识别研究的切入点.本文首先归纳了一系列判别这一任务的字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验.结果显示,对特定类别动词的实验F值达到82％.对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响.

关键词：汉语标点句缺失话题自动识别最大熵模型

作者: 卢达威宋柔

作者单位: 北京大学中文系,北京市 100871 北京语言大学语言信息处理研究所,北京市 100083

会议类型: 国内会议

会议名称: 中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

会议地点: 广州

会议语种:中文

页码: 1-15

在线出版日期: 2015-11-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于最大熵模型的汉语标点句缺失话题自动识别初探