中文不确定性句子的识别研究
识别不确定性信息对于信息抽取类的任务有着重要作用,因为不确定性信息往往会误导这些系统抽取出错误的信息。本文提出了一种自动识别中文中不确定性句子的方法,利用不确定性句子中普遍存在的线索词的信息构建了句子的评分模型。同时Passive Aggressive算法,一种在线学习算法的变种,用于学习模型的参数。在中文不确定性句子识别的实验中证明,相比较于词袋(Bag of Words)的模型,我们的模型能够得到更好的F1值,达到了70.53%,提高了约5%。
不确定性信息 PassiveAggressive算法 中文信息处理 句子识别 学习模型
计峰 邱锡鹏 黄萱菁
复旦大学计算机科学技术学院,上海,200233
国内会议
黑龙江镜泊湖
中文
594-601
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)