基于一元语法模型的中文话题追踪
话题追踪(topic tracking)的目的是监控新闻故事流识别出与预先给定几个新闻故事表述的话题相关的后继故事.本文采用一元语法模型对中文故事进行话题追踪,并分析了影响中文话题追踪性能的3个因素:特征数目、分词技术、命名实体识别技术.实验结果显示选取适当的特征数目、使用好的分词技术、使用命名实体识别技术都能改进中文话题追踪系统的性能.本文选用TDT3语料作为测试语料,系统达到最好的追踪性能时,在漏报率为4.0﹪的情况下,误报率仅为1.8﹪,系统最小开销为0.0029,Norm(C<,track>)为0.1239.
话题追踪 一元语法 语料 中文话题 信息抽取
王会珍 朱靖波 陈文亮 季铎 张斌
东北大学自然语言处理实验室(辽宁沈阳) 东北大学计算机应用研究所(辽宁沈阳)
国内会议
北京
中文
422-427
2004-08-01(万方平台首次上网日期,不代表论文的发表时间)