一种挖掘网页标题中命名实体的远距监督方法
本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法.首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据,利用一种基于跳跃二元语法模型的贪心策略,学习得到网址和网页标题的混合模板,用于从网页标题中挖掘对应类别的命名实体.实验结果表明,相较于其他使用同类数据源的挖掘方法,该方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升.
网页标题 命名实体 挖掘方法 远距监督方法
胡腾 王厚峰 赵世奇 张超
北京大学,北京 100871;百度公司,北京 100193 北京大学,北京 100871 百度公司,北京 100193
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-10
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)