会议专题

维基百科人物属性自动获取方法研究

人物属性抽取是人名搜索引擎和社会关系网络构建的重要基础。本文提出了一种从维基百科中自动获取人物属性的方法。该方法利用人物类维基文本现有信息盒中的“人物姓名-属性-值”三元组关系,对给定的每个属性,将人物姓名和属性值标记到维基自由文本中,自动生成带标注的数据集。利用该数据集使用机器学习的方法自动生成模板,通过模板匹配从维基文本中获取更多的属性信息,同时也达到了生成完整的信息盒的目的。 实验证明,该方法可以有效的抽取出人物的属性。

维基百科 人物属性抽取 模板自动获取

孟新萍 王会珍 张俐

东北大学自然语言处理实验室,辽宁沈阳,110004 医学影像计算教育部重点实验室(东北大学),辽宁沈阳,110819

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

452-458

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)