维基百科人物属性自动获取方法研究
人物属性抽取是人名搜索引擎和社会关系网络构建的重要基础。本文提出了一种从维基百科中自动获取人物属性的方法。该方法利用人物类维基文本现有信息盒中的“人物姓名-属性-值”三元组关系,对给定的每个属性,将人物姓名和属性值标记到维基自由文本中,自动生成带标注的数据集。利用该数据集使用机器学习的方法自动生成模板,通过模板匹配从维基文本中获取更多的属性信息,同时也达到了生成完整的信息盒的目的。 实验证明,该方法可以有效的抽取出人物的属性。
维基百科 人物属性抽取 模板自动获取
孟新萍 王会珍 张俐
东北大学自然语言处理实验室,辽宁沈阳,110004 医学影像计算教育部重点实验室(东北大学),辽宁沈阳,110819
国内会议
武汉
中文
452-458
2010-10-11(万方平台首次上网日期,不代表论文的发表时间)