一种从中文网页中抽取信息的综合方法

摘要：

　　网页信息抽取旨在从网页中抽取出结构化信息，网页中不仅仅包含由自然语言构成的自由文本，同时也包含如表格、列表等半结构化文本，之前相关研究大多仅针对单种文本进行抽取，提出了一种同时从自由文本和半结构化文本中抽取信息的综合方法。采用启发式规则，从页面中筛选出自由文本和半结构化文本，之后针对自由文本采用分词、词性标注、命名实体识别等自然语言处理技术和基于规则进行信息抽取，同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取，最终将从两种文本中抽取出的信息进行整合。通过将此综合方法应用于企业注册信息的抽取，并对其抽取效果进行评估，实验数据表明综合方法信息抽取的F1值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高。

关键词：中文网页信息提取自然语言处理效果评估

作者: Chen Jin 陈劲 Lin Huaizhong 林怀忠 Chen Fangshu 陈方疏 Xu Duanqing 许端清

作者单位: College of Computer Science and Technology, Zhejiang University, Hangzhou 310027 浙江大学计算机科学与技术学院杭州 310027

会议类型: 国内会议

会议名称: 第29届中国数据库学术会议

会议地点: 合肥

会议语种:中文

页码: 171-178

在线出版日期: 2012-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种从中文网页中抽取信息的综合方法