列表页结构化数据抽取方法研究及应用
随着Web信息资源的迅速增长和用户对于Web信息需求的不断增强,结构化信息抽取技术已经成为Web数据挖掘的重点研究领域之一。本文利用训练样例生成学习抽取规则,通过地标提纯目标数据项,针对列表页结构化数据特点提出了一种学习抽取规则生成算法,并将其应用于房产行业网站的信息抽取。实验结果表明,该方法可有效地实现不同房产行业网站中列表页结构化中目标数据的抽取。
结构化数据 数据模型 完美析取规则 学习抽取规则算法
李贵 商鹏程 孙平 李征宇
沈阳建筑大学 信息与控制工程学院,辽宁 沈阳 110168 沈阳建筑大学 理学院,辽宁 沈阳 110168
国内会议
秦皇岛
中文
410-413
2010-09-16(万方平台首次上网日期,不代表论文的发表时间)