会议专题

基于数据挖掘思想的网页正文抽取方法的研究

为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99%以上.

网页正文抽取 数据挖掘 自然语言处理 聚类 网页噪声

蒲宇达 关毅 王强

哈尔滨工业大学,计算机学院,黑龙江,哈尔滨

国内会议

第三届学术计算语言学研讨会

沈阳

中文

246-250

2006-08-15(万方平台首次上网日期,不代表论文的发表时间)