基于数据挖掘思想的网页正文抽取方法的研究
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99%以上.
网页正文抽取 数据挖掘 自然语言处理 聚类 网页噪声
蒲宇达 关毅 王强
哈尔滨工业大学,计算机学院,黑龙江,哈尔滨
国内会议
沈阳
中文
246-250
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)