基于数据挖掘思想的网页正文抽取方法的研究

摘要：

为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文.该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99％以上.

关键词：网页正文抽取数据挖掘自然语言处理聚类网页噪声

作者: 蒲宇达关毅王强

作者单位: 哈尔滨工业大学,计算机学院,黑龙江,哈尔滨

会议类型: 国内会议

会议名称: 第三届学术计算语言学研讨会

会议地点: 沈阳

会议语种:中文

页码: 246-250

在线出版日期: 2006-08-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于数据挖掘思想的网页正文抽取方法的研究