Blog网页分类与识别技术研究
Blog作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此,迫切需要找到一种自动将Blog网页区别于其它web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等。本文针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。
博客 网页识别 相似度 识别技术 关键字 网页结构
张迪 郑德权 赵铁军 于浩
哈尔滨工业大学语言语音教育部-微软重点实验室,哈尔滨 150001
国内会议
青岛
中文
295-301
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)