人才网页自动识别系统研究

摘要：

提出了人才网页自动识别系统设计，实现了对Nutch 定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的Url特征、网页Title 标签特征、链接文字特征以及网页文本内容特征，使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值，借助开源软件LibSVM 实现基于多特征值的人才网页自动识别。通过对所抓取的高校网站网页集合随机样本实验证明，该人才网页自动识别系统准确率达到了85％以上。人才网页自动识别结果为进一步自动构建包装器进行人才信息抽取提供良好基础。

关键词： LibSVM 人才网页自动分类分类特征提取

作者: 徐健温浩胜

作者单位: 中山大学资讯管理学院,广州 510006 深圳市迅雷网络技术有限公司,深圳 518057

会议类型: 国内会议

会议名称: 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会

会议地点: 银川

会议语种:中文

页码: 1-12

在线出版日期: 2011-05-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

人才网页自动识别系统研究