人才网页自动识别系统研究
提出了人才网页自动识别系统设计,实现了对Nutch 定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的Url特征、网页Title 标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征 词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM 实现基于多特征值的人 才网页自动识别。通过对所抓取的高校网站网页集合随机样本实验证明,该人才网页自动识 别系统准确率达到了85%以上。人才网页自动识别结果为进一步自动构建包装器进行人才信息抽取提供良好基础。
LibSVM 人才网页 自动分类 分类特征提取
徐健 温浩胜
中山大学资讯管理学院,广州 510006 深圳市迅雷网络技术有限公司,深圳 518057
国内会议
2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会
银川
中文
1-12
2011-05-23(万方平台首次上网日期,不代表论文的发表时间)