会议专题

基于SDD算法的特定网页采集技术

SDD算法可以用来构建数据量大和变化快的文档集的隐含语义索引.利用SDD算法来建立特定网页采集模型需要两步,即建立训练网页集和生成SDD阵,其中SDD阵的生成过程包括中文网页预处理、中文分词、建立词表、构建文档——词矩阵、计算SDD阵、压缩SDD阵.在windows平台上构建了中文特定网页的采集实验系统,运行结果表明系统设计是可行的,并且具有良好性能.

语义检索 网页采集 中文网页预处理

周国民 丘耘 郑彦妍 曾枝连 樊景超

中国农业科学院文献信息中心(北京)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

87-91

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)