会议专题

基于结构与内容的网页主题信息提取研究

结合HIML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.

映射表 启发式规则 HTML 区域分割 向量空间模型

吴鹏飞 孟祥增 刘俊晓 马凤娟

山东师范大学,传播学院,山东,济南,250014

国内会议

第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)

济南

中文

131-134

2006-07-21(万方平台首次上网日期,不代表论文的发表时间)