一种多特征向量表示的网站分类方法
基于特定领域的网站主题识别与分类是领域资源共享的重要研究内容.与网页分类相比,网站的特征描述和分类更加困难.同一主题的网站,其内容组织结构存在相似,可以通过链接文本信息来反映网站的这种结构.因此,在向量空间模型的基础上,从网站内部抽取网站结构和内容的文本特征词,通过混合向量空间模型来描述网站的主题特征.同时基于这种模型,采用类中心向量法进行了制造主题网站的识别实验.实验结果表明这种模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性。
网站分类 多特征向量 相似测度 网站主题识别 向量空间模型
董宝力 刘曦泽
太原科技大学机械工程系,太原,030024;浙江大学机械与能源工程学院,杭州,310027 浙江大学机械与能源工程学院,杭州,310027
国内会议
北京
中文
207-211
2005-09-23(万方平台首次上网日期,不代表论文的发表时间)