会议专题

中文网页标引源主题表达能力的调查统计

本次调查,通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计并进行统计数据的分析,旨在得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据.

汉语 网页 主题标引 加权 自动标引

丁璇 侯汉清

南京农业大学信息管理系(南京)

国内会议

第四届海峡两岸科技信息交流研讨会

北京

中文

161-165

2002-05-01(万方平台首次上网日期,不代表论文的发表时间)