会议专题

通过自聚类的软件说明文档来挖掘标注SAAS服务的标签

  基于SAAS的在线服务数量曰益宠大,使得如何有效的查找特定的服务成为突出问题。目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容易产生歧义。有鉴于此,本文提出一种从软件说明文档中挖掘用以标注服务的标签的方法,为了验证该方法,本文收集了多特软件平台上的软件说明文档,通过文本挖掘技术从中提取特征词汇,并对特征词汇进行相似度计算,利用特征词汇的相似度来计算软件说明文档之间的相似度,并以此来构建软件网络,其中节点为软件,边为软件间的相似关系,边上权值为相关说明文档之间的相似程度,再通过复杂网络社区发现算法对软件网络进行自动聚类,最后将聚类后的软件的说明文档中的常用特征词汇进行统计,将之定义为该类别服务的推荐标签。

服务标签 分词 文档相似度 软件网络

秦丽 李兵

武汉大学软件工程国家重点实验室,湖北武汉,430072;华中农业大学理学院,湖北武汉,430070 武汉大学软件工程国家重点实验室,湖北武汉,430072;武汉大学复杂网络研究中心,湖北武汉,430072;武汉大学计算机学院,湖北武汉,430072

国内会议

2012年第三届中国计算机学会服务计算学术会议

西安

中文

1-6

2012-08-16(万方平台首次上网日期,不代表论文的发表时间)