基于在线属性聚合的海量软件层次分类
互联网规模的软件资源库正从根本上改变传统的软件开发模式,资源库中海量软件的高效层次分类对基于互联网资源的软件开发具有重要意义.传统软件分类方法基于软件源代码或字节码实现粗粒度的扁平分类,并且只在小规模数据集上进行了验证.文中提出了一种基于软件在线属性聚合的层次分类方法,设计了一个层次分类框架,基于跨资源库软件在线描述和标签的加权聚合,实现对海量软件的高效层次化分类.文中在超过18000个开源软件上进行交叉验证,实验结果表明文中提出的在线属性加权聚合方法能显著提高软件分类效果.在粗粒度扁平分类下文中方法能够达到基于源代码/字节码分类近似的性能,而且,与相关工作比较,文中方法实现了涵盖123个更细粒度类别的层次化分类,能够更有效地对海量软件进行分类.
软件工程 数据库 在线属性 层次分类
王涛 王怀民 尹刚 李翔 杨程 邹鹏
国防科学技术大学计算机学院并行与分布处理国家重点实验室 长沙 410073 装备学院 北京 101400
国内会议
长沙
中文
2007-2018
2013-10-01(万方平台首次上网日期,不代表论文的发表时间)