会议专题

代码与文档间关联关系的提取方法研究和改进

使用自然语言编写的软件文档与其程序代码之间存在着重要的关联,发现这种关联性并建立起文档与代码间的可跟踪性链,将有助于软件变更的控制和管理。利用基于概率模型、向量空间模型和潜在语义模型的常规信息检索方法可以帮助提取这种关联关系,特别是发现一些潜藏于文字之间的隐性关联。但是,这些方法只是将代码和文档当作一般文献来处理,没有考虑并利用软件文档及程序代码之间基本关联要素的特点和一般规律。本文在潜在语义模型的基础上,引入了基于类继承关系的代码聚类、代码特征项分类加权、相似度词典,以及基于文档类型的分类搜索等四种措施,对检索模型进行了改进,以提高对文档和代码关联性的查准率。实验结果表明,使用前三种措施可以提高查准率5%~16%,全部四种措施可以在保持查全率不变的情况下提高查准率15%以上。

信息检索 关联关系 程序理解 逆向工程

赖冠辉 王晓博 刘超 金茂忠

北京航空航天大学计算机学院,北京 100191

国内会议

2008全国软件与应用学术会议(NASAC”08)

广州

中文

352-358

2008-11-11(万方平台首次上网日期,不代表论文的发表时间)