基于LDA的软件中文文档与代码间关联关系的提取方法研究
软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。本文探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到10%的提高。
可追踪链 主题模型 LDA 逆向工程
许冶冰 刘超
北京航空航天大学计算机学院,北京 100191
国内会议
南京
中文
1-8
2012-10-20(万方平台首次上网日期,不代表论文的发表时间)