会议专题

LCS算法在术语抽取中的应用研究

本文介绍了一种基于最大公共子串(LCS,Longest CommonSubstring)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片段的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.29”%”;4-6字符双词术语抽取的效果尤佳,准确率接近100”%”。

最大公共子串算法 LCS算法 术语抽取 候选术语集 词过滤 学前教育

潘虹

南京师范大学教育技术系 南京 210097

国内会议

2009年计算机辅助教育软件开发与应用研讨会

济南

中文

102-108

2009-10-01(万方平台首次上网日期,不代表论文的发表时间)