LCS算法在术语抽取中的应用研究
本文介绍了一种基于最大公共子串(LCS,Longest CommonSubstring)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片段的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集。通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.29”%”;4-6字符双词术语抽取的效果尤佳,准确率接近100”%”。
最大公共子串算法 LCS算法 术语抽取 候选术语集 词过滤 学前教育
潘虹
南京师范大学教育技术系 南京 210097
国内会议
济南
中文
102-108
2009-10-01(万方平台首次上网日期,不代表论文的发表时间)