会议专题

PLS:一种基于信息自动标引的最小推进分词算法及其实现

自动标引是文本信息预处理的基础和核心,摘要信息的自动标引仍是目前研究的热点.本文对自动标引的研究立足于档案文献这一专门领域.本文首次将基于词首最长匹配的词典分词法,结合基于段句分割符表及停用词表的切分标记分词法,运用于档案文献的摘要自动标引,提出并实现了”正向扫描(POSITIVESCANNER)+最大匹配(LONGEST_WORDMATCH)+最小推进(SHORTEST_WORDPUSH)”(简称PLS)的分词优化算法,最后设计了一个通用的档案信息标引系统.

PLS 自动标引 最小推进分词算法 档案文献

王兰成 田梅 侯双

解放军南京政治学院上海分院,上海,200433;东华大学信息学院,上海,200050 解放军南京政治学院上海分院,上海,200433

国内会议

第十九届全国数据库学术会议

郑州

中文

308-309,342

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)