基于词效应的中文术语提取方法
翻译项目中翻译文档的分词效果的好坏直接决定了翻译的质量.目前存在的统计分词方法如互信息、t-测试度、接续指数等对高频词的提取并不理想.论文分析了现有的统计分词的方法,改进了互信息计算的方法,结合t-测试度、接续指数,提出了一个综合统计量-词效应.以词效应为基础,提出了一种中文术语提取方法.实验分析表明,基于词效应的中文术语提取方法能够提取出待翻译文档中的术语,并且不需要对文档进行任何预先处理.
statistic segmentation mutual information t-test,term effect forward maximum matching based on term effect
刮俊杰 吴树国 伊胜伟
北京工业大学计算机学院,北京100124 北京航空航天大学软件开发环境国家重点实验室,北京 100191
国内会议
济南
中文
403-407
2009-05-15(万方平台首次上网日期,不代表论文的发表时间)