会议专题

基于流形排序的领域词抽取方法

领域词通常是由—个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。 在此假设下,本文利用领域词的内在联系,引入基于流形的半指导排序方法,标记少量领域词,通过短语网将领域性分数进行传播,从而计算出所有短语的领域性分数,选取高分的短语作为领域词。我们在4个领域上进行了实验,结果表明该方法的有效性。

领域词 领域部件词 流形排序 半指导学习

宋涛 李素建

北京大学计算语言学研究所 北京 100871

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

234-240

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)