含“的”字偏正结构的最长名词短语的自动识别
含“的”字偏正结构的最长名词短语是汉语特有的一类最长名词短语。该短语的自动识别对于自动句法分析,机器翻译等自然语言处理系统都有重要意义。本文在考察其结构和分布特征的基础上,分治了该短语的左右边界。实验基于64万字的新闻语料进行训练,并在32万字的同质语料上进行了开放测试,取得了70.52%的正确率。
最长名词短语 句法分析 短语识别 机器翻译 自然语言 语言处理系统
钱小飞 陈小荷
南京师范大学文学院 南京 210097
国内会议
大连
中文
96-101
2007-08-06(万方平台首次上网日期,不代表论文的发表时间)