会议专题

基于大规模语料的中文词聚类研究与实现

词聚类算法对自然语言处理具有重要意义.Brown1990年提出了一种经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语料进行处理(Brown文中提到词数超过5000便是不可行的).本研究中我们尝试着对上万词数的中文词语料进行了实现.并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想.在近似的情况下,它可以降低原算法一阶复杂度.本实验所用的语料来自人民日报1998年1月份的部分内容.

中文词聚类 聚类算法 语料 数据挖掘

蒋宏飞 曹海龙 杨沐昀

哈尔滨工业大学计算机系(哈尔滨)

国内会议

第二届全国学生计算语言学研讨会

北京

中文

111-116

2004-08-01(万方平台首次上网日期,不代表论文的发表时间)