基于大规模语料的中文词聚类研究与实现
词聚类算法对自然语言处理具有重要意义.Brown1990年提出了一种经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语料进行处理(Brown文中提到词数超过5000便是不可行的).本研究中我们尝试着对上万词数的中文词语料进行了实现.并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想.在近似的情况下,它可以降低原算法一阶复杂度.本实验所用的语料来自人民日报1998年1月份的部分内容.
中文词聚类 聚类算法 语料 数据挖掘
蒋宏飞 曹海龙 杨沐昀
哈尔滨工业大学计算机系(哈尔滨)
国内会议
北京
中文
111-116
2004-08-01(万方平台首次上网日期,不代表论文的发表时间)