基于大规模语料的中文词聚类研究与实现

摘要：

词聚类算法对自然语言处理具有重要意义.Brown1990年提出了一种经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语料进行处理(Brown文中提到词数超过5000便是不可行的).本研究中我们尝试着对上万词数的中文词语料进行了实现.并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想.在近似的情况下,它可以降低原算法一阶复杂度.本实验所用的语料来自人民日报1998年1月份的部分内容.

关键词：中文词聚类聚类算法语料数据挖掘

作者: 蒋宏飞曹海龙杨沐昀

作者单位: 哈尔滨工业大学计算机系(哈尔滨)

会议类型: 国内会议

会议名称: 第二届全国学生计算语言学研讨会

会议地点: 北京

会议语种:中文

页码: 111-116

在线出版日期: 2004-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于大规模语料的中文词聚类研究与实现