大规模语料的频繁模式快速发现算法
已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6G,单机平均每秒处理文本语料3.28M。
频繁模式 语料划分 物理内存 快速发现算法
龚才春 贺敏 张华平 许洪波 程学旗
中国科学院计算技术研究所,北京 100080;中国科学院研究生院,北京,100049 中国科学院计算技术研究所,北京 100080
国内会议
青岛
中文
281-287
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)