中文无损压缩算法性能评估测试集:Hitlct

数据无损压缩的压缩率不仪与算法有关,还与编码方式及数据流所蕴含的语义信息相关。随着Internet的发展,基于多字节编码的中文应用呈级数增长,但是目前主流的压缩算法都是基于单字节的,用其压缩源于中文应用的数据流时,人为地割裂了数据流所蕴含的语义信息,严重损害压缩率。结合压缩算法的有向性原理,必须研究面向中文的压缩算法,因此就需要有一个相对客观、全面的测试集来做为评价算法性能的统一基准,但目前通用的测试集Canterbury Corpus等仅包含ASClI编码的测试样本,用于测试基于单字节编码的压缩技术是合适的,但对于基于多字节的压缩技术则有明显的缺陷,本文提出的Hitlct Corpus即是对当前主流ASCII编码测试集的补充。
Hitlct Corpus 数据压缩 性能评估 测试集
常为领 云晓春 方滨兴 王树鹏
哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190 哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190
国内会议
深圳
中文
412-418
2008-04-07(万方平台首次上网日期,不代表论文的发表时间)