中文无损压缩算法性能评估测试集：Hitlct

(0)

摘要：

数据无损压缩的压缩率不仪与算法有关,还与编码方式及数据流所蕴含的语义信息相关。随着Internet的发展,基于多字节编码的中文应用呈级数增长,但是目前主流的压缩算法都是基于单字节的,用其压缩源于中文应用的数据流时,人为地割裂了数据流所蕴含的语义信息,严重损害压缩率。结合压缩算法的有向性原理,必须研究面向中文的压缩算法,因此就需要有一个相对客观、全面的测试集来做为评价算法性能的统一基准,但目前通用的测试集Canterbury Corpus等仅包含ASClI编码的测试样本,用于测试基于单字节编码的压缩技术是合适的,但对于基于多字节的压缩技术则有明显的缺陷,本文提出的Hitlct Corpus即是对当前主流ASCII编码测试集的补充。

关键词： Hitlct Corpus 数据压缩性能评估测试集

作者: 常为领云晓春方滨兴王树鹏

作者单位: 哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190 哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190

会议类型: 国内会议

会议名称: 2008中国计算机网络安全应急年会(信息内容安全分会)

会议地点: 深圳

会议语种:中文

页码: 412-418

在线出版日期: 2008-04-07（万方平台首次上网日期，不代表论文的发表时间）

会议专题

中文无损压缩算法性能评估测试集：Hitlct