会议专题

中文无损压缩算法性能评估测试集:Hitlct

数据无损压缩的压缩率不仪与算法有关,还与编码方式及数据流所蕴含的语义信息相关。随着Internet的发展,基于多字节编码的中文应用呈级数增长,但是目前主流的压缩算法都是基于单字节的,用其压缩源于中文应用的数据流时,人为地割裂了数据流所蕴含的语义信息,严重损害压缩率。结合压缩算法的有向性原理,必须研究面向中文的压缩算法,因此就需要有一个相对客观、全面的测试集来做为评价算法性能的统一基准,但目前通用的测试集Canterbury Corpus等仅包含ASClI编码的测试样本,用于测试基于单字节编码的压缩技术是合适的,但对于基于多字节的压缩技术则有明显的缺陷,本文提出的Hitlct Corpus即是对当前主流ASCII编码测试集的补充。

Hitlct Corpus 数据压缩 性能评估 测试集

常为领 云晓春 方滨兴 王树鹏

哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190 哈尔滨工业大学计算机网络与信息安全技术研究中心,哈尔滨 150001 中国科学院计算技术研究所,北京 100190

国内会议

2008中国计算机网络安全应急年会(信息内容安全分会)

深圳

中文

412-418

2008-04-07(万方平台首次上网日期,不代表论文的发表时间)