基于层次化硬件检查点的SRAM型FPGA快速故障恢复技术
随着工艺特征尺寸逐渐趋近于纳米级,SRAM型FPGA越来越容易受到软错误的影响而引发系统故障.检查点是进行故障恢复的有效技术,可以将故障系统恢复至之前的正常状态.由于检查点保存和恢复过程中需要暂停系统功能,系统平均恢复时间(mean time to repair,MTTR)对系统性能至关重要.HHC(Hierarchical Hardware Checkpoint)层次化的硬件检查点技术包含高速片上检查点和低速片外检查点,能够对单粒子效应(single event effect,SEE)引起的绝大多数故障采用片内检查点进行恢复,因此可显著降低MTTR.同时,由于HHC仅需在片上保存与用户设计有关的逻辑状态的比特位,而对配置比特位使用ECC进行保护,因此片内存储资源的占用很少.实验数据显示,相对于传统的片外检查点技术,HHC技术可以使MTTR降低94.30%,存储资源占用仅为FPGA的11.11%,可以进一步优化到6%.
现场可编程门阵列 故障恢复 层次化硬件检查点
杨恩山 黄柯衡 胡瑜 李晓维 龚健 刘鸿谨 刘波 华更新
计算机体系结构国家重点实验室 中国科学院计算技术研究所 北京 100190;中国科学院大学 北京 100190 计算机体系结构国家重点实验室 中国科学院计算技术研究所 北京 100190 北京控制工程研究所 北京 100190;空间智能控制技术国防科技重点实验室 北京 100190
国内会议
重庆
中文
1-6
2013-07-27(万方平台首次上网日期,不代表论文的发表时间)